我花了很多时间研究文章,而且我常常在走到火车站或外出时一般地考虑一篇文章的主题。
一天晚上,当我从我的工作步行1.5英里到车站时,我想“如果我能记录我想说的话然后将其自动转录到我可以编辑和格式化的文本文件中,那就不好了” 。
我花了很长时间查看可用于语音识别和听写的不同选项,包括使用Linux中的听写软件直接通过麦克风录制,将文件录制为MP3或WAV格式并通过命令行转换,以及使用Chrome和Android应用程序。
这篇文章强调了我辛苦劳动几天后的研究结果。
Linux选项
试图在Linux中找到听写和语音识别软件并不是那么容易,而且可用的选项并不那么聪明。
这个维基百科页面列出了可能的选项,包括CMU Sphinx,Julius和Simon。
我正在使用基于Debian测试的SparkyLinux,我可以告诉你,存储库中唯一可用的语音识别包是Sphinx。
我最终尝试的本机Linux程序是PocketSphinx,我用它将WAV文件转换为文本,Freespeech-VR是一个python应用程序,可以让你直接从麦克风录制。
我还尝试了几个Chrome应用程序,包括VoiceNote II和Dictanote。
最后,我尝试了“听写和电子邮件”和“谈话和说话听写”Android应用程序。
Freespeech-VR
Freespeech-VR在标准存储库中不可用。我从这里下载了文件。
下载并解压缩zip文件的内容后,我打开了一个终端并导航到提取文件的文件夹。我输入以下命令来打开freespeech-vr。
sudo python freespeech-vr
我有一副带有相当不错的麦克风和相当清晰的南方英国口音的耳机。
freespeech-vr窗口中出现以下文本:
欢迎来到结果的单位狗今天确保如何管理测试必须测试何时文本使用系统方式演讲我对每个人只有一个希望留下来和一只鸡的手段金色如系统Ea,当我的名字,下一个叫来电话这个文件很快一个案件电话到Hands-空间狮身人面像Going那不是手机将被分享一个训练和工具使用说话当你完成说一个用过的文件最后一个故事A和使用a当它是如何成功这个Linux就像你避免的那样
我现在想说的是,这不是Dogs Dogs网站,我没有提及任何与金鸡有关的事情。我实际上是在试图描述使用语音识别软件的过程。
我尝试了几次软件,包括不同的音高和速度,但准确性很差。
PocketSphinx
PocketSphinx能够使用命令行获取WAV文件并将其转换为文本。 PocketSphinx可以通过Debian存储库获得,并且应该适用于大多数发行版。
我在PocketSphinx中发现的主要问题是你几乎需要语音识别,语言文件,词典以及如何训练系统等概念。
安装PocketSphinx后,您应该访问CMU Sphinx网站并尽可能多地阅读信息。您还需要下载以下模型文件。
- 美国英语通用语言模型
(如果您不是母语为英语的人,请选择适合您的语言模型)。
对于外行人来说,PocketSphinx和Sphinx的文档很难理解,但从我可以看出的字典文件用于提供可能的单词列表,语言模型有可能的发音列表。
为了测试PocketSphinx,我使用了我自己的声音录音,Al Pacino在“The Devils Advocate”中的片段以及来自“Morgan Freeman”的片段。这一点的目的是尝试不同的声音,而对我来说,没有人可以像摩根·弗里曼一样清楚地讲述一个故事,也没有人像阿尔帕西诺那样提供一条线。
要使PocketSphinx工作,它需要一个WAV文件,它需要采用某种格式。如果文件是MP3格式,请使用ffmpeg命令将其转换为WAV格式:
ffmpeg -i inputfilename.mp3 -acodec pcm_s16le -ar 16000 outputfilename.wav
要运行PocketSphinx,请使用以下命令:
pocketsphinx_continuous -dict /usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic -infile voice2.wav -lm cmusphinx-5.0-en-us.lm 2> voice2.log
pocketsphinx_continuous获取WAV文件并将其转换为文本。
在上面的命令中,socksphinx被告知使用一个名为“/usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic”的字典文件,语言模型为“cmusphinx-5.0-en-us.lm”。转换为文本的文件称为voice2.wav(这是我用我的声音录制的录音)。最后,2>将您不一定需要的所有详细输出放入名为voice2.log的文件中。测试的实际结果显示在终端窗口中。
使用我的声音的结果如下:
欢迎来到下一个关于本周没有关于哪一个识别软件在一分钟内
结果并不像freespeech-vr那样可怕,但仍然没有真正可用。然后我尝试将PocketSphinx与Al Pacino一起使用,但这根本没有返回任何结果。
最后我尝试使用电影“布鲁斯全能”中的摩根弗里曼的声音,结果如下:
000000000:我们会在她身上000000001:那就是那么艰难,是的,现在是的,这是我们活着的最多,我是热的一部分000000002:在电梯里谁是棒球时刻的钥匙或知道如何做生活000000003:将会恢复的是什么000000004:他们没有写000000005:他们就在我身边000000006:你必须是规则000000007:我一直在等你000000008:他在这里了解到,这是一个杀人圣诞派对的插图000000009:这是写o的方法之一。我认为很少有人总是穿一个000000010:像团结一样的问题不会给他带来好处我估计他们当时我们没有你认为我在世界上的所有人都会回家并且我已经看到了000000011:拥有它的父亲000000012:关于这一点很多000000013:这样做了000000014:那些你不会堕落的东西000000015:就在秋天000000016:好好抓住我000000017:如果我也认为他们会有一个那样的结果就是那个结婚的那个就是我们不喜欢的话我不喜欢
我的测试很难被认为是科学的,PocketSphinx的开发人员可能会说我没有正确使用该软件。还有一种称为语音训练的技术,可用于创建更好的词典和语言文件。
我的首要观点是,它对标准的日常使用来说太难了。
VoiceNote II
VoiceNote II是一款使用Google语音识别API的Chrome应用。
如果您使用的是Chrome或Chromium浏览器,则可以通过网上应用店安装VoiceNote II。
VoiceNote II上的图标以奇怪的方式排列,因为您需要在窗口底部设置语言,编辑按钮也位于底部,但记录按钮位于右上角。
您需要做的第一件事是选择一种语言,这可以通过单击世界图标来实现。
要开始录制,请单击麦克风图标,然后开始对着麦克风讲话。为了获得最好的结果,我发现慢慢说话是关键,这样软件就有机会跟上。
结果不是很好,如下所示:
您好,欢迎联系。 Go-Travels.com今天关于语音到文本转换dunelm farrell经济衰退2008年的文章转换它并说它很好地支持我发现语音文本插件的最佳方式显示2014debian或rpm包打开它的语音类型到语音打开它如果你想选择vs选择在爱丁堡法语德语让你有时间在海洋麦克风联合王国开始你的文字作为一个文本文件完成它的成功很好,这是英国南部非常标准的英语口音最好的但是我要去文本这个torrentalong与实际的文件,你可以看到错误,使你嘲笑你的朋友
Dictanote
Dictanote是另一款可用于听写目的的Chrome应用程序,并且更加直观,但结果并不比VoiceNote II更好。
我只使用了Dictanote的演示版本,它可以阻止你创建新文档,但它可以让你讨论已经在编辑器中的文本。我能够测试语音识别,但结果并不比VoiceNote II好,所以我没有注册专业版。
听写和邮件
“Dictation And Mail”是一款使用原生Google语音识别API的Android应用程序。
“听写和邮件”的结果比迄今为止尝试的其他任何程序都要好得多。
您好,欢迎来到Linux lifewire。今天我们谈论将声音转换为文本
“听写和邮件”的伎俩是说话缓慢,发音也是如此,你可以用一种均匀的口音。
谈完后,您可以将结果通过电子邮件发送给自己。
谈话和谈话听写
我试过的另一个Android应用程序是“Talk and Talk Dictation”。
这个应用程序的界面是最好的,语音识别确实非常好。录制完听写后,我能够以各种方式分享结果,包括通过电子邮件。
欢迎来到linux Go-Travels.com今天我们谈论的是将语音转换为文本
正如您所看到的,上面的文字就像您可能期望的那样清晰。慢慢说话是关键。
摘要
原生Linux在语音识别和特别是听写方面有一些方法。有些应用程序使用Google Voice API,但它们尚未列在存储库中。
ChromeOS应用程序稍微好一点,但到目前为止,使用我的Android手机取得了最好的效果。也许手机有更好的麦克风,因此语音识别软件有更好的转换机会。
为了使语音识别真正可用,它需要更直观,需要更少的设置。你不应该乱用语言模型和词典,以使其易于理解。
然而,我很欣赏整个语音识别艺术非常具有挑战性,因为每个人都有不同的声音,一个国家的地区到地区有很多方言,从不担心全世界使用的数百种语言。
因此,我的分析是语音识别软件仍在进行中。