谷歌温州代理商-温州谷歌代理商-谷歌温州推广-温州谷歌推广-网站建设-小语种建站谷歌推广
联系人:邓先生
手机:086-15858758563
邮箱:621023874@qq.com
QQ:621023874
邮编:325000
这对开发人工智能驱动的语音识别和文本到语音合成产品的易访问性工程师提出了挑战,他们必须适应有限数据集可用的一系列缺陷。幸运的是,谷歌的科学家们正在研究如何将语音模型中的单词替换、删除和插入错误降到最低。
研究科学家法迪·比阿德西和软件工程师罗恩·韦斯在一篇博客文章中写道:“在当今的技术环境下,对语音界面的访问很多时候会受到限制,比如依赖于直接理解语音的数字助手,这意味着语言障碍者被排除在最先进的工具和体验之外。”“Parrotron的作用就是让非典型语音的用户更容易与他人交谈,也更容易被他人和语音界面所理解,它的端到端语音转换方法更直接地重现用户想要的语音。”
Parrotron利用端到端的人工智能系统,该系统经过培训,能够将有障碍的人的语音直接转换为“流畅的”合成语音,有效地跳过文本生成。它仅考虑语音信号而不是视觉提示,例如嘴唇运动,并且使用平行的输入、输出语音对语料库进行两阶段训练。
一般的语音到语音转换模型首先从大数据集馈送样本,然后暴露于语料库,该语料库将其变量调整为来自目标人的非典型语音模式。通常,建立这种高质量的模型需要说话者记录数小时的训练数据,但研究人员设法从现有的文本到语音系统中提取数据,使他们能够利用先前存在的转录语音识别语料库。
第一阶段使用了大约30,000小时的数据集,由数百万对话语组成,每对话语包括一个自然话语和一个相应的合成话语,这些合成话语来自谷歌的平行波网文本到语音系统。研究人员注意到,语料库中包含了来自“成千上万”人的片段,这些人来自数百种方言、口音和声学条件,使得用同一种语言的“典型”语音对一系列语言和非语言内容、口音和噪声条件进行建模成为可能。
完全训练的转换模型为第二个训练阶段提供种子,该阶段涉及一个单独的话语对数据集,可选择由目标发言者提供,但也可以从Google正在进行的项目Euphonia等来源获得。第二个语料库用于使网络适应独特的声学、语音和语言模式,包括说话者如何改变,替换或删除某些元音或辅音。
该团队报告说,使用多任务目标训练系统,即预测目标音素,同时生成目标语音的频谱图,从而显着提高质量。他们与ALS的一组发言人以及谷歌的聋人研究科学家和数学家Dimitri Kanevsky一起验证了他们的方法,他们录制了15个小时的个人语料库。在Kanevsky的案例中,Parrotron的输出将谷歌自动语音识别的单词错误率从89%降低到32%。至于说ALS的人,人类志愿者报告说,在几乎所有情况下,他们的语言理解能力都有所提高。
“鉴于Parrotron的 “从语音到语音”的培训目标函数,即使错误,生成的输出的语音也可能在声学上与输入语音相似,因此说话者的初衷不太可能显著改变,通常仍然可以理解其意图,“Biadsy和维斯写道。“此外,由于Parrotron并不倾向于从预定义的词汇集中生成单词,因此模型的输入可能包含全新的发明单词、外来词,甚至是无意义的单词。”
该团队将未来的工作从独立调整的AI模型组合转变为单一模型,他们期望这将带来“显着”的性能改进,并大大简化Parrotron的架构。他们目前正在招募志愿者来记录短语 - 有兴趣的人可以在这里报名参与。
此前,谷歌在其2019年I/O开发者大会上公布了三个独立的无障碍项目:前面提到的旨在帮助语言障碍患者的Euphonia项目;Live Relay,专为聋哑人士而设;和Diva项目,它通过谷歌助手给人们一些独立和自主权。当时,Mountain View公司指出了世界卫生组织的一些指标,以支持其努力:超过10亿人,或15%的人口,患有某种残疾。
声明:转载此文是出于传递更多信息之目的。若有来源标注错误或侵犯了您的合法权益,请作者持权属证明与本网联系,我们将及时更正、删除,谢谢。