谷歌温州代理商-温州谷歌代理商-谷歌温州推广-温州谷歌推广-网站建设-小语种建站谷歌推广
联系人:邓先生
手机:086-15858758563
邮箱:621023874@qq.com
QQ:621023874
邮编:325000
2016年底,研发出AlphaGo的谷歌DeepMind工作室,与牛津大学合作推出了一款能够阅读唇语的软件,在人工智能领域引发关注。通过测试,这款软件的识别准确率达到46.8%,虽然还不完美,但已经远超人类的唇读准确率(12.4%)数倍之多。DeepMind工作室的负责人称,这款软件可以帮助到听力受损的人,未来,他们的努力方向是从识别单词到可以识别句子,进一步提高唇读的准确率。
科技的进步往往比我们预想中更快。在谷歌发布了唇读软件一年之后,搜狗公司在今年的乌镇互联网大会上,带来了全球首个公开演示的唇语识别系统。在会场,许多嘉宾都测试了这一全新的科技成果,其中还包括来自央视和多个地方台的记者,无论是“今天天气怎么样”这样的短句,还是“吃葡萄不吐葡萄皮”这样的绕口令,记者们只需要动动嘴唇,系统都可以准确识别。
根据公开资料显示,谷歌唇读软件支持的词汇量只有17500个,而搜狗唇读系统可以支持的中文词汇超过十万个,在车载、智能家居等垂直应用领域,准确率超过90%。不得不承认,在唇读这个具体的领域,中国制造已经领先于大洋彼岸的科技巨头了。
有人或许好奇,唇读系统的技术难度在什么地方?为什么从谷歌到搜狗,科技公司都在这个领域进行研究,其发展和应用前景又在哪里?
唇读系统的技术难度
简而言之,唇语系统都是由“看——听——同步——写”四个人工智能板块组合而成的。首先,它要求系统要能够对人的嘴唇运动进行捕捉记录,然后将记录下来的内容输入为图像序列,根据图像信息,机器学习进行相应的图像文字解码,经过复杂的运算得出结果,再将内容同步至书写设备上。
此前,谷歌的方式是使用卷积神经网络对静止的图像进行分析,目的是辨认语言当中的最小单位,之后再逐步尝试去识别单词和词组。而搜狗采用的方式,是他们首创的复杂端到端深度神经网络技术,他们的优势是可以根据语言序列建模,直接识别整句话,不仅提升了识别速度,准确度也更高。
唇读系统的应用前景
读唇术看上去很科幻,许多人还不了解这项技术的商业潜力在什么地方。而根据目前业内人士的分析,其应用场景至少在以下几个方面:
首先,是对语音识别的进一步强化。唇语识别可以在环境嘈杂,语音识别受到干扰的情况下判断语音内容,这样就可以把语音识别的准确率提升到一个全新的水平,例如最基础的语音输入、车载指令、同声传译等方面的用户体验都可以随之得到提升。
其次,是在安保领域,可以判断无声指令。目前,我们国家的天网系统已经普及,但是只有摄像头,没有麦克风,对于许多治安问题的管理和侦破仍然是一个挑战。有了成熟的唇语识别系统之后,我们不仅可以拍下犯罪分子的容貌,甚至可以了解到他说了什么,这对于维护社会治安秩序是很用的帮助;
另外,在商业领域,唇语识别可以帮助进行残疾人教育,以及介入硬件产品,比如助听器的改进。对听力受损的残疾人来说,可以说是为他们架起了一座沟通的桥梁。
总结
无论是谷歌还是搜狗,他们的实践都证明唇语识别作为一项重要的人工智能技术,其应用场景极为广泛。牛津大学唇语技术研究团队的Yannis Assael就曾经向媒体表示,这一技术不仅有着前沿的技术意义,也具备着难以估量的商业可能,从军事到公益,从支付到智能家庭,众多行业都会因这项技术发生改变。而从行业内部看,这些提前进入唇语识别研究的公司与团队,将有更大的机会筑起属于自己的技术壁垒,这相当于为他们的商业版图打下了一个坚实的基础。