近日,百度Big Talk2015年第一期在美国硅谷开讲,百度首席科学家吴恩达(Andrew Ng)在会上表示,百度是第一个建立深度学习的网络,而深度学习将改变人工智能,这些机会体现在文本、图像和语音识别上。吴恩达以火箭为例,指出, “建造火箭需要一个很多的燃料(数据)和很大的引擎,深度学习就是让火箭腾飞的引擎。“他认为,神经元网络的技术很有前景,建立了有效的深度学习的算法将会改变整个人工智能。
语音识别技术的应用
与机器进行语音交流,让机器明白你说什么,这是我们长期以来梦寐以求的事情。而提起语音识别.我们最容易想到的还要数不会讲笑话的Siri。
作为世界上第一家上市的语音识别公司,Siri的“娘家”Nuance有着辉煌的历史,曾经在语音领域一统江湖。苹果iPhone手机的虚拟语音助手Siri、三星的语音助手S-Voice.各大航空公司和顶级银行的自动呼叫中心和虚拟在线语音助手,都采用了Nuance的技术。近年来,Nuance的语音识别技术已经从实验室走向市场,将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。
在智能车载领域,Nuance定制的汽车级语音平台Dragon Drive获得了201 5CES创新大奖,通过将车载平台与手机连接,Nuance可以帮用户实现语音控制GPS导航、信息收发、电话接打、社交网络更新等等。
在前一段时间,Nuance在其官方博客上,公布了将发力医疗领域的消息。消息中说,Nuance在医疗领域进军,不仅仅通过智能手表追踪运动情况和心率,还将会直接根据人的身体状况匹配相应的服务,如合适的餐厅或食物等,当然这些大多是基于可穿戴设备的。另外他们还考虑到更多场景.诸如紧急语音求助、医患对话存档、呼叫中心的对话听写等。
随着互联网技术的快速发展,以及手机等移动终端的普及应用,目前可以从多个渠道获取大量文本或语音方面的语料,这为语音识别中的语言模型和声学模型的训练提供了丰富的资源,使得构建通用大规模语言模型和声学模型成为可能。在语音识别中,训练数据的匹配和丰富性是推动系统性能提升的最重要因素之一,但是语料的标注和分析需要长期的积累和沉淀,随着大数据时代的来临,大规模语料资源的积累将提到战略高度。从Nuance向医疗领域发力看出,由于医疗领域词汇库专业性强演变性弱,只要建立完整的数据库,就可以做到对疾病名称、药品名称相对精确的识别。
如今国内也有了相应的应用如支持语音搜索功能的病历夹与珍立拍,致力于为医生提供一个安全存储病历资料的云空间,方便查找病例。而科大讯飞、云知声、盛大、捷通华声、中科信利、尚科语音、搜狗语音助手、紫冬口译、腾讯语音、百度语音等都日渐被用户习惯的系统,都采用了最新的语音识别技术,市面上其他相关的产品也直接或间接嵌入了类似的技术。
从打字到语音的习惯改变
随着语音识别在移动终端上的应用越来越火热,借助机器学习领域深度学习研究的发展,以及大数据语料的积累,语音识别技术得到突飞猛进的发展。
腾讯、百度都建立了自己的语音团队,在移动搜索领域发力 随着吴恩达加盟,担任首席科学家,负责百度研究院,百度看起来更加高大上了许多。吴恩达的研究领域就是机器学习和人工智能,研究重点是深度学习。深度学习被认为是当前的机器学习算法里最接近人脑思维的一种。在语音识别方面,会对互联网、家用电器带来很大的改革在百度Big Talk2015年第一期公开课上,吴恩达说,“语音会是改革互联网的很大一个因素。语音识别会推动物联网的革命,比如汽车界面、家用设备,以及可穿戴设备。在这方面,特别是在移动互联网方面,中国其实领先于美国和其他国家很多。”
今天国内的很多用户都会使用语音搜索,如年幼的用户、年龄大的用户,或文化程度不高的用户,对于他们来说,用语音搜索或许是可以让我们知道他们需求的唯一方式。因此,语音对话机器人、语音助手互动工具等层出不穷,许多互联网公司纷纷投入人力、物力和财力展开此方面的研究和应用,目的是通过语音交互的新颖和便利模式迅速占领客户群。比如搜狗在移动搜索领域“发声”,推出“微信头条”功能宣称可以根据用户兴趣变化,来智慧地满足用户的差异化阅读需求。
而我们今天最常用的语音识别服务,莫过于打车软件中的“马上叫车”。我们习惯直接与司机语音互动,比如说“我想打车到国贸大厦”就能实现叫车功能。作为一款基于语音识别、语意理解技术,“出门问问”每周在迭代的嘀喃打车后台,通过语音识别技术发布订单作为面向移动搜索领域的智能手机应用,用户可以通过语音提问的方式直接获取到自己需要的各种生活信息。而交互能力、信息抓取智能语音推荐,为手机端、可穿戴智能设备上的出门问问的语音搜索功能侧重于有应用场景之下使用提供了可能。出门问问CEO李志飞说, 技术能够真正帮助所有人提高生活质量,这也是技术的目的。”
用户每天会花很多时间在智能手机上。在安静的环境中,手机可以很容易识别语音。然而,吴恩达说,“一般来说最大的语音识别需要2000小时的数据支持,而在嘈杂环境中,我们要利用7000小时的语音数据,并从中总结出10,0000多个小时的数据,通过这些数据建立矩阵。”在嘈杂的环境中也表现的比较好的秘诀就是大量的数据如果有一天,在嘈杂的环境中,比如车里或者餐厅中,也能够很好地识别语音,这个技术就可能改变我们的生活。
2222