科技巨头争抢语音交互入口,能否改变人与机器交互方式?

  • 来源: 驱动中国 文:马婷婷   2017-05-19/16:44
  • 驱动中国 2017年5月19日消息  随着人工智能的迅速崛起,新一轮核心技术变革已经跃然眼前。语音技术作为最核心的入口,成为科技巨头们争相攻下的堡垒。亚马逊,苹果、微软、谷歌、百度等多家科技巨头也纷纷进军语音助手市场,该领域的竞争日趋激烈。

    QQ图片20170519163533

    2016年是聊天机器人接管硅谷的一年,但语音技术能否从根本上撬动人与机器交互的庞大根基却尚难定论。当激进的瞭望者们描述:物联网爆发之际,语音技术何等不可思议,将彻底颠覆传统复杂的手动操作模式等等,而一些冷静的现实派却认为:这些机器人并不怎么会聊天。

    科技巨头们的“语音”交互战

    为了能够在这个即将到来的生态系统中抢占制高地,各大科技巨头越来越重视语音技术发展。苹果Siri依托于iPhone,亚马逊Alex依托于Echo设备,在搜索和语言领域占据技术优势的谷歌却在硬件发展上晚了一拍,最为消费者所熟知的还是Google Home设备上的语音服务,而微软则眼光独到,其人工智能旨在帮助人们做到更好,而不是与人竞争。

    Facebook近日宣布启动新的平台ParlAI,加大语音识别研发力度,使计算机能与人进行有意义的对话。而微软与谷歌则展开了一场实力角逐。

    QQ图片20170519163614

    在技术上,微软有与谷歌TensorFlow相匹敌的人工智能开源开发工具CNTK,以及提供全部人工智能技术的Azure云。在业务上,微软现在有三款聊天机器人,主打情感计算的小冰、主打商务助理的小娜,还有在垂直领域的深度应用智能客服。在神经网络翻译领域,Microsoft Translator已经可以与Google Translate相匹敌。

    百度则顺利度过了和语音技术的“七年之痒”, 从最初的基于云端识别的互联网应用到如今成功将 HPC 技术移植到深度学习平台,百度在语音技术方面的提升相当可观。

    QQ图片20170519163557

    此外,智能手机的语音技术也逐渐走向产品化,像老罗发布新机坚果Pro,搭载“闪念胶囊”功能,采用讯飞输入法语音识别技术,一分钟400字,抓住你的灵感一现。闪念胶囊其实就是一个语音技术,包括传闻已久的苹果 Siri 音响也有几分延续语音产品化热度的可能。

    吴恩达表示,“至少在中国,我们会在接下来几年时间普及语音识别应用,让人机沟通成为一件非常自然的事。你会很快习惯与机器流畅交流的时光,而忘记以前是如何与机器交互的。”

    各大科技巨头已经纷纷抢滩智能语音市场,而人工智能的进步与发展也让语音技术的识别突飞猛进。不过,从语音技术之争到“语音技术+硬件”的较量,能够看出只有能走进广大消费者的语音技术才有可能真正打响第一枪。

    语音技术发展痛点:深度算法+噪音识别+语义理解

    回归到现实人类与机器的语音交互场景,从第一批兴起的智能手机语音技术到聊天机器人,更多时候是用户适应它们的习性,而不是反过来适应用户的习性。

    聊天机器人的回复“牛头不对马尾”是常有的事,受到环境影响发挥失常;受到噪音干扰发挥失常;深度算法的复杂性限制实际应用等都是亟待解决的问题。

    比如“鸡尾酒会效应”人类可以在诸多人的讲话中屏蔽掉次重点,捕捉最想听到的信息。而机器人面对嘈杂的语音技术怎么分出个主次搜索到有用信息?从目前市场上的聊天机器人来看,在噪音处理环节并没有很理想。

    对于复杂的语音环境来讲,本身就很难达到普适性的要求。语言作为人类的天赋能否被人工智能所真正理解和学习,这将是语音交互中最难攻克的问题之一。而对于极度复杂“语义理解”和“语音识别”来说则很有可能掉入“鸡和蛋”的怪圈。

    “认知方面的突破,现在还不知道猴年马月。”语音领域的权威专家黄学东坦言。

    语音技术是在向移动客户端叫板吗?

    剥开种种限制性条件,语音技术将要驰骋何方?假如深度算法难题、噪音处理问题、语音理解问题被一一攻克,那么语音技术将要接谁的盘?

    PC时代我们更多使用文字,而移动时代,随着语音技术的发展,我们将更少使用键盘(实体和虚拟),更多地使用语音与机器自然交互。随着语音技术的不断成熟,承载大批量APP的移动客户端则有可能走向消亡。

    QQ图片20170519163631

    比如:打车软件、叫外卖、网上购物、播放音频视频文件……只需要你语音指示,后台便可以执行所有命令!就像可以帮你打电话的Siri,未来或许你只需要一个很小巧的随身装置,就像“借东西的阿莉埃蒂小人”一样,可以与你并肩作战,听得懂你的话,成为你耳朵、眼镜、四肢的延伸与万物互联。

    这不是科幻片或者动漫里的专属场景,在数据资源、计算资源和算法技术的合力推动下,这一切都将可能成为现实。正如语音识别领域的技术大咖黄学东所言: “语音交互的发展是一个自然的过程,这是因为语音交互是一个无需触碰设备即可完成的体验,它可以让人摆脱设备的枷锁。”

    从黄学东的论点中语音概念再一次被升华,也就是语音技术发展的终极意义:从根本上改变人们与机器交互的方式。

    笔者来看,语音技术之于移动客户端,正如智能触屏之于物理键盘,只要发展够成熟,取代也只是时间问题。而目前我们更像是站在这个划时代的转折点上,一次彻底的跨越来源于更替技术的彻底醇熟,目前来看火候未到。

     


    评论 {{userinfo.comments}}

    {{money}}

    {{question.question}}

    A {{question.A}}
    B {{question.B}}
    C {{question.C}}
    D {{question.D}}
    提交

    驱动号 更多