亚马逊Alexa进化史:当话语遇见AI 生活发生巨变

2017-08-11 09:17:00 网易智能 分享
参与

  人工智能语音设备不仅仅是一台可以表达观点的自动唱机,它们很可能成为人机互动的主要方式之一。

  Alexa的诞生与技能扩张

  2012年8月31日,四名亚马逊工程师注册了一项基础性专利,这项专利的内容日后最终演变成了Alexa。专利涉及了一种人工智能系统,该系统旨在与人类语言,这一世界上最大、最复杂的数据集进行互动。工程师当时只需要使用11个单词和一个简单的图表就能描述它的工作原理。

  一个男性用户在一个安静的房间里说:“请播放甲壳虫乐队的Let It Be。”

  一台小型台式电脑回答说:“没问题。”

  然后系统开始播放这首歌曲。

  由此开始,家用语音人工智能成为了亚马逊的一项重要业务,而这一领域也成为亚马逊与其科技界的竞争对手们较量的重要战场。谷歌,苹果、三星和微软都在这一领域投入了上千名研究人员和商业专家,以期待制造出可以同人类进行交流,且便于使用的强大设备。

  直到现在,我们还必须去打字、敲击或者滑动来解锁设备和操作。而目前,新的用户界面正在逐渐适应人类,Witlingo公司的首席执行官Ahmed Bouzid说道。该公司制造了各种各样适用于银行、大学、法律公司和其他企业的语音驱动应用程序。

  对于亚马逊来说,其最初只是想制造一个自动唱机,但后来这一项目变得越来越大:它变成了一种基于人类数据并且可以不断学习的人工智能系统。它生产的Echo和体积更小的Dot是无处不在的家庭好帮手,它们可以关灯,讲笑话,或者让你不用手就能知晓天下事。

  他们还收集了大量关于用户的数据,这些数据被用来改善设备本身,并增加他们的功能。自2014年上市以来,已经售出了上千万台的Alexa设备。据第三方机构统计,亚马逊目前已经占据了美国人工智能语音设备70%的市场。

  (图:沟通的原则:亚马逊设备能听懂的指令越来越多,以下是当你想让它调整房间灯光亮度时,一些可以奏效或不能奏效的指令,红色为不能奏效的)

  目前,Alexa同超过50种智能照明系统合作,包括飞利浦、通用电气和宜家等。 2016年,德语版的Alexa诞生,其他非英语语种的Alexa也将陆续诞生。但是,亚马逊并没有试图从可与Alexa相连接设备的制造商那里获得收入,这些设备包括智能恒温器、灯泡等。不过,照这样的趋势发展,未来亚马逊与这些公司之间很有可能会签订收入共享合同或者是采取其他的支付方式。这三个市场中最小的一个是家庭自动化市场,在这一市场中每年的支出已经超过了50亿美元,而去年美国的零售总额为4.9万亿美元。

  如今,亚马逊通过出售这些设备来赚钱,设备的价格从50美元到230美元不等,最高端的Echo show产品带有视频屏幕。如果选购这些设备的用户最终在亚马逊庞大的网上商店中购买了更多的商品,那么亚马逊就能再赚上一笔(不过亚马逊是不会透露这些数据的)。若要让Echo像智能手机那样普及,他们还需要更多的努力。为此,亚马逊鼓励独立开发者在其平台上开发新服务,正如苹果长期以来与所做的那样。

  到目前为止,已经出现了超过15000个这样的“技能”或应用程序。应用程序构建工具十分易于使用,以至于不具备太多知识的人现在可以在大约一小时内打造出一个简单的技能。其中最受欢迎的应用是优步和Lyft的叫车服务。而Duds拥有48种不同的技能,可以以狂轰滥炸之势诋毁它的听众。

  而那些最具雄心的开发商中包括了制造、销售与Alexa配合的硬件或服务的公司。例如,Capital One向其银行客户提供基于Alexa的账单支付服务。而总部位于多伦多的Ecobee公司是一家智能恒温器制造商,该公司生产的恒温器可以受Alexa控制,用户可以仅仅通过几个简单的指令就能够提高或降低室温。

  “我们的客户都很忙,”Ecobee的首席执行官Stuart Lombard说。该公司现在从其与Alexa合作的产品中获得的销售额占总销售额的40%,这些产品也成为了该公司10年来增长最快的业务。

  “为了回家,他们不得不忍受交通拥堵,然后他们还要给孩子们喂饭,换尿布,谁知道还要干什么别的。”

  “我们让他们不用双手就能完成一些工作,这样他们就可以‘多管齐下’了。”

  Google Home也有了数百万的销量,苹果和微软也在研发他们自己的设备。这些努力的最终回报是有机会可以占领或至少可以影响三个重要的市场:家庭自动化、家庭娱乐和购物。

  虽然可能没有太多人愿意和他们的冰箱交谈,但不可否认的是,生活方式在发生巨大改变。正如同智能手机改变了生活的方方面面,语音人工智能设备也在变革着我们的居家生活。为什么需要从床上爬起来去锁门,或者是在大冷天还要去手动开启车上的暖风呢?Alexa或是它的“亲戚”们就能帮你做这些事了。

  当话语遇见AI

  基于语音的人工智能技术之所以如此吸引消费者,是因为它满足了人类的要求:它按照人类的交流方式进行交流和思考,而使我们不再需要在键盘或屏幕上打字。

  但这样的技术同时也很难打造。人类在说话时完全不考虑规律性。相反,我们打断自己的话。我们的思维时常反反复复。我们还常常莫名其妙地说出一些只言片语,有时点头有时摇头,甚至有时支支吾吾说不出话。对于人类,有时明明是在胡说八道,我们仍相信自己说的话有道理。

  数千名亚马逊员工正在努力应对这一挑战,这包括在其位于西雅图、加州森尼维尔和马萨诸塞州剑桥等地研究中心的研究人员们。即便如此,亚马逊最近还在为1100个分布在各个部门的、和Alexa相关的工作岗位进行招聘,其中包括215个机器学习专家职位。在公司位于剑桥的办公室召开的一次会议上,经过询问Alexa的首席科学家Rohit Prasad关于为什么他需要这么多的人,以及他的研究团队何时才能完全建成等问题。Prasad回答说:“你的问题在我听来简直太好笑了。我已经从事了20年的语音技术研究工作,绝大多数时候,我们取得进展的速度都非常缓慢。然而,在过去的五年里出现了很多难逢的良机。”

  发明一个真正奏效的语音激活式人工智能系统是一个非常复杂且尚未被攻克的难题。在过去,语言科学家们在试图一次性确定杂乱语句的具体含义时遇到了困难。而现在,新的机器学习方法另觅蹊径,以期待能解决这一问题:他们在一开始时就着手处理那些不完美的词语搭配,继而通过临时性的猜测快速调整这些搭配。

  Prasad表示:“问题的关键是具备处理大量用户数据的能力,并可以从之前的错误中吸取教训。随着Alexa同用户相处的时间增加,它收集到的数据会越来越多,它也随之变得越来越聪明。伴随着这些进步,越来越多的机会出现,随之而来也需要越来越多的人力。”这也就是为什么需要招聘这么多人的原因。

  “让我给你举个例子,”Prasad说,“如果你问‘阿黛尔的第一张专辑是什么’?答案应该是《19》。如果你说‘播放它’,那么Alexa就可以获得足够多的信息,并开始播放那张专辑。但如果有一些对话式的玩笑夹杂其间会怎么样呢?如果你先问一下专辑是哪一年出版的,它卖了多少张,又会发生什么呢?如果进行了上述对话,最后用一个具有困惑性的‘播放它’结束,那么早期版本的Alexa可能就会被难住。而现在这项技术可以遵循一种思维方式,这使得它至少在部分时间可以意识到‘播放它’中的‘它’仍然意味着专辑《19》。”

  这种改进来自于机器学习技术对于此前数千次类似交流的反思,在这些交流中Alexa被搞糊涂过。系统了解了用户真正想听的是哪首歌曲,以及具体是在之前对话的什么地方出现了那首歌曲的名字。麻省理工学院口语系统小组的负责人James Glass说:“一开始你需要做一些关于人们如何提要求的假设,然后收集数据,对你的模型进行调整。”Glass表示,这种机器学习方法得到了广泛的认可,但如果想让它发挥作用,那需要的数据则远远超过了大学研究人员所能掌握的。

  随着Alexa的使用量激增,亚马逊现在拥有了一个巨大的人机对话数据库——这让它在改进语音技术方面拥有了一定的优势,而谷歌长期以来一直凭借其文本搜索查询获得的数据进行这样的改进。外部数据也是有帮助的:例如,2016年一个庞大的歌词数据库被载入了Alexa中,这可以帮助确保当客户提出想听“drove my Chevy to the levee” (歌曲《American Pie》中的歌词)时,系统可以自动播放歌手Don McLean的名曲《American Pie》。

  Prasad团队的一个最新项目凸显了这一方法的灵活性。这一项目致力于破解用户在何时会重新提及他们之前提过的要求。提示方式可能千差万别:有些人常说“不,不,不”,但另一些人偏向于使用“停止那个”,也有人喜欢尝试不同的表达,比如“等一下,实际上,我是想这么做”。但Alexa不需要解码所有的话语。大规模的样本数据和半监督式机器学习使系统能够勾画出一组可能的否定性语言标记,之后它可以在这些表达出现变化时,从这组标记中找到一个易于理解的新的请求方式。

  除了将Alexa打造成一个更好的听众之外,亚马逊的人工智能专家还在使用大量的数据来让它成为一个更好的演讲者,对机器合成女声的话语节奏进行调整,以使其可以更好地被使用。传统的语音合成依靠的是将众多被记录下的人类语言片段进行融合。虽然这种技术可以产生一种相当自然的声音,但它并不能表达窃窃私语、讽刺或其他类型的话语模式,而这些模式在人类交谈中会被使用到。为了继续加强Alexa对于从活泼的对话到深沉的朗诵等不同类型话语的把控能力,亚马逊的机器学习算法采取了不同以往的方法去训练Alexa,使其能够掌握或急切或焦虑等听起来很逼真的声音,那听起来就像是专业的播音员发出的。

  据悉,亚马逊拥有自己的有声读物出版机构Audible,这对这项研究有所帮助。

  如何帮助更多人

  语音人工智能技术最热情的使用者是那些无法轻易在手机或平板电脑上打字的人。据外媒报道,费城的Inglis公司为残疾人提供住房和其他服务,其首席执行官Gavin Kerr在8个居民住宅中安装了亚马逊Echo和Dot设备。他希望在先期试点测试完成后,最终可以为所有300座住宅全部配备这样的设备。“这对当地居民来说是一个难以置信的好消息,”Kerr说,“他们会过得更舒服。因为这使得他们可以‘独立’”。

  据悉,Kerr公司的服务对象是数百名患有多发性硬化症或其他身体衰弱状况的人。对于那些卧床不起或坐着轮椅的人来说,够不到墙上的温度控制器是非常痛苦的。“他们因为身体问题,很难调节室内室温,”Kerr解释道。“而72华氏度的房间对他们来说可能一会觉得热,一会觉得冷”。由于行动障碍,他们很难让室温保持舒适,特别是在没有全天候护理人员的情况下。

  在对Alexa进行一些小改动后,它就可以为那些语言功能严重受限的人群提供服务了。Kerr提到了一个快四十岁男人的故事,这名男士想要离开长期护理机构,重返日常生活。Kerr回忆道:“他告诉我们,我永远都无法说出Alexa的指令。”于是我们问他:“你能说什么呢?然后我们重新修改了软件,这样Alexa就可以根据他的情况工作了。现在当他想打开厨房灯时,他可以说‘妈妈’,当他想打开浴室灯时,他可以说‘约翰’。”

  尽管Inglis公司为新的Echo用户提供了四个小时的培训,但通常是靠新用户是自己探索发现的。将新的Echo从包装盒里拿出来,包装上会特别说明一些常见的功能,比如播放音乐、设置闹钟或更新购物清单。对产品有良好了解的用户可以通过他们笔记本或智能手机进入Alexa的控制界面,以修改设置,寻找新的应用程序,或者了解如何让一款应用最好地发挥作用。

  六月,在一篇阅读量很高的博客中,微软的产品经理Darren Austin写道,Alexa取得的更大的成功在于它能够缓解过于忙碌的生活带来的压力,它是一个可以随时帮助你的好伴侣。他说:“通过简单的提问,Alexa可以解决因为不确定性而带来的负面情绪和人们对遗忘的恐惧。”他说用户们喜欢随时给Alexa出一些难题,或者将自己的愿望告诉它,而它就是一个随时都可以跟你互动的好伙伴。

  Alexa的总经理Rob Pulciani通常会每周或更频繁地查看关于Alexa和Dot用户最常用语言的总体数据统计。通常情况下,这一列表的顶部是对于音乐、新闻、天气、交通和游戏的请求。然而,今年春天,列表上却出现了一个新晋“热词”。这个热门短语就是“Alexa,帮我放松一下。”

  当用户发出这个请求时,他们会听到一系列令人情绪舒缓的声音:小鸟唧唧喳喳地叫着,远处的海浪冲击着海岸,或是货运列车隆隆地穿过黑夜。如果用户要求,这样的声音可以持续播放几个小时。当这些应用程序在2015年第一次出现在Alexa的平台上时,Pulciani觉得这只是小众人群的“怪癖好”。但这些应用很快就获得了大批追随者,压力缠身的成年人会听着这些声音入睡。父母们会把它们变成摇篮曲的替代品。

  当Pulciani发现这一点之后,他和他的同事们在几周内对Alexa的内部结构进行了调整,以使新的Echo买家可以迅速发现这些抚慰人心的声音,在他们要求系统推荐新技能以供尝试时,这一功能会被推荐给他们。

  下一个目标:持续性对话

  在研究中,谷歌、苹果、微软和亚马逊的人工智能平台显示出了不同的优势。其中,谷歌助理在大范围搜索指令上表现最出色。而苹果的Siri和微软的Cortana在其他一些方面天赋异禀。但在购物指令方面,Alexa表现最佳。

  具备与用户进行一场合理的、持续多分钟的对话将会是语音人工智能技术的终极目标。这样宏伟目标的实现要求机器具备非常强的意图识别能力,即便是说话人没有提出明确的要求。如果一个人说“我几周没去健身房了”,那他的朋友可能会猜出来他想要谈谈自己面对的压力或者是与自尊心相关的话题。对于人工智能软件来说,这一关却很难过。对于话题的突然转换,或者隐晦的暗示,人工智能也很难理解。

  为了加强其与新一代人工智能和语音技术研究人员的联系,亚马逊在一年前邀请了世界各地十几所大学工程专业的学生,让他们制造能进行20分钟对话的语音机器人。在今年11月截止之前,取得最大进展的学校将获得50万美元的奖金。

  研究人员在用一个周末的时间测试了6个这样的机器人,对他们提出各种问题,包括简单的请求和较为复杂的开放式观点陈述,而后者可能会有很多种回复方式。

  一个机器人问:“你最近看了什么电影吗?”这是个良好的开局。

  “是的,”研究人员回答,“我们看了《隐藏人物》。”

  对于这部讲述NASA早年历史,风格深刻而辛辣的电影,机器人并没有做出与报刊影评类似的评论。相反,这个社交机器人回复说:“我觉得《隐藏人物》对数学问题的处理上没有太多说服力。”

  这可不是研究人员对这部电影的观点,但对一个人工智能程序来说,这样的回应似乎很可爱,也很合理。之后的交谈很快结束了,但至少人机之间拥有了一个短暂而美好的瞬间。可惜的是,其他机器人都无法做到这一点。最令人困惑的一个回答是“你喜欢吃路边摊吗?”而研究人员想跟他谈的话题和网站有关。但当人类可能是说到了机器人的局限性时,这一话题似乎有点尖锐,却得到了驴唇不对把嘴地反问“你们能进行集体协商吗?”

  几天后,当研究人员向亚马逊公司的Prasad询问他对社交机器人的看法时,他却表示并不为智能机器人早期的挫折而感到失望。“这是一个非常重要的领域,”Prasad告诉我。“而在这些领域Alexa可以继续提升,变得更智能。”

  但这比下围棋或象棋要难多了。因为在这些游戏中,即使有很多可能的动作,但你知道游戏最终的目标是什么。而在对话中,你可能甚至都不知道对方想要达到什么目的。当Alexa最终能够解决这个问题时,我们就能实现真正的交流了。

责编:陶宗瑶(实习生)