小冰怎么商业化?我们和研发她的科学家聊了聊

2018-05-29 13:27 好奇心日报

  在5月19日知乎的“盐 Club”上,微软的人工智能小冰演唱了活动的主题曲。小冰同时也是这首歌的词作者。

  小冰几年前就会唱歌,但这次有一些不同。此前小冰过去的声音已经相当逼近真人,但“机器味”还是很重,因为人工智能并不需要换气,这次的歌曲里加进了人工智能合成的换气声;小冰去年已经出版了一本现代诗集,但写现代诗和写歌词不大相同,现代诗只凭意象就可以成为好作品,但歌词需要押韵,同时还需要和旋律搭配。

  小冰从5年前只能文字聊天,到现在可以和人直接打电话和写歌作曲,一直面临一个问题,也是所有人工智能聊天机器人面临的问题:越来越像人,这究竟有什么用?

  Google的答案是,它可以替你打电话订座位。在今年Google IO开发者大会上,Google展示了两段人工智能的对话片段:Google智能助理直接和理发店和餐馆打了个电话,约好了剪头发和吃饭的服务。

  微软小冰的团队说,和Google相比,微软做的技术更难,同时具体用途也在完全不同的方向。

  微软亚洲互联网工程院负责微软小冰语音合成的首席语音科学家栾剑说,Google人工智能助手是更偏向任务的人工智能,它面对的是很窄很具体的对话内容,比如订座位。但小冰可以和人闲聊,从技术上来说这更难做到。

  过去一年,小冰在微信上测试了和人打电话的功能,一共测试了60万通电话,内容都是闲聊,一般会在用户和小冰在微信上的对话发生以后,小冰直接拨过去。举例来说,你如果和小冰说你心情不好,她会打电话给你,问你是否心情有好转,然后让你早点睡觉。

  实际上,和小冰的聊天还是会有一些奇怪的感觉。相对于真人之间的对话,小冰更容易出现突然岔开话题的现象。虽然这句话和过去你们几个小时的对话大概率是有关的,但真人很少会这样突然换话题。

  栾剑解释说,小冰可以直接和人打电话,需要理解整个对话中的所有内容,所以有时候会出现岔开话题的问题。从技术角度说,小冰的回应是从人类的对话中学习的模式,她所有的对话都一定有逻辑,但这个逻辑和人类的不同,可能隐藏的比较深。

  这种打电话的直接沟通,虽然不是很像真人,但全世界目前只有小冰可以实现。这种能力是小冰的主要技术特征,但不是最终应用方向。无论是语音、文字聊天,还是写诗、写词,其中运用的技术都是类似的,都是从大量人类数据中,比如对话、歌词、歌曲、现代诗中学习规律,然后生成结果。

  

  小冰写诗的迭代

  微软亚洲互联网工程院人工智能创造事业部副总经理袁晶说,能写诗写词,但小冰的“创造力”只是一种工程上的模拟。他展示了一个小冰写诗的实例:10次迭代时,小冰的现代诗看上去纯粹是词汇的堆砌,看不出什么语法;500 次迭代时稍微好了一点,但还是会有奇怪的搭配;到了10000次迭代时,小冰的作品已经可以称为诗了。

  袁晶说,无论是唱歌还是写诗,小冰的训练过程中经常会出现令人惊喜的结果。但无论结果如何,小冰所做的都是“运算”,只是对她学习的这些诗句中,包含的人类诗人所拥有的“创造力”的的拟合。所以在所有“创作”上,小冰不可能超过人类。

  栾剑说,目前微软认为,小冰的意义表现在两个方面。其一,诸如唱歌这样的个性化的表达,小冰正在试图创造专属于AI的艺术形式。他说,给小冰唱歌加呼气声,是为了让人类听的更舒服,以免跟唱的人觉得没有喘气的空间。同时,加入呼气声也只是一种尝试,微软正在探索小冰独有的歌声,可能和人类的特征很不一样。

  其二,虽然小冰并不会真的“创造”,但她可以帮助人类创作:人工智能擅长的是快速运算,小冰可以在几分钟内把一首诗从“完全看不懂”变成“颇有意境”,但换作人类的话,这种学习可能要很多年。

  袁晶说,这就是人工智能的意义。人类中艺术家也是稀缺的,但未来人工智能或许可以帮助他们从无数文字、音符的可能性中找出全新的组合,再由人类艺术家完成真正的创作。

  栾剑补充说,他不认为AI做的只是无意义的,穷举似的排列组合。他说,穷举会产生无数无意义的噪音,即使真正的精华诞生也会淹没在噪音之中,而人工智能基于人类的经验的学习,能够知道什么是人类没有尝试过的理解和组合,然后将它们挑出来。

  当然这都是未来的愿景,现阶段小冰的能力可以达到的商业化目标,是利用语音合成、文字创作的能力,替人类生产定制化的有声读物。

  举例来说,当家长有需求希望替自己的小孩定制儿童故事有声读物,比如故事里嵌入小孩的名字。在过去,这需要配音演员专门写词和录音,成本会高到个人绝对不愿意承担。但以小冰的能力,可以在直接输入名字之后,瞬间写好故事,并且完成朗读的合成。

  微软展示了一个Demo,播放了听起来像是某个著名配音演员用三段不同语气朗读的儿童故事,但实际上这三段都是小冰合成的,实际上完全没有AI合成的痕迹。与知名配音演员合作,生成定制化的有声读物作品,就是目前的一种商业模式。

  在Google IO大会上的Demo中,AI和人类对话没有提示,AI还会加上“嗯”之类的语气词来模仿人类,这曾经引起了一些科技伦理方面的争议——质疑的重点是为什么要欺骗,而不是声明自己究竟是什么。当然,这可能想太远了。实际使用中几乎一定会有更复杂的问题出现,然后人工智能露馅,导致预定不成的情况发生。

  在说到无法区分人类还是人工智能时,袁晶补充道,微软和Google不一样,微软在人工智能和人类对话中会首先说“我是微软小冰”,声明这是AI以避免诈骗等法律风险。

责编:陶宗瑶(实习生)
分享:

推荐阅读