担忧方言消亡?人工智能或能帮忙

2018-07-06 14:40 环球时报 马俊

  【环球网智能报道 记者 马俊】近日上海小学教材将“外婆”改成“姥姥”一事,引发了全国网友对于“方言保护”的争论热潮。新加坡《联合早报》称,此事反映出方言在全国范围内的式微趋势,许多历史文化遗产面临失传的厄运。尽管国内外都启动了多种语言的保护工程,但接受《环球时报》记者采访的专家表示,大多数语言消亡的趋势几乎是不可避免的,但通过人工智能技术,至少我们有望把这些语言保存下来,从而记录下它们所承载的文化。

  方言作为地方文化的一种,是民族文化的有机组成部分,这些“南腔北调”传承着不同地区的文化和历史。那些生活中积累下来的生动传神、接地气的特有音调和词汇,构成了方言妙趣的音韵。对于流动性越来越大的现代社会而言,方言更寄托着很多游子的思乡之情,听起来特别有亲切感,那些与生俱来的记忆,随着乡音历历在目。

  但现实情况是,在全球化和信息高速传递的现代社会,无论是国际还是国内,包括方言在内的大多数语言都受到强势主流语言的侵蚀甚至是飞速消亡。联合国2017年的相关报告显示,全球现有约6000种语言,预计到本世纪末将有90%的语言可能消亡。其中近500种语言的传承者甚至少于10人,很可能会迅速灭亡。而其他语言,则由于学校、商业和电视上那些主流语言的压倒性优势排挤,也会逐渐消失灭绝。

  同样的情况也出现在中国。由于大量人口背井离乡,使方言使用的场合和频次大大降低,生存的空间不断被挤压。根据2015年启动的中国语言资源保护工程提供的数据,在中国的130多种语言中,有68种使用人口在万人以下,有48种使用人口在5000人以下,其中有25种使用人口不足千人,满语、赫哲语、苏龙语等使用人数不足百人。你还记得你的家乡话怎么说吗?很多受访者表示已经不会用地道的家乡话来表达了。

  致力于少数民族语言和方言保护近十年的科大讯飞多语种高级研究员祖漪清告诉《环球时报》记者,从整体趋势而言,包括方言在内的大多数语言走向消亡是不可避免的。在全球化趋势日益明显的当代,语言作为交流工具,本身就在不断向主流强势语种靠拢。尤其是主流语言往往背靠更强大的经济和文化实力,不但不断侵蚀弱势语言的“地盘”,而且创造新词的功能更活跃。她举例说,在科大讯飞的全国方言保护项目中发现,不仅是满语这类濒临消亡的小语种存在困境,就连很多使用人群较多的方言同样受到明显侵蚀。例如由于北京方言和普通话很接近,要找出能说一口地道北京话的年轻人变得很难,很多北京方言的特有词汇其实已经被普通话取代。

  在信息化时代,文化交流的速度空前加快,也加速了强势语言对其他语言或方言的入侵。祖漪清表示,即便是具有强大造词能力的强势语种的汉语,如今也会直接在各种中文交流场合使用NBA、Ipad等外来词汇。

  她惋惜地说,糟糕的是,由于很多少数民族语言和方言的使用人群只使用口语交流,极少使用文字,很多南方方言没有合适汉字进行描写。而口语采集比朗读采集困难大很多。一旦相关语言消亡,它承载的那些独特文化也就消失在历史长河中。

  为挽救这些濒临消亡的语言,各国都在争分夺秒。澳大利亚政府上世纪70年代便规定在全国实现多语教育制;美国也出台专门保护原著民语言的相关法案,支持原著民语言的项目。中国也先后出版了汉语方言地图集、音档及系列词典,《中国的语言》及少数民族语言的词典和参考语法等。中国语言资源保护工程更是规模宏大,计划为每种语言记录1000-3000个常用词、数量有限句子和400分钟的文化典藏。

  祖漪清介绍说,正确利用人工智能技术,对于保存这些濒临灭亡的语言是十分必要的。科大讯飞的人工智能技术不但可以分析方言的孤立音节和孤立词汇,还可对连续话语进行建模。基于语音合成、语音识别、翻译技术经过人机协同分析,实现对一个语言的完整“复制”。对于没有文字的语言,美国科学家进行的“语音罗塞塔”项目的思路也值得借鉴,即尽最大可能获得被记录语言的语音和主流语言文字的平行数据,并实现两者之间的“翻译”。

  不过她也表示,由于现有的人工智能技术需要海量数据作为机器学习的内容支撑,但一些濒危方言和语言的使用者中,真正能标准朗读的人已经很少,甚至只有个位数,而且大都年年事已高,这使得语音的采集工作极为艰难且迫切。另一方面,中国方言,尤其是南方方言种类繁多,结构复杂,甚至存在“十里不同音”的情况。若想要保存这样种类繁多的方言,还必须依靠全社会的支持。日前,科大讯飞对外启动了“方言发音人”招募公益行动,邀请全民参与共建“中国方言库”,用自己的声音留下中华语言文化遗产,传承优秀传统文化。▲

责编:张阳
分享:

版权作品,未经《环球时报》书面授权,严禁转载,违者将被追究法律责任。

推荐阅读