AI研究人员推出更严格的SuperGLUE语义理解基准测试

Facebook人工智能研究员和Google旗下的DeepMind、华盛顿大学、以及纽约大学合作,于今日正式推出了SuperGLUE。 作为一个严格的语义理解基准测试项目,其能够针对现代高性能语义理解AI的性能,展开一系列的基准测试。当然,SuperGLUE投入使用的前提,是某会话AI的深度学习模型已经触及了天花板,并希望接受更大的挑战。

SuperGLUE使用谷歌的BERT作为性能基准模型,因为早在2018年的时候,它就已经在多方面被认为是最先进的、甚至打败了新一年的诸多竞争对手,比如微软的MT-DNN、谷歌自家的XLNet、以及Facebook的RoBERTa。

SuperGLUE的前身,是纽约大学、华盛顿大学和DeepMind研究人员于2018年4月推出的针对语义理解AI的‘通用语义理解评估’(GLUE)基准测试。

发展到现在的SuperGLUE,它能够评估比GLUE更复杂的任务表现,鼓励构建能够账务更复杂或细微差别的语义理解模型。

据悉,GLUE能够根据AI对自然语言理解(NLU)系统给出的九个英语短句的识别处理表现,而给出该模型的分值,比如在线影视评论数据集中提取情感细节的斯坦福情感树库(SST-2)。

目前RoBERTa在GLUE基准测试数据库中的得分为榜上第一,但9项GLUE任务中拿到了4项最高分。不过SuperGLUE包含了在一系列困难的NLP任务中测试创造性解决方案的新方法。

Facebook AI研究人员在一篇博客文章中称:这些任务侧重于机器学习在诸多核心领域的创新,包括高效采样、转运、多任务、以及自我监督学习。

为向其他研究人发出挑战,SuperGLUE选择了各种形式的任务、更加细致的问题、尚未被最先进方案所解决的内容、以及很容易被人类理解的题目。

简而言之,新基准测试包括了八项任务,用于测试AI语义理解模型是否遵循基本的因果关系、或者是否在做阅读理解时出现了偏差。

此外,SuperGLUE包含了性别偏见检测工具Winogender。

相关新闻

    接下来

      推荐阅读