我们都知道,人工智能已经在国际象棋和围棋上打败人类了,还合写了一张欧洲流行乐(Europop)专辑。
现在,电脑又进*一个非常人性的领域:阅读理解测试。
嗯,这可是世界各地学生的苦难源头啊。。。
斯坦福大学发起的SQuAD(StanfordQuestionAnsweringDataset)挑战赛,被认为是目前全球 水平的AI阅读理解赛事。
就在今年的1月3日和5日,微软和阿里巴巴开发的人工智能在斯坦福大学这项阅读理解测试中并列 ,在答案的精确匹配度上比人类高出了几个基点。
尽管微软和阿里巴巴的AI以微小优势胜出,在回答的精确匹配度上仅比人类的82.3%高出几个基点,但它们并列首位,这是美国和中国正在进行的人工智能*备竞赛很好的象征。
SQuAD:超过10万个题目-答案组合
为什么说这场赛事是全球 水平的AI阅读理解赛事?
因为SQuAD阅读理解赛事是以超过篇维基百科文章为基础,包含了超过10万个问题-答案组合,是目前世界 的AI阅读理解数据集。
而且,跟CNN/DM,CBT等自然语言处理类数据集相比,过往的数据集往往只是“完形填空”的形式,即要求AI将一个词语填写到文章空白处。而SQuAD则是真正的阅读理解:需要AI先读完一段文章,然后回答一个根据文章提出的问题。
比如该项测试提出的艰深问题包括:「尼古拉?特斯拉(NikolaTesla)是什么种族的人」,以及「亚马逊雨林有多大?」(换你,你知道不....)
在1月初的这场测试中,参赛公司让各自的人工智能系统解答斯坦福问答数据集(StanfordQuestionAnsweringDataset)的提问,该数据集评估阅读理解能力。计算机的答案被与普通人的答覆进行比较,然后据此排名。
小探再给你举几个人机对比的例子:
比如:成吉思汗去世于哪一年?人类:电脑:
美国超级碗50次比赛的中场表演是什么团体?人类:酷玩(Coldplay)电脑:英国摇滚乐队酷玩乐队
十八世纪有多少胡格诺派人(Huguenots)逃离法国?人类:,电脑:,
谁设计了苏格兰议会大楼?人类:EnricMiralles计算机:西班牙建筑师EnricMiralles
据SQuAD显示,阿里巴巴iDSTNLP团队提交的SLQA+模型,1月5日在精确匹配(ExactMatch)项目上获得了82.的分数,刷新了微软亚洲研究院R-NET模型刚刚于1月3日创造的纪录。而这两个模型的成绩都超过了人类在该项目上的得分——82.,所以并列获得 。
(图片来自SQuAD)
据微软方面介绍,得益于SQuAD所提供的庞大数据规模,参与该项挑战赛的选手不断地对成绩进行刷新,SQuAD挑战赛也逐步成为行业内公认的机器阅读理解标准水平测试。
在今年的ACL大会(自然语言处理领域最 的会议之一)的投稿里,有非常多的论文就是关于这项挑战赛的研究,其影响力可见一斑。