產經 > 科技

【精選】AI“學霸”來考試,你怕了嗎?

新华网
2019-03-15 11:16

已收藏


原標題:考場上來了一群AI“學霸”


AI的“智商”到底有多高?來一場考試測驗一下就知道了。

3月8日,人工智慧企業雲從科技和上海交通大學聯合宣佈,在自然語言處理(NLP)上取得重大突破,在大型深層閱讀理解任務資料集RACE資料集登頂第一,在高中測試題部分首次超越人類。但緊隨其後,微信AI又刷新了這一記錄。

為了展示自身的AI實力,包括科大訊飛、阿裡等多家科技或互聯網公司都紛紛加入“考試大軍”。

閱讀理解競賽AI公司一展身手

由卡耐基梅隆大學語言技術研究所發起的RACE資料集上,各大AI公司紛紛一展身手。

RACE是一個來源於中學考試題目的大規模閱讀理解資料集,包含了大約2.8萬篇文章以及近10萬個問題。它的形式類似於英語考試中的閱讀理解(選擇題),給定一篇文章,通過閱讀並理解文章,針對提出的問題從四個選項中選擇正確的答案。

由於該題型的正確答案並不一定直接體現在文章中,只能從語義層面深入理解文章,通過分析文章中線索並基於上下文推理。這意味著,AI不只是要運算和記錄,而是要主動去分析和理解,包括篇章結構、思維邏輯、輔助語句和關鍵句等元素構成的複雜組織網路。

雲從科技與上海交通大學基於原創DCMN演算法,提出了一種全新的模型,使機器閱讀理解正確率提高了4.2個百分點,並在高中測試題部分首次超越人類(機器正確率69.8%、普通人類69.4%)。

緊隨其後,微信AI也宣佈,最新成績全面趕超人類,微信AI模型整體正確率達73.5%。

微信AI亮相較晚,但實力一點不差。截至目前,微信先後推出微信智聆、微信智言兩大AI技術品牌,後者更專注于智慧對話和自然語言處理等技術的研究與應用,在2017年12月開始籌備,2019年1月份微信公開課正式亮相。此外,騰訊專門成立了靈格實驗室,聚焦於NLP領域技術研究與應用探索。

AI系統與高考狀元同場競技

為更好地給AI能力“打分”,越來越多的AI公司直接上了考場。

去年12月,一場特殊的六級考試在合肥舉行。這場考試是一場針對“機器人”的六級考試,考生是科大訊飛的一套智慧翻譯系統,而考卷則是今年六級試卷中的三道翻譯題,每道題滿分15分。

智慧翻譯系統答題如行雲流水,每道題只花了5秒鐘就完成了試卷,經專家老師批改後,翻譯系統三道題得分分別為14、14、12分,比大學生的平均分還高。

來一場高考題比拼如何?2017年全國高考數學考試結束之後,一場人機高考大戰的對決上演了:線上教育公司“學霸君”自主研發的智慧教育機器人“Aidam”首次公開亮相,通過現場直播的方式,與六名高考狀元同台競技全國卷文科數學試題,完成包括客觀題和主觀題在內的整張試卷,並按照評分標準得出最終成績。

不過,出人意料的是,這一次AI並沒有全面“碾壓”人類。閱卷結果顯示,三組高考狀元分別得分為146分、140分、119分,而Aidam為134分。

類似的情況並不鮮見。今年2月,上海腦中心/張江實驗室認知智慧組與科大訊飛及復旦大學的合作團隊,剛剛奪得SAT(學術能力評估測驗,俗稱“美國高考”)數學問題自動答題競賽世界冠軍,成績約合360分。即滿分800分的考題,綜合準確率為45%。

相較於申請美國名校的中國考生700分以上的高分,AI的表現似乎有些“孱弱”。對此,上海參賽團隊負責人之一、上海腦中心研究員周熠表示,解答SAT試題、尤其是綜合題,需要突破人工智慧中自然語言和圖像理解、知識表示和深度推理等多重難關,這對於目前的弱人工智慧而言,仍是難以完成的挑戰,“如果能讓AI取得SAT高分,將對這項技術的發展產生重要影響”。

人機交互AI尚難以理解人的意圖

“閱讀理解為後續的人機交互、人機對話在演算法方面進行了一次階段性驗證。一直以來,自然語言理解遠比語音、圖像識別難度要高得多。”雲從科技人工智慧研究院副院長周翔表示,目前電腦在測試題庫上,深度學習掌握比較好,並不意味著電腦語言理解的能力就要全面超越人類。

“比如我與你面對面交流時,中途接聽了一個電話,和你繼續交流是沒有什麼問題的,但電腦的理解還非常有限。此外,電腦在語言描述方面也存在一定的理解難度,比如你問我今天下午有沒有時間做一次溝通,我沒有直接回復‘可以’或者‘不可以’,而是說下午有兩個會議,時間比較緊,人是很好理解這背後的意圖,但機器就很難分析出來。”周翔說。

周翔還解釋,此次試題是英文,一般情況下中文比英文要複雜得多,例如英文一個單詞就是一個意思,而中文字與字之間沒有空格,機器還要對名詞、副詞、形容詞等進行分解,而且中文還存在一詞多解、多歧義等情況。

“自然語言理解的突破也是挺有意義的,一方面展示了各家企業的技術實力,另一方面也意味著自然語言還要更多突破。”周翔說,隨著自然語言理解的深入,人機交互將更加順暢,尤其是機器可以更加理解人的意圖,比如未來出行,對著手機說“我要出差”,機器就可以理解主人什麼時候出發、機票是否有預訂,遇到不明白的可以向主人提問,從而有更多的溝通。(記者 郜小平)
評論區

最新評論

最新新聞

新華財金周刊

點擊排行