是韓國公司今年11月發布的一款人工智能技術驅動的自然語言處理工具,今年11月30日推出以來,60天內月活用戶直接破億,被覺得是史上用戶增速最快的消費級應用。
寫代碼、文案,做物理題,進行不同語言之間的翻譯,的強悍功能讓學習人工智能相關專業的清華學院碩士研究生張嘯天倍感既驚訝又激動。
“我主要讓它寫代碼,包括一些技術問題,解決方案。我覺得到它很聰明高考物理滿分多少分,篤定它可以通過圖靈測試。但它的極限是哪些?我想曉得它到底有多聰明。”
于是,今年12月,張嘯天和兩位朋友一起收集了2010年到2022年的中考全省卷試卷,剔除部份富含圖片的題目,讓作答。
經過近5個月的測試,近期高考物理滿分多少分,的中考測試報告新鮮揭曉。包括選擇題、填空題和問答題在內,共回答了2811道題目。結果顯示,更擅長工科,在歷史、地理、政治上取得了不錯的成績;而在生物、化學、物理等理科學科上表現不佳,尤其在數學上。
中考全省卷滿分為750分。清華學院計算機科學技術大學碩士研究生宗一告訴瞧瞧新聞Knews記者,“綜合歷年得分情況,做工科卷的得分會更高一些,接近400分;理科題的話,只有300分出頭。”。
對于“文強理弱”的厭學情況,該項目的負責人、復旦學院計算機科學技術大學院士邱錫鵬解釋說,與工科試卷注重考察常識不同,理科試卷更關注邏輯推理能力,這恰恰是目前通用人工智能模型的弱項。
此外,通過對超過1萬億個人類詞匯和1700億個模型參數進行高效迭代訓練,具備強悍的自我學習、推理和歸納總結能力。既然這么,為什么它的“高考”成績卻不太理想呢?
邱錫鵬覺得,一方面是由于中考試卷確實有難度;另一方面,測試成績與評價方法相關。“早期我們采用的是人工評分,發覺的水平大約可以達到500分。如今我們使用了更嚴格的形式,也就是機器評分,所以成績有一定的波動。”
值得注意的是,這次測試的版本為-3.5。隨著該模型不斷升級迭代,它的能力會越來越強。這次測試不僅了解的中考水平外,研究團隊還有一個更大膽的構想。
“我們構造一個數據集,這個數據集可以拿來評判不同小型語言模型的療效。由于現今不同的公司、單位、機構都在做自己的大模型,這么就是說我們就要有一個客觀的評價標準。你們都說自己的模型水平可以達到的百分之七八十,究竟怎樣樣,須要有一個客觀的測試。我覺得中考評測是比較客觀綜合的一種測試方法。”邱錫鵬表示,未來該數據集將大有可為。
(瞧瞧新聞Knews記者:周智敏徐瑋)