生成式 AI 早已通過圖靈測試,科學家卻不認同!評估 AI 能力的新方法是什麼?

GPT-4 和其他語言模型早己通過「沒有完整測試框架」的圖靈測試,但該測試沒有建構太多細節,不是一個真正可以在機器上實際運行的測試。那麼大公司普遍使用的「基準測試」又如何?
評論
Shutterstock
評論

AI 發展至今,我們早已在現實世界中規模化地把大型語言模型(LLM)和生成能力的 AI 工具落地使用,特別是醫學、法律等領域,在採用相關 AI 技術時,必須更加謹慎地考慮安全性、公平性和偏誤等面向。因此了解它們能力極限變得非常重要。簡單來說,我們必須知道這些語言模型究竟能做什麼、以及不能做什麼,這樣我們才能在安全界線中正確且最效地使用它們。

目前針對人類和 AI 能力之間的差異進行測試是科研界大幅邁進的一步,這樣的標準可以幫助我們更了解當今機器學習系統有哪些缺陷,並解開 AI 是否有更多模態的奧秘。

圖靈測試其實不適合用來測試生成式 AI?

有不少讀者應該都聽過圖靈測試,在電影《人造意識》(Ex_Machina)中,一間科技公司老闆請了一位員工,去幫忙測試他所研發的 AI 機器人「艾娃」(Ava)是否具有意識,電影中就是使用測驗 AI 最經典的方法- 圖靈測試 (Turing Test)。

將目光拉回現實,目前科研界的確也使用了圖靈測試,但其實細節不夠多,整體測試框架不大完整,更沒有確切的評分標準可供遵循,它僅利用語言來檢測機器是否具有思維能力。

事實是,GPT-4 和其他語言模型早己通過「沒有完整測試框架」的圖靈測試。今年 5 月,總部位於以色列特拉維夫、專注開發語義和上下文理解的大型語言模型公司 AI21 Labs 舉辦的一場圖靈測試的線上遊戲,當時遊戲參加者超過 150 萬人,玩家被分配進行兩分鐘的對話,隨機與另一個玩家或被設定為與人有一樣行為的 LLM 機器人進行對話,結果正確辨別出機器人的玩家僅有 60%。

「這不是一個真正可以在機器上實際運行的測試,它更像是一個思想實驗,」Google 軟體工程師兼人工智慧研究員 Francois Chollet 表示 。

大公司使用基準測試來測試 AI,但意義或許不大

圖靈測試構建不完整,因此研究人員通常不使用它,而是選擇主要評估特定能力(如語言能力,常識推理和數學能力)的「基準測試」來評估 AI 系統,甚至越來越多的研究團隊也開始轉向使用人類所設計的學術和專業考試以測試 AI 。

今年 3 月,GPT-4 發布後,OpenAI 進行了一系列機器基準測試,包括閱讀理解,數學和 Coding 技能。OpenAI 報告指出,GPT-4 在這些測試中皆取得好成績,其中包括針對美國高中生的各種學科測驗、評估美國醫師臨床知識考試以及用於美國研究生選拔標準測試等約 30 多種考試。甚至在許多美國律師資格測驗中,GPT-4 也能獲得排名前 10% 的成績。

GPT-4 似乎在考試上很拿手,但它可以將這項技能轉化為在現實世界中所需的能力嗎?

美國聖塔菲研究所的電腦科學家和認知科學家 Melanie Mitchell 表示:「這些語言模型在基準測試中做得很好,但重點並不是它們在這些能力上超越人類,而是這些基準測試的局限性。」

研究人員提到,基準測試的一個挑戰是,這些語言模型接受了太多的語言訓練,它們或許已經在太多的訓練數據中看到了相似的問題,也或許只是在從資料庫當中尋找答案。

紐約大學的語言技術科學家 Sam Bowman 則認為,不要只把 GPT-4 的能力運用在死背考試拿到高成績,語言模型在考試當中所獲得的成功可能無法轉化為在現實世界中的運用。甚至 Mitchell 認為,「只要稍微改變考試題目,就可以讓 ChatGPT 失敗。」

真正適合 AI 的測驗框架正在擬定中

因此為了找出語言模型真正的優劣勢,已有多數 AI 相關領域科學家皆在擬定人工智慧的測驗框架。

2019 年,在語言模型還未大量出現前, Chollet 曾在網路上發布了他創建的一種新的邏輯測試,名為抽象推理集合(ARC)。測試者會觀察幾個方塊網格組成的圖片變化,並找到下一個網格將如何變換的測驗。 Chollet 認為該測驗旨在測驗是否可預見未知事物所轉變的能力,「我認為這才是智慧的本質。」

簡單來說,ARC 測驗針對人類大腦特點所設計,也就是我們時常會從日常生活中提取抽象概念,並將其應用於過去從未見過的問題。

那 ChatGPT 表現如何? Mitchell 等相關研究人員於 ConceptARC 測試結果為,人類能夠正確解決 ARC 問題的機率為 80%,卻沒有一種語言模型可以接近人類的表現。 

且,將 ConceptARC 任務提供給 GPT-4 和 400 名線上參與者後發現,人類得分率皆為九成,其中還有人達到九成七;GPT-4 卻只得到三成的得分,其他語言模型甚至都低於三成。

不過,ChatGPT 表現不如預期,可能也是因為測試方式出現局限性。目前公開可用的版本只能接受文字輸入,所以研究人員給 GPT-4 提供了表示圖像的數字數組,例如,空白像素可能是 0,有顏色的方塊則非 0。而相比之下,人類參與者可以完整看到圖像。

對此,Mitchell 表示,OpenAI 已經創建了可以接受圖像輸入的 GPT-4,她的團隊正在等待這個版本公開,以測試 ConceptARC,但她還是不認為它會表現更好。

不過由這次實驗可見, ChatGPT 以及現今的語言模型雖越過了圖靈測試、打敗了基準測試,但並不代表它與人類一樣擁有相對應的大腦認知過程或者是思維模式,反過來說,我們對於 AI 的要求與滿足更不限於僅是機器能輸出與人相同的答案。

未來在該領域持續探勘的研究人員將會需要進行更大規模的工作來量化各種測試系統的優勢和劣勢,或許也將再一次突破目前 AI 應用於各領域的局限性。

責任編輯:Sisley

核稿編輯:Chris

加入 INSIDE 會員,獨享 INSIDE 最精采每日趨勢電子報,未來還有會員專屬內容。 點擊立刻成為會員

延伸閱讀:

最新發展:


公有雲無限儲存時代結束, Synology Drive 如何協助企業掌握成本與資料自主權?

不少企業因為檔案存取的即時性以及同時團隊協作功能,選用雲端儲存解決方案。
評論
評論

顧問公司 GoodFirms 就指出,全球已有 94% 企業正在使用雲端,並將超過 60% 資料存於當中。而這些資料裡面有近一半屬於敏感類型,包括員工和客戶資料、企業財務數據以及知識產權。

然而,近期許多提供無限儲存方案的公有雲廠商,紛紛調整服務條款:Google Workspace 取消了教育和企業的無限儲存方案,2023 年 Microsoft 和 Dropbox 的類似方案同樣跟進結束,導致儲存成本將大幅增加。同時,公有雲端空間潛在的隱私與安全性風險,也逐漸成為企業日益關注的問題,Synology 就收到不少企業用戶反映了類似困擾。

為了滿足企業「最小化儲存空間成本」與「資料所有權」兩項條件,私有雲將是更適合的解決方案。Synology 推出的私有雲檔案平台 Synology Drive,便是運行在企業本地端 Synology 伺服器上,不僅提供高度穩定性和可用性,並可依使用量彈性擴張,消除對第三方服務提供商的依賴。以下就列舉 Synology Drive 如何協助企業面對儲存空間需求增長、安全性的關鍵優勢:

輕鬆擴充空間又無須支付授權費,打造企業專屬檔案管理與協作平台

首先,Synology Drive 無須額外支付訂閱費用,組織只須隨著使用需求,購買適合容量的硬體設備即可,就算未來需求成長亦能輕鬆擴張容量,有助於最小化上雲的成本。相較於市售公有雲服務如商用情境常見的 Google Workspace,假設每位用戶都配置 2TB 儲存空間,每月即須支付 360 元,每年就得花費超過 4000 元,還得擔心未來訂閱方案更動、負擔更多成本。

不只免除雲端服務的訂閱費用,以及充足的擴充彈性,企業選擇 Synology Drive 的同時,還能使用一樣免授權費用的 Synology Office,團隊得以更即時且安全地在私有雲上協作,編輯和分享文件、簡報及試算表,加速團隊溝通效率與生產力。

當然,考量到企業仍有部署公有雲的需求,因此 Synology Drive 亦整合了 Synology C2 Storage 和其知名公有雲服務商,企業得以創建混和雲架構,像是雲地之間能輕鬆達成即時同步,甚至是備份資料,保持營運不中斷。

交還資料自主權,並針對檔案版本與分享設計安全功能

下一個優勢,為 Synology Drive 能幫助企業擁有 100% 資料控制權,敏感與機密類型的資料都可掌握在手中,保證其安全性和隱私權。Synology 也提供多種免受權的資料備份服務,幫助 IT 人員在有限預算之下,為寶貴營運資料做好檔案、系統到裝置的多層次保護機制。

另外,資料安全性涉及的範圍相當廣泛,Synology 從客戶實際使用情景,預先設計了許多應對功能。例如用戶可回溯資料的特定歷史版本,甚至能永久保存被刪除的檔案,大幅降低檔案遺失或誤刪的風險。Synology Drive 還能為整個資料夾或單一檔案加上浮水印,確認外流來源,甚至碰到裝置遺失時,可遠端移除已同步的資料夾,防止資料外洩。

Synology Drive 提供完整且便利的公開連結設定功能,可以規範外部使用者的權限,並能設置密碼、連結有效期限等安全措施。Photo Credit : Synology

行政院原子能委員會核能研究所就看中 Synology Drive 上述優勢,替換掉傳統 SMB 服務,建置高度安全且直覺操作的私有雲檔案協作平台。由於單位需長期保存研究資料,勢必需不斷擴充儲存空間,受惠於免授權費的模式,即便高達千人的規模也能符合預算需求。

另外核研所內部合作頻繁,還有許多對外分享檔案需求,而 Synology Drive 可為資料設定精細的權限,區分出檢視、評論與編輯角色,亦可規範外部對象能否下載或刪除、設定開啟密碼與檔案分享的到期日等。該單位就分享,「Synology Drive 的第一個優勢是安全性高,其次是使用的直覺便利性,第三個是價格,過去我們使用過多個品牌,Synology 性價比絕對是最佳的。」

總結來說,面對各大公有雲服務商逐步取消無限儲存方案而來的儲存成本上升,以及資訊隱私性的挑戰,Synology Drive 私有雲儲存解決方案具備擴充彈性、100% 資料自主權,且無需支付授權費,即可享有便於企業協作、共享,且能在客戶端與伺服器端安全同步資料,更適合為當前企業建置完整的資料儲存與保護架構。

Photo Credit:Synology

本文章內容由「 Synology 」提供。