史丹佛大學論文指稱 GPT-4 智力倒退?AI 專家們反駁了!

一些專家對其結果提出質疑,並提出 OpenAI 應該在其 AI 模型架構方面更加透明化。
評論
Photo Credit : Generated by INSIDE using Bing
評論

由史丹佛大學和加州大學柏克萊分校的研究人員今年七月共同發表的一篇新論文,聲稱 GPT-4 的表現在過去數月內變得更糟。這份論文掀起一波最新討論,一些專家對其結果提出質疑,並提出 OpenAI 應該在其 AI 模型架構方面更加透明化。

史丹佛、柏克萊發論文指「GPT-4 退化」,甚至連質數都不會分辨了?

這份名為《ChatGPT 的行為如何隨時間變化?》(How Is ChatGPT’s Behavior Changing over Time?)的論文發表於 arXiv 平台,對 OpenAI 的大型語言模型(LLMs)進行了深入研究,特別針對 GPT-3.5 和 GPT-4 進行測試。

透過 API 訪問,研究人員測試了這兩款模型在解決數學問題、回答敏感問題、生成程式碼和視覺推理等任務上的表現,其中發現 GPT-4 在辨識質數方面的準確率在三個月內下滑,從 3 月份的 97.6% 銳減至 6 月份的僅 2.4%,而 GPT-3.5 在同一時期則表現相反,從 3 月份的 7.4% 上升至 6 月份的 86.8%。

這項研究出現之前,不少用戶紛紛抱怨 GPT-4 在近幾個月內的表現下滑。有人認為 OpenAI 對模型進行了蒸餾(distill)壓縮,以減少運算負擔、加快輸出速度和節省 GPU 資源。還有人認為 OpenAI 進行了微調,以減少可能導致意外影響的有害輸出。甚至一些陰謀論觀點認為 OpenAI 刻意降低 GPT-4 的程式碼生成能力,以吸引更多人購買 GitHub Copilot。

然而,針對這些眾說紛紜,OpenAI 日前仍稱 GPT-4 的能力沒有下降,OpenAI 產品副總裁 Peter Welinder 還發推文捍衛:「不,我們沒有讓 GPT-4 變笨。恰恰相反,每一個新版本都比之前的版本更智慧。目前的假設是:當你使用它更頻繁時,你就會注意到之前未曾發現的問題。」

AI、電腦科學專家們出面反駁了!指出該論文僅展現「片面」結果

這份新論文的結果,似乎也並未讓所有專家信服。普林斯頓大學電腦科學教授 Arvind Narayanan 認為這份研究未能完全證明 GPT-4 能力下降,而這些結果可能與 OpenAI 進行的微調相關。例如,在評估程式碼生成能力時,他批評該研究只關注程式碼是否能夠「直接執行」,而忽略了程式碼的「正確性」。

AI 研究員 Simon Willison 也對論文的結論表達質疑,他向媒體透露:「我不覺得這份論文特別有說服力,」例如論文主要批評的論點是像程式碼輸出是否帶有 markdown backticks(一種格式符號),再加上大多任務的溫度控制為 0.1,雖然這讓結果有穩定性,但卻不夠具有代表性,因為不同的測試案例、指令,理應要搭配不同的溫度參數。


在自然語言處理(NLP)/ 大型語言模型(LLMs)中,調整「溫度」(temperature)參數(介於 0 到 1 之間)可以用於控制生成文本的創意程度或隨機性,模型則會基於給定的參數、指令(prompt)預測下一個字詞或字符。

簡單來說,溫度參數的設定,會影響每個可能的下一個字詞的出現機率。當溫度接近零時(例如 0.1),模型會選擇機率最高的字詞,所以生成的文本會較為保守、變化性小但正確性高,通常呈現較為穩健和重複的文本;反之,當溫度較高(例如 1.0)時,會增加文本輸出的多樣性,使其更隨機、具創造力,但也可能導致一些不太合理或不連貫的結果。


Willison 補充,目前針對 GPT-4 能力變化的觀點,也可能來自於對大型語言模型的新奇感逐漸消失。當 GPT-4 首次推出時,它觸發了某種恐慌,甚至有人測試看它是否能控制世界。現在,隨這項技術變得越來越普遍,缺陷才似乎變得更加明顯。

OpenAI 目前已知曉這份新論文的結果,並表示正在關注 GPT-4 退步的相關報告結果。OpenAI 開發者關係總監 Logan Kilpatrick 後續則發推文表示感謝該研究團隊進行的報告,正在對此進行調查,還補充「有一個公開的 OpenAI 評估集將是很酷的一件事」。

OpenAI 模型透明性問題需被處理,否則如同「在比較浣熊和松鼠」

引發 GPT-4 能力是否下降的爭議之餘,該論文也因此突顯了 OpenAI 在透明性方面的問題。由於 OpenAI 並未公開 GPT-4 的訓練材料、原始碼、神經網路權重等資料,甚至沒有出描述其架構的論文,對於像 GPT-4 這樣的黑盒模型,研究人員在試圖定義其系統特性時常常摸不著頭緒。此外,模型還可能隨時發生變化,而不會給出任何通知或警告。

未來可能的解決方案之一,是採用開源或原始碼可用的模型如 Meta 的 Llama,以便研究人員理解模型的運作,並基於可靠的同一基線進行工作。Hugging Face 的 AI 研究員 Sasha Luccioni 認為,OpenAI 的透明性問題的確是值得關注的:「封閉源模型的任何結果,都是不可重複和不可驗證的,因此從科學的角度來看,我們就像正在比較浣熊和松鼠(是沒辦法相比的)。」她也強調,科學家需要模型創建者提供底層模型的訪問權限,至少是為了審核目的。

Willison 也贊同這個觀點,並指出缺乏發佈說明和透明度可能是當前最大的問題之一,否則我們應該如何在完全未經紀錄和神秘變化的平台上建立可靠的軟體?AI 領域還需要更多的標準化基準測試,以利更好的去比較不同版本模型的性能表現。

目前針對這份研究論文的結果,正在釣出更多專家們的反駁意見或延伸提問,同時間也帶起對 OpenAI 的透明性和發佈策略的擔憂。至於 GPT-4 到底是否變得「更笨」,還有待進一步的研究和討論。

參考資料:arsFORTUNEarXiv

責任編輯:Sisley
核稿編輯:Jocelyn

加入 INSIDE 會員,獨享 INSIDE 最精采每日趨勢電子報,未來還有會員專屬內容。 點擊立刻成為會員

延伸閱讀:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

最新發展:


學無止境、轉型無終點,大新書局藉 Google Cloud 打造變化不止的語言學習風景

大新書局一直致力於語言學習類圖書的出版,也隨著時代進步積極發展電商平台,提供更多元的語言學習資源。除了導入 Google Cloud 提升網站效能進而縮短讀者等待時間,未來還計畫導入 Kubernetes 和 AI 服務,持續優化和拓展自身事業。
評論
Photo Credit:Cloud Ace
評論

大新書局自 1960 年成立以來致力於語言學習類圖書出版,透過與台灣日語教育領袖蔡茂豐合作,奠定日語教育出版的地位。隨著時代進步,大新書局不僅將傳統圖書結合智慧點讀筆等工具,更積極發展電商平台開拓銷售管道,與提供「大新影音網」等線上教學平台,為讀者提供更多元的語言學習資源。

面對線上購書新戰場,自營商城掌握行銷關鍵數據

從「大家的日本語」到「完全掌握」系列,每個台灣日語學習者的書櫃裡,幾乎都有幾個位置佇立著大新書局(後簡稱:大新)出版的日語學習或檢定用書,身為歷史悠久的出版社,大新也經歷了書籍販售通路由線下拓展至線上的過程。面對消費者購書習慣轉變,比起等待電商通路提供在線上面對消費者的機會,大新決定化被動為主動,自建商城滿足新型態購書需求,並成功在市場趨勢下締造亮眼的銷售成績。

回顧自行打造商城的契機和持續經營的原因,大新書局資訊部顧問 Henry 說明,除了優異的銷售表現和自營不需被抽成的優勢,最主要是得以「親手掌握會員資料」。他進一步透露,因為手握商城網站數據,所以「行銷團隊可拿 SQL 資料庫產出的報表進行分析跟銷售」。藉由長年積累的龐大資料洞悉消費者輪廓與需求,以數據驅動行銷策略制定,更精準地滿足使用者需求。

Photo Credit:大新書局

大家的日本語書籍內容

降低延遲與維護成本,以 Google Cloud 共創讀者、書商雙贏

Google 在台灣設立的資料中心於 2013 年底啟用,當時正好是大新嘗試以網路商城開拓線上銷售的時刻,而這座資料中心也成了大新導入 Google Cloud 的決定性因素。Henry 透露網站上線之初用的是台灣本土的雲端服務,但「他們的系統比較不穩,常常三不五時就關機或斷線。」為讓讀者擁有更好的購書體驗,大新藉著改版機會一舉遷移至 Google Cloud 並收穫顯著成效,「以前官網讀取差不多要等 3、4 秒,現在幾乎 1、2 秒就跑出來了。」享有地利之便的資料中心讓延遲的毫秒數大幅降低,讀者購書的等待時間也直接減半。

除了讀者購書體驗獲得改善,站在書商立場的 Henry 也坦言,一般中小企業不可能有心力去控管實體機房的濕溫度和電力,自架商城往往會帶來加重的 IT 負擔,但 Google Cloud 這樣的公有雲服務為他們開啟一扇新大門。他分享 Compute Engine 上可以隨開隨用的 VM 讓工程師能更輕鬆地維運,「(使用 Google Cloud 後)不用像過去在地端機房要處理自家網路環境問題,一切都能委託 Google 處理。」就算運作出現狀況,也能直接連線進 Google Cloud Console 除錯,有效降低管理上的時間和心力。

Photo Credit:大新書局

大新書局網路商城

借力使力更省力!善用工具與服務支持革新及擴展

除了持續優化內部架構與讀者體驗,大新不忘將目光放在未來的嘗試與發展。Henry 分享除了有意導入 Kubernetes,朝向容器化與分散式架構發展,目前因自建商城擁有大量的產品圖片和會員資料,期望進一步嘗試影像分析等 AI 服務。「我相信直接在 Google Cloud 上點服務來用,絕對比我自己研究簡單很多。」 透過 Google Cloud 各項產品點選即可測試使用的特點,無須耗費額外人力研究,在服務擴展上相對擁有很大的彈性。

因此,Henry 也透露未來若專案有擴展計畫也會架在 Google Cloud 上,不排除會增加與 Cloud Ace技術支援上的合作。過去受限於當下規模或技術資源,不少規劃難以立即實現,但借助工具與合作夥伴的支援,大新相信應用槓桿原理也能以有限資源實踐創新與擴張。

挑戰腳步不停歇,持續優化教學資源支持學生跨出舒適圈

從 1960 年成立至今,深耕台灣日語教育超過一甲子的大新未曾停下挑戰自我的腳步。在產品開發上一路從紙本書籍到 CD 、點讀筆及線上影音課程,應用科技提升使用者學習效率;在銷售模式上選擇由線下走至線上,藉由獨立打造商城掌握新時代商機;在業務開展上由日語跨足英語等其他語言,勇於拓展新的語言學習市場;在雲端使用上自本土廠商轉至甫進駐台灣的國外廠商,積極追求使用體驗更佳的服務。60 多年來,秉持著持續開創精神一次次跨出舒適圈,提供使用者更易用、高效的學習資源。

語言學習是引領我們離開舒適圈,走進更廣闊的世界實現心中目標的途徑,在這條漫長的道路上,好的工具和學無止境的自我挑戰精神是不可或缺的裝備,也是大新持續提供台灣日語學習者的支持和鞭策自身前進的動力。學無止境,轉型也沒有終點,大新以自身為例時刻提醒著學習者,莫忘語言學習的核心精神,和那份為追求目標而願意邁向新世界的勇氣。

Photo Credit:大新書局

可幫助語言學習的藍牙智慧筆

關於 Cloud Ace
Cloud Ace 為亞洲據點最多的 Google Cloud 合作夥伴,擁有 12 項 Google 專業領域認證與超過 400 張的專業證照, 集團服務過全球超過 500 家企業。如有 Google Cloud 產品導入或客製化專案開發需求,歡迎與我們聯繫

Mail:marketing@tw.cloud-ace.com
Phone:+886-2-2377-2766
Facebook :Cloud Ace Taiwan
LinkedIn:Cloud Ace Taiwan
YouTube:Cloud Ace Taiwan

本文章內容由「Cloud Ace」提供。