

由史丹佛大學和加州大學柏克萊分校的研究人員今年七月共同發表的一篇新論文,聲稱 GPT-4 的表現在過去數月內變得更糟。這份論文掀起一波最新討論,一些專家對其結果提出質疑,並提出 OpenAI 應該在其 AI 模型架構方面更加透明化。
史丹佛、柏克萊發論文指「GPT-4 退化」,甚至連質數都不會分辨了?
這份名為《ChatGPT 的行為如何隨時間變化?》(How Is ChatGPT’s Behavior Changing over Time?)的論文發表於 arXiv 平台,對 OpenAI 的大型語言模型(LLMs)進行了深入研究,特別針對 GPT-3.5 和 GPT-4 進行測試。
透過 API 訪問,研究人員測試了這兩款模型在解決數學問題、回答敏感問題、生成程式碼和視覺推理等任務上的表現,其中發現 GPT-4 在辨識質數方面的準確率在三個月內下滑,從 3 月份的 97.6% 銳減至 6 月份的僅 2.4%,而 GPT-3.5 在同一時期則表現相反,從 3 月份的 7.4% 上升至 6 月份的 86.8%。
這項研究出現之前,不少用戶紛紛抱怨 GPT-4 在近幾個月內的表現下滑。有人認為 OpenAI 對模型進行了蒸餾(distill)壓縮,以減少運算負擔、加快輸出速度和節省 GPU 資源。還有人認為 OpenAI 進行了微調,以減少可能導致意外影響的有害輸出。甚至一些陰謀論觀點認為 OpenAI 刻意降低 GPT-4 的程式碼生成能力,以吸引更多人購買 GitHub Copilot。
然而,針對這些眾說紛紜,OpenAI 日前仍稱 GPT-4 的能力沒有下降,OpenAI 產品副總裁 Peter Welinder 還發推文捍衛:「不,我們沒有讓 GPT-4 變笨。恰恰相反,每一個新版本都比之前的版本更智慧。目前的假設是:當你使用它更頻繁時,你就會注意到之前未曾發現的問題。」
AI、電腦科學專家們出面反駁了!指出該論文僅展現「片面」結果
這份新論文的結果,似乎也並未讓所有專家信服。普林斯頓大學電腦科學教授 Arvind Narayanan 認為這份研究未能完全證明 GPT-4 能力下降,而這些結果可能與 OpenAI 進行的微調相關。例如,在評估程式碼生成能力時,他批評該研究只關注程式碼是否能夠「直接執行」,而忽略了程式碼的「正確性」。
AI 研究員 Simon Willison 也對論文的結論表達質疑,他向媒體透露:「我不覺得這份論文特別有說服力,」例如論文主要批評的論點是像程式碼輸出是否帶有 markdown backticks(一種格式符號),再加上大多任務的溫度控制為 0.1,雖然這讓結果有穩定性,但卻不夠具有代表性,因為不同的測試案例、指令,理應要搭配不同的溫度參數。
在自然語言處理(NLP)/ 大型語言模型(LLMs)中,調整「溫度」(temperature)參數(介於 0 到 1 之間)可以用於控制生成文本的創意程度或隨機性,模型則會基於給定的參數、指令(prompt)預測下一個字詞或字符。
簡單來說,溫度參數的設定,會影響每個可能的下一個字詞的出現機率。當溫度接近零時(例如 0.1),模型會選擇機率最高的字詞,所以生成的文本會較為保守、變化性小但正確性高,通常呈現較為穩健和重複的文本;反之,當溫度較高(例如 1.0)時,會增加文本輸出的多樣性,使其更隨機、具創造力,但也可能導致一些不太合理或不連貫的結果。
Willison 補充,目前針對 GPT-4 能力變化的觀點,也可能來自於對大型語言模型的新奇感逐漸消失。當 GPT-4 首次推出時,它觸發了某種恐慌,甚至有人測試看它是否能控制世界。現在,隨這項技術變得越來越普遍,缺陷才似乎變得更加明顯。
OpenAI 目前已知曉這份新論文的結果,並表示正在關注 GPT-4 退步的相關報告結果。OpenAI 開發者關係總監 Logan Kilpatrick 後續則發推文表示感謝該研究團隊進行的報告,正在對此進行調查,還補充「有一個公開的 OpenAI 評估集將是很酷的一件事」。
OpenAI 模型透明性問題需被處理,否則如同「在比較浣熊和松鼠」
引發 GPT-4 能力是否下降的爭議之餘,該論文也因此突顯了 OpenAI 在透明性方面的問題。由於 OpenAI 並未公開 GPT-4 的訓練材料、原始碼、神經網路權重等資料,甚至沒有出描述其架構的論文,對於像 GPT-4 這樣的黑盒模型,研究人員在試圖定義其系統特性時常常摸不著頭緒。此外,模型還可能隨時發生變化,而不會給出任何通知或警告。
未來可能的解決方案之一,是採用開源或原始碼可用的模型如 Meta 的 Llama,以便研究人員理解模型的運作,並基於可靠的同一基線進行工作。Hugging Face 的 AI 研究員 Sasha Luccioni 認為,OpenAI 的透明性問題的確是值得關注的:「封閉源模型的任何結果,都是不可重複和不可驗證的,因此從科學的角度來看,我們就像正在比較浣熊和松鼠(是沒辦法相比的)。」她也強調,科學家需要模型創建者提供底層模型的訪問權限,至少是為了審核目的。
Willison 也贊同這個觀點,並指出缺乏發佈說明和透明度可能是當前最大的問題之一,否則我們應該如何在完全未經紀錄和神秘變化的平台上建立可靠的軟體?AI 領域還需要更多的標準化基準測試,以利更好的去比較不同版本模型的性能表現。
目前針對這份研究論文的結果,正在釣出更多專家們的反駁意見或延伸提問,同時間也帶起對 OpenAI 的透明性和發佈策略的擔憂。至於 GPT-4 到底是否變得「更笨」,還有待進一步的研究和討論。
責任編輯:Sisley
核稿編輯:Jocelyn
加入 INSIDE 會員,獨享 INSIDE 最精采每日趨勢電子報,未來還有會員專屬內容。 點擊立刻成為會員!
延伸閱讀:
最新發展: