我用 OpenAI 文本生成器續寫了《復仇者聯盟》

從 Reddit 上選取了800 萬條高讚數連結,抓取文本部分,形成了一個40G 大小的緊湊訓練資料集,使 GPT-2 的資料集比其他競爭對手的資料品質更高。
評論
Reuters
評論

本篇來自合作媒體PingWest,INSIDE 經授權轉載。

先前只有少部分程式設計師才能摸到的、門檻高難度更高的 OpenAI 文本產生器GPT-2,現在終於有了一般人也能使用的Web 版本!在這個由加拿大工程師Adam King 製作的網站上,任何人都能調教簡化版的GPT-2—它能夠辨識各種各樣的輸入,從新聞、歌詞、詩歌、食譜、程式碼,甚至到《魔戒》和《復仇者聯盟》主題,只要給出一個開頭,GPT-2 就能完美地接續你的話題。

在網站上,我們可以看到目前GPT-2 掌握的主題似乎有點過於豐富:

整理行李去火星、說英語的獨角獸、《魔戒》、小行星撞地球;食譜;《復仇者聯盟》劇本;軟體技術文件……

不由讓人好奇它都能編出什麼鬼

於是,我嘗試了一下「《復仇者聯盟》劇本」,想看看它能不能編出一個《復仇者聯盟5》:

當讀到這個輸出劇本時,我簡直震驚了。其中有大量情感豐滿的兩人互動描寫,包括「Steve 深吻Tony 的前額」,「Steve 望著Tony,Tony 報以微笑」。儘管這個劇本並不完美,但總的來說它非常連貫,看起來不僅像是人寫的,還像是美國隊長和鋼鐵人的同人作品!

而在面對其他類型的輸入文本時,GPT-2 同樣沒有讓人失望:

輸入「美國總統川普宣布永遠關閉美國政府」,GPT-2 續寫道:「川普批評媒體,聲稱競選中有大量非法選票,選舉被操縱了……當他走下台時,抗議的公眾大呼『川普』。」

有時,GPT-2 也會變成爸爸媽媽轉發的朋友圈心靈雞湯:

問它,「我今天應該幹嘛?」,GPT-2 回答道:「去吧,讀一本書,尋找一列火車,欣賞夕陽,品味城中美食。」

GPT-2 流暢的表現令人髮指,時刻讓人覺得,續寫拋出的引子的不是機器,而是藏在黑盒子裡的隱形槍手。然而,就連 GPT-2 的創造者們也不知道它的「上限」在哪裡。

OpenAI 加州實驗室工程副總裁David Luan 在接受The Verge 採訪時表示,有一次,他們命令GPT-2 以「垃圾回收為什麼對世界有害」為題寫文章,結果GPT-2 給出了一篇有理有據令人信服的論文。「儘管這個論點和普世認知相悖,但它還是寫出了非常合理的解釋」, Luan 說道,「這篇東西完全可以提交給SAT(美國大學入學前的測試),然後拿高分。」

寫作水準優於80%美國高中生的GPT-2,到底是個什麼模型?

「我們從Reddit 上收集了800 萬個連結」

GPT-2 能應對各種各樣的文風和內容,然而和 OpenAI 之前推出的專門打DotA 的電競AI 不同,GPT-2 並沒有接受特定資料集的強化訓練,而是對各種文本「來者不拒」。

一開始,OpenAI 的工程師們只為GPT-2 設立了一個簡單的目標:根據文本中所有已知的單詞,預測下一個單詞。

為了讓 GPT-2 變得足夠聰明,工程師餵給了它800 萬個網頁連結。這些鏈接必須精挑細選:要內容豐富多樣,要由真人書寫編輯,要語言足夠精彩。

最終,他們從 Reddit 上選取了800 萬條Karma 值(相當於論壇裡的等級)大於 3 的高讚數連結,然後抓取了其中的文本部分,形成了一個40G 大小的緊湊訓練資料集。

這種精心篩選使 GPT-2 的資料集比其他競爭對手(如CommonCrawl)的資料集品質更高。

「在某種意義上,所有的工作都是由Reddit 網友完成的,」 OpenAI 研究員Jeff Wu 在接受The Verge 採訪時開玩笑說。OpenAI 主管Amodei 補充道,至少他們沒有用其他更有毒的語料來源,比如 4Chan。

在整個無監督訓練過程中,工程師沒有對GPT-2 進行任何有針對性的培訓。這樣一個「放養」的AI(又叫Zero-shot 學習法),卻在盲測中突破了多項記錄,拿下了世界第一。

在OpenAI 部落格公佈的測試結果中,我們可以看到,GPT-2 在多項測試中表現優於在特定領域資料集(例如維基百科,新聞,書籍)上訓練的模型。在著名的AI 常識推理比賽Winograd Schema Challenge 中,GPT-2 的成績把世界紀錄提高了7%。在「兒童書籍填詞測試」中,GPT-2 的表現幾乎與人類無異。

在回應人類輸入的語句時,沒有經過特定訓練的GPT-2 像變色龍一樣,能快速適應條件文本的風格和內容,產生後續文本。

比如這個以假亂真天馬行空的《魔戒》續寫,我覺得甚至比《權力的遊戲》最終季還好看。

OpenAI Blog,Google自動翻譯 

「預測文本是AI 的超級任務」

比起GPT-2,此前採用機器學習的AI 都只能算是「狹隘的AI」,僅能處理特定的任務。

例如OpenAI 的DotA 夢之隊能戰勝人類最強玩家,在《星海爭霸》中卻連買兵都不會;DeepMind 的 AlphaGo 能擊敗圍棋冠軍,但它下五子棋的技術可能還不如小學生。但GPT-2 的表現證明,人類有能力訓練出更加泛化的AI。

但在 OpenAI 前工程師 Ryan Lowe 看來,GPT-2 表現出色的原因主要來源於更大的數據庫。GPT-2 的參數數量和訓練數據量都是上一代GPT 的10倍。

與此同時GPT-2 距離工程師夢想中的萬能AI 仍有一段距離。

在產生文本時,儘管語法和拼寫都無懈可擊,一些小問題仍然會暴露GPT-2 的真實身份:例如文本重複,前後矛盾(例如,有時模型會輸出「在水下發生火災」),突然切換話題。

整體來說,GPT-2 對於上下文越熟悉,產生的文本就越合理。在英國脫歐、Miley Cyrus、《魔戒》等流行文化中常出現的話題上,GPT-2 幾乎不會出錯。但在應對技術含量更高、更專業的內容時,GPT-2 就會變成人工智障。

當我試圖讓它續寫《權力的遊戲》,它建議我插入廣告

工程師們感到興奮的另一個原因是,預測文本是AI 的「超級任務」,GPT-2 的誕生為問題的解決帶來了希望。從回答「現在幾點了」到自動聯想你簡訊的下一句話,一個好的問答模型可以解決一系列複雜的問題。

「我們不敢公佈原始碼」

除了寫同人小說,GPT-2 還能發揮更大的作用。

OpenAI 預測,在未來,GPT-2 可以成為寫作助手、殘障人士對話輔助AI,同樣的模型還能用於語言之間的無監督翻譯和建立更準確的語音辨識系統。

然而,OpenAI 卻暫時不打算公開GPT-2 的原始程式碼。

「大型通用語言模型可能會產生重大的社會影響,」OpenAI 在文件中寫道,「我們將會發布一個小型模型供研究人員進行實驗。」

在OpenAI 看來,一旦被公開,GPT-2 就可能被惡意利用。無論是產生假新聞,還是用來寫垃圾郵件,GPT-2 都是一把好手,可以想像,有了GPT-2 之後,社群網路上鋪天蓋地的機器人帳號只會變得更加難以辨認。

全部都是機器人

下一步,工程師們會用更多的資料訓練GPT-2。

「我們很期待到時候會發生什麼,」 OpenAI 工程師Luan 說,「同時也有點害怕。」

但對於普通人而言,我們不需要擔心那麼多,現在登入此網址,就可以使用GPT-2了!

責任編輯:Anny

延伸閱讀:



上雲猶如太空探險之旅,iKala Cloud AIOps Services協助企業輕鬆穿梭多雲環境

人類從上個世紀積極探索外太空,為了將太空人送上天際必須克服各式挑戰,而現代企業要從「地端」飛向「雲端」,困難程度有過之而無不及。iKala Cloud AIOps Services 提供多項關鍵服務,幫助 IT 團隊輕鬆悠遊多雲環境。
評論
評論

探索外太空,曾經是國際間的科技競賽,近年 Tesla 創辦人馬斯克更準備把太空旅行當成商業服務,預計 2026 年要帶著人類登陸火星。完成一趟星際旅行,需仰賴嶄新的科技及跨科學精密計算,但你知道嗎?現代企業要從「地端」飛上「雲端」,其實挑戰程度不亞於飛向太空。

對企業資訊管理者來說,有限的 IT 資源無法應付繁重的維運項目,加上同時管理公私有雲架構更顯困難、資安管理複雜,例如需要人工執行過濾警示,各種大大小小挑戰不勝枚舉。換言之,企業想航行雲端,就像打造火箭需要龐大資源及人力。不過,現在有更輕鬆穿梭雲端的方式,就是使用雲端技術服務商 iKala 所提供的 AIOps Services(自動化雲端託管服務)

火箭升空前的全盤規劃:iKala AIOps 擬定系統架構規劃、教育訓練

完成一趟太空之旅,必須做足各種研究,例如精準計算飛行軌道、降落定位點、燃料耗用數、與地球通訊設定…等。

對沒有雲端架構經驗的企業來說,就如同當時的科學家,必須用土法煉鋼的方式檢查數據是否有誤。換言之,企業 IT 在升級之前,就需要有經驗的「雲端顧問」來釐清需求、協助規劃「升雲」之旅。而 iKala 就是企業的最佳雲端顧問,旗下 iKala Cloud AIOps Services 會搭配一位專責的技術客戶經理,協助企業提供即時的技術服務與專業建議。

究竟 IT 升級之前,iKala Cloud AIOps Services 有哪些服務?首先是「系統設計規劃」,涵蓋系統架構規劃書、系統上線/遷移計畫書,可因應客戶產業需求,提供對應的解決方案以及顧問服務。而越來越多企業會使用到 Google 的雲端資源,iKala 也有提供 Google 雲端平台訓練服務。

GCP 教育訓練課程多元,包含 GCP 基礎架構(網路設定規劃、權限控管、計算資源等)、大數據與機器學習(大數據分析 Pipeline、BigQuery、ML 模型訓練與應用)、軟體開發技術與流程(容器化、CI/CD、DevOps)等。因為 iKala 團隊取得 10 多項 Google 專業技術證照,才能在企業規劃雲端轉型的前期就一步到位,規劃出整體藍圖,提供更全面的解決方案建議。

火箭升空中的精密操作:iKala AIOps 輔助即時技術維運、資安管理

當火箭準備就緒、升空倒數之際便是決定這趟太空之旅能否成功的關鍵時刻。從太空人的行前訓練與身體檢查,到火箭的引擎測試完成,如果有靜電或一點火花都可能引發爆炸事故。光是在升空階段,太空總部就要有結構、熱控、姿態控制、資料處理、電能、遙傳指令、推進以及飛行軟體等龐大的系統工程師在旁待命。

換言之,企業 IT 移轉雲端過程就像火箭發射的當下,需要有專業、經驗足夠的工程師,才能即時協助企業順利上雲,甚至快速排除緊急的狀況。對此,iKala Cloud AIOps Services 提供兩大關鍵的幫助:技術維運、資訊安全管理。

iKala Cloud AIOps Services 的技術維運服務內容,提供 7 x 24 的 Help Desk,像是緊急 GCP 問題報修、產品使用技術諮詢;或是事故管理,如搭建監控系統、設定規劃告警政策、規劃日誌收集與留存。每月也會提供企業維運報告,報告書有營運效率檢討、流程優化、新服務項目、營運系統建議等。

至於資訊安全管理方面,除了基本的 GCP 專案權限控管掃描、應用程式 OWASP(Open Web Application Security Project)前 10 大項目資安弱點掃描,同時也針對近年相當受重視的 DDoS 防護,iKala 可協助企業導入 GCP 平台的 DDOS 防禦機制。iKala 掌握多年軟體開發和雲端管理經驗,可分享給客戶 DevOps、AI 第一手實務的作法與經驗。

火箭升空後啟動自動導航:iKala AIOps 提供 AI 自動化監控、帳務管理

當火箭成功升空後,太空人為了執行下一階段任務,這時候火箭就需要轉換成自動駕駛模式,或在探索其他星球時,出動機器人來協助執行人力無法負荷的任務,讓太空人專心處理更關鍵的工作。換言之,上雲後的 IT 架構就像升空後的火箭,應該減少 IT 人員的負擔,甚至不需浪費例行時間,就能夠快速掌握整體資訊系統的運作狀況。

不過要讓 IT 架構像火箭具備自動駕駛功能,勢必需要相當高的技術門檻,而 iKala Cloud AIOps Services 正好有相對應的服務。如此一來,IT 人員的生產力就能投入在更具商業價值的研發專案,讓 IT 部門轉型成可創造產值的單位,而非單純的後勤支援角色。

盤點 iKala Cloud AIOps Services 在此環節共有三大類服務。其中一項是 AI 自動化監控與通報服務,幫助 IT 成員主動監控系統,掌握是否有異常操作狀況。其二是帳務方面的管理,幫助企業產出雲端服務月用量帳務分析報告,針對軟體授權需求,整合出帳至  Marketplace 與第三方服務商,自動化做到 License 採購管理。

第三項則是針對服務級別協定(SLA)iKala Cloud AIOps Services 提供 24 x 7、5 x 8 兩種模式,在重大 GCP 服務異常中斷服務時,提供電話、e-mail 聯繫。而且每月會舉辦 1 次月會(以 on-site 或遠端視訊會議方式)提交書面報告。目前 iKala 的企業客戶服務超過 400 多家、涵蓋數 10 種產業,可說是企業成功上雲,最能安心託付的合作夥伴。 

事實上,雲端託管服務(CMS)是目前最夯的新趨勢,根據市調公司 MarketsandMarkets Research 報告指出,全球雲端託管服務的市場規模,預計從 2020 年的 624 億美元,到 2025 年成長至 1,162 億美元,複合年增長率(CAGR)為 13.3%。代表未來有大量企業採用 CMS,以降低 IT 基礎設施的投資成本及風險,藉此提升企業營運的競爭力。

由此看來,企業的數位轉型,就像上個世紀的太空軍備競賽一樣。「時間就是決勝點」,越晚起步的公司與其他數位能力領先群的企業相比,差距只會越來越大。現在就攜手 iKala 嘗試 iKala Cloud AIOps Services,打造穩定的 IT 系統、邁向數據驅動的商業模式,讓企業在數位世代站穩腳步,輕鬆穿梭多雲之間。

了解更多 iKala Cloud AIOps Services