我用 OpenAI 文本生成器續寫了《復仇者聯盟》

從 Reddit 上選取了800 萬條高讚數連結,抓取文本部分,形成了一個40G 大小的緊湊訓練資料集,使 GPT-2 的資料集比其他競爭對手的資料品質更高。
評論
Reuters
評論

本篇來自合作媒體PingWest,INSIDE 經授權轉載。

先前只有少部分程式設計師才能摸到的、門檻高難度更高的 OpenAI 文本產生器GPT-2,現在終於有了一般人也能使用的Web 版本!在這個由加拿大工程師Adam King 製作的網站上,任何人都能調教簡化版的GPT-2—它能夠辨識各種各樣的輸入,從新聞、歌詞、詩歌、食譜、程式碼,甚至到《魔戒》和《復仇者聯盟》主題,只要給出一個開頭,GPT-2 就能完美地接續你的話題。

在網站上,我們可以看到目前GPT-2 掌握的主題似乎有點過於豐富:

整理行李去火星、說英語的獨角獸、《魔戒》、小行星撞地球;食譜;《復仇者聯盟》劇本;軟體技術文件……

不由讓人好奇它都能編出什麼鬼

於是,我嘗試了一下「《復仇者聯盟》劇本」,想看看它能不能編出一個《復仇者聯盟5》:

當讀到這個輸出劇本時,我簡直震驚了。其中有大量情感豐滿的兩人互動描寫,包括「Steve 深吻Tony 的前額」,「Steve 望著Tony,Tony 報以微笑」。儘管這個劇本並不完美,但總的來說它非常連貫,看起來不僅像是人寫的,還像是美國隊長和鋼鐵人的同人作品!

而在面對其他類型的輸入文本時,GPT-2 同樣沒有讓人失望:

輸入「美國總統川普宣布永遠關閉美國政府」,GPT-2 續寫道:「川普批評媒體,聲稱競選中有大量非法選票,選舉被操縱了……當他走下台時,抗議的公眾大呼『川普』。」

有時,GPT-2 也會變成爸爸媽媽轉發的朋友圈心靈雞湯:

問它,「我今天應該幹嘛?」,GPT-2 回答道:「去吧,讀一本書,尋找一列火車,欣賞夕陽,品味城中美食。」

GPT-2 流暢的表現令人髮指,時刻讓人覺得,續寫拋出的引子的不是機器,而是藏在黑盒子裡的隱形槍手。然而,就連 GPT-2 的創造者們也不知道它的「上限」在哪裡。

OpenAI 加州實驗室工程副總裁David Luan 在接受The Verge 採訪時表示,有一次,他們命令GPT-2 以「垃圾回收為什麼對世界有害」為題寫文章,結果GPT-2 給出了一篇有理有據令人信服的論文。「儘管這個論點和普世認知相悖,但它還是寫出了非常合理的解釋」, Luan 說道,「這篇東西完全可以提交給SAT(美國大學入學前的測試),然後拿高分。」

寫作水準優於80%美國高中生的GPT-2,到底是個什麼模型?

「我們從Reddit 上收集了800 萬個連結」

GPT-2 能應對各種各樣的文風和內容,然而和 OpenAI 之前推出的專門打DotA 的電競AI 不同,GPT-2 並沒有接受特定資料集的強化訓練,而是對各種文本「來者不拒」。

一開始,OpenAI 的工程師們只為GPT-2 設立了一個簡單的目標:根據文本中所有已知的單詞,預測下一個單詞。

為了讓 GPT-2 變得足夠聰明,工程師餵給了它800 萬個網頁連結。這些鏈接必須精挑細選:要內容豐富多樣,要由真人書寫編輯,要語言足夠精彩。

最終,他們從 Reddit 上選取了800 萬條Karma 值(相當於論壇裡的等級)大於 3 的高讚數連結,然後抓取了其中的文本部分,形成了一個40G 大小的緊湊訓練資料集。

這種精心篩選使 GPT-2 的資料集比其他競爭對手(如CommonCrawl)的資料集品質更高。

「在某種意義上,所有的工作都是由Reddit 網友完成的,」 OpenAI 研究員Jeff Wu 在接受The Verge 採訪時開玩笑說。OpenAI 主管Amodei 補充道,至少他們沒有用其他更有毒的語料來源,比如 4Chan。

在整個無監督訓練過程中,工程師沒有對GPT-2 進行任何有針對性的培訓。這樣一個「放養」的AI(又叫Zero-shot 學習法),卻在盲測中突破了多項記錄,拿下了世界第一。

在OpenAI 部落格公佈的測試結果中,我們可以看到,GPT-2 在多項測試中表現優於在特定領域資料集(例如維基百科,新聞,書籍)上訓練的模型。在著名的AI 常識推理比賽Winograd Schema Challenge 中,GPT-2 的成績把世界紀錄提高了7%。在「兒童書籍填詞測試」中,GPT-2 的表現幾乎與人類無異。

在回應人類輸入的語句時,沒有經過特定訓練的GPT-2 像變色龍一樣,能快速適應條件文本的風格和內容,產生後續文本。

比如這個以假亂真天馬行空的《魔戒》續寫,我覺得甚至比《權力的遊戲》最終季還好看。

OpenAI Blog,Google自動翻譯 

「預測文本是AI 的超級任務」

比起GPT-2,此前採用機器學習的AI 都只能算是「狹隘的AI」,僅能處理特定的任務。

例如OpenAI 的DotA 夢之隊能戰勝人類最強玩家,在《星海爭霸》中卻連買兵都不會;DeepMind 的 AlphaGo 能擊敗圍棋冠軍,但它下五子棋的技術可能還不如小學生。但GPT-2 的表現證明,人類有能力訓練出更加泛化的AI。

但在 OpenAI 前工程師 Ryan Lowe 看來,GPT-2 表現出色的原因主要來源於更大的數據庫。GPT-2 的參數數量和訓練數據量都是上一代GPT 的10倍。

與此同時GPT-2 距離工程師夢想中的萬能AI 仍有一段距離。

在產生文本時,儘管語法和拼寫都無懈可擊,一些小問題仍然會暴露GPT-2 的真實身份:例如文本重複,前後矛盾(例如,有時模型會輸出「在水下發生火災」),突然切換話題。

整體來說,GPT-2 對於上下文越熟悉,產生的文本就越合理。在英國脫歐、Miley Cyrus、《魔戒》等流行文化中常出現的話題上,GPT-2 幾乎不會出錯。但在應對技術含量更高、更專業的內容時,GPT-2 就會變成人工智障。

當我試圖讓它續寫《權力的遊戲》,它建議我插入廣告

工程師們感到興奮的另一個原因是,預測文本是AI 的「超級任務」,GPT-2 的誕生為問題的解決帶來了希望。從回答「現在幾點了」到自動聯想你簡訊的下一句話,一個好的問答模型可以解決一系列複雜的問題。

「我們不敢公佈原始碼」

除了寫同人小說,GPT-2 還能發揮更大的作用。

OpenAI 預測,在未來,GPT-2 可以成為寫作助手、殘障人士對話輔助AI,同樣的模型還能用於語言之間的無監督翻譯和建立更準確的語音辨識系統。

然而,OpenAI 卻暫時不打算公開GPT-2 的原始程式碼。

「大型通用語言模型可能會產生重大的社會影響,」OpenAI 在文件中寫道,「我們將會發布一個小型模型供研究人員進行實驗。」

在OpenAI 看來,一旦被公開,GPT-2 就可能被惡意利用。無論是產生假新聞,還是用來寫垃圾郵件,GPT-2 都是一把好手,可以想像,有了GPT-2 之後,社群網路上鋪天蓋地的機器人帳號只會變得更加難以辨認。

全部都是機器人

下一步,工程師們會用更多的資料訓練GPT-2。

「我們很期待到時候會發生什麼,」 OpenAI 工程師Luan 說,「同時也有點害怕。」

但對於普通人而言,我們不需要擔心那麼多,現在登入此網址,就可以使用GPT-2了!

責任編輯:Anny

延伸閱讀:



品味生活三大秘訣:「用心工作、長期投資、技巧買房」跟隨達人經驗,逐步實現夢想!

永豐銀行攜手關鍵評論網的「DAWHO之夜」直播活動剛落幕,主持人吳怡霈、樂居網創辦人李奕農、存股達人大俠武林分享買房、投資小撇步,如何善用理財工具,讓大家在投資路上更加順心有效率!
評論
評論

想營造理想的lifestyle,期待夢想的生活趕快實現,不僅需要用心於日常細節,更要懂得及早進行理財規劃,讓豐盛的財富Cover自己每一天!9月23日關鍵評論網與永豐銀行舉辦「大戶品味生活家」線上直播活動,除了邀請到甜美的吳怡霈擔綱主持,主要對談人樂居網創辦人李奕農更洞悉房市趨勢,教網友如何聰明買房,無論自住、投資都上手!此外,36歲就靠著存股擁有亮眼被動收入的理財專家大俠武林,也精采分享新書《股息Cover我每一天:600張存股達人絕活全公開》中的個人投資法,極簡佛系的風格,讓平常還要忙於工作的小資族也能輕鬆累積資產,邁向財富自由的人生。

理財投資有訣竅 數位帳戶好上手

吳怡霈談到大部分人在工作幾年後為自己存到第一桶金、第二桶金,除了計畫買房外,也希望盡快完成退休計畫,不再為金錢操心。在這過程中大家都知道投資理財很重要,卻難免害怕卻步,因為聽聞不少人在股市殺進殺出,不僅沒有賺到錢還因此賠上辛苦累積的資產。財經KOL大俠武林因為知道大家的投資痛點,特別給有心投資的民眾一段理財口訣:「專注本業、閒錢投資」。

「其實對於非專業的投資者來說,專心工作、努力加薪、長期務實投資才是上策,有穩定的收入才能讓你在股災或恐慌行情時進入股市、購買績優公司與含有績優成分股的ETF、利用空頭市場放大現金實質購買力,參與長期的資本利得並領取配息。」大俠武林認為數十年資產穩定累積的成果,不見得會輸給短期殺進殺出的價差買賣策略,這也是他之所以一再強調要使用閒錢投資的原因。「短期股市震盪多、非常難預測,若你常被市場消息左右但又急於用錢,就容易在部位起漲前賣光持有,白忙一場。」

因此為了更有紀律地投資,不被情緒、市場消息打亂原先的風險控制與資金布局計劃,大俠武林建議網友可以使用永豐銀行最近推出的「ibrAIn智在未來」投資工具。

「它不僅能預先設定自己的投資目標、協助訂出合適的投資組合,還有24小時自動化投資顧問替投資者進行監控股票表現、產品組合比例,聰明省心地逐步達成理財目標,同時過好日常生活。」

若在投資工具之外共同搭配安心、好用的理財工具,一站式服務對於忙碌的投資人來說更上手。永豐銀行積極推動「DAWHO數位帳戶」全方位金融體驗,在坊間一片數位轉型浪潮中,提供安全可靠的線上帳戶申請及豐富金融產品,包含DAWHO理財型房貸、大戶投等,有助於顧客聰明精明輕鬆地管理財富。

感性+理性買房 自住、換房、投資都省心

談到買房,樂居網創辦人李奕農建議購置接手性好的主流產品,而不只單憑個人喜好。「所謂接手性好就是要理性選擇,而不只是情感導向購買沒有電梯的公寓四五樓、屋齡大於三十年、地上權住宅以及公設比太高的房子」。李奕農補充到,若是針對投資買房者,他建議選擇高薪人力的外來人口區,例如有台積電員工進駐的台南,房價及買氣才有所支撐;高租金投報區,例如就業人口多、房子好租且房價不高的桃園觀音工業區、台中海線三井OUTLET等。

其實在學習投資技巧和買房心法之外,若能長期擁有安心的理財團隊,更能在財富管理路上走得順風順水。永豐銀行「尊榮理財會員」除了提供專人理財諮詢,還有免費機場接送與高鐵商務車廂免費升級等禮遇;現在加入永豐銀行財富管理的貴賓,若同時選擇開立「DAWHO數位帳戶」還將另外致贈英國經典Jo Malone香水組,現在就邀請最有質感的投資者加入永豐銀行,一起在幸福的氛圍中邁向財富自由!