我用 OpenAI 文本生成器續寫了《復仇者聯盟》

從 Reddit 上選取了800 萬條高讚數連結,抓取文本部分,形成了一個40G 大小的緊湊訓練資料集,使 GPT-2 的資料集比其他競爭對手的資料品質更高。
評論
Reuters
評論

本篇來自合作媒體PingWest,INSIDE 經授權轉載。

先前只有少部分程式設計師才能摸到的、門檻高難度更高的 OpenAI 文本產生器GPT-2,現在終於有了一般人也能使用的Web 版本!在這個由加拿大工程師Adam King 製作的網站上,任何人都能調教簡化版的GPT-2—它能夠辨識各種各樣的輸入,從新聞、歌詞、詩歌、食譜、程式碼,甚至到《魔戒》和《復仇者聯盟》主題,只要給出一個開頭,GPT-2 就能完美地接續你的話題。

在網站上,我們可以看到目前GPT-2 掌握的主題似乎有點過於豐富:

整理行李去火星、說英語的獨角獸、《魔戒》、小行星撞地球;食譜;《復仇者聯盟》劇本;軟體技術文件……

不由讓人好奇它都能編出什麼鬼

於是,我嘗試了一下「《復仇者聯盟》劇本」,想看看它能不能編出一個《復仇者聯盟5》:

當讀到這個輸出劇本時,我簡直震驚了。其中有大量情感豐滿的兩人互動描寫,包括「Steve 深吻Tony 的前額」,「Steve 望著Tony,Tony 報以微笑」。儘管這個劇本並不完美,但總的來說它非常連貫,看起來不僅像是人寫的,還像是美國隊長和鋼鐵人的同人作品!

而在面對其他類型的輸入文本時,GPT-2 同樣沒有讓人失望:

輸入「美國總統川普宣布永遠關閉美國政府」,GPT-2 續寫道:「川普批評媒體,聲稱競選中有大量非法選票,選舉被操縱了……當他走下台時,抗議的公眾大呼『川普』。」

有時,GPT-2 也會變成爸爸媽媽轉發的朋友圈心靈雞湯:

問它,「我今天應該幹嘛?」,GPT-2 回答道:「去吧,讀一本書,尋找一列火車,欣賞夕陽,品味城中美食。」

GPT-2 流暢的表現令人髮指,時刻讓人覺得,續寫拋出的引子的不是機器,而是藏在黑盒子裡的隱形槍手。然而,就連 GPT-2 的創造者們也不知道它的「上限」在哪裡。

OpenAI 加州實驗室工程副總裁David Luan 在接受The Verge 採訪時表示,有一次,他們命令GPT-2 以「垃圾回收為什麼對世界有害」為題寫文章,結果GPT-2 給出了一篇有理有據令人信服的論文。「儘管這個論點和普世認知相悖,但它還是寫出了非常合理的解釋」, Luan 說道,「這篇東西完全可以提交給SAT(美國大學入學前的測試),然後拿高分。」

寫作水準優於80%美國高中生的GPT-2,到底是個什麼模型?

「我們從Reddit 上收集了800 萬個連結」

GPT-2 能應對各種各樣的文風和內容,然而和 OpenAI 之前推出的專門打DotA 的電競AI 不同,GPT-2 並沒有接受特定資料集的強化訓練,而是對各種文本「來者不拒」。

一開始,OpenAI 的工程師們只為GPT-2 設立了一個簡單的目標:根據文本中所有已知的單詞,預測下一個單詞。

為了讓 GPT-2 變得足夠聰明,工程師餵給了它800 萬個網頁連結。這些鏈接必須精挑細選:要內容豐富多樣,要由真人書寫編輯,要語言足夠精彩。

最終,他們從 Reddit 上選取了800 萬條Karma 值(相當於論壇裡的等級)大於 3 的高讚數連結,然後抓取了其中的文本部分,形成了一個40G 大小的緊湊訓練資料集。

這種精心篩選使 GPT-2 的資料集比其他競爭對手(如CommonCrawl)的資料集品質更高。

「在某種意義上,所有的工作都是由Reddit 網友完成的,」 OpenAI 研究員Jeff Wu 在接受The Verge 採訪時開玩笑說。OpenAI 主管Amodei 補充道,至少他們沒有用其他更有毒的語料來源,比如 4Chan。

在整個無監督訓練過程中,工程師沒有對GPT-2 進行任何有針對性的培訓。這樣一個「放養」的AI(又叫Zero-shot 學習法),卻在盲測中突破了多項記錄,拿下了世界第一。

在OpenAI 部落格公佈的測試結果中,我們可以看到,GPT-2 在多項測試中表現優於在特定領域資料集(例如維基百科,新聞,書籍)上訓練的模型。在著名的AI 常識推理比賽Winograd Schema Challenge 中,GPT-2 的成績把世界紀錄提高了7%。在「兒童書籍填詞測試」中,GPT-2 的表現幾乎與人類無異。

在回應人類輸入的語句時,沒有經過特定訓練的GPT-2 像變色龍一樣,能快速適應條件文本的風格和內容,產生後續文本。

比如這個以假亂真天馬行空的《魔戒》續寫,我覺得甚至比《權力的遊戲》最終季還好看。

OpenAI Blog,Google自動翻譯 

「預測文本是AI 的超級任務」

比起GPT-2,此前採用機器學習的AI 都只能算是「狹隘的AI」,僅能處理特定的任務。

例如OpenAI 的DotA 夢之隊能戰勝人類最強玩家,在《星海爭霸》中卻連買兵都不會;DeepMind 的 AlphaGo 能擊敗圍棋冠軍,但它下五子棋的技術可能還不如小學生。但GPT-2 的表現證明,人類有能力訓練出更加泛化的AI。

但在 OpenAI 前工程師 Ryan Lowe 看來,GPT-2 表現出色的原因主要來源於更大的數據庫。GPT-2 的參數數量和訓練數據量都是上一代GPT 的10倍。

與此同時GPT-2 距離工程師夢想中的萬能AI 仍有一段距離。

在產生文本時,儘管語法和拼寫都無懈可擊,一些小問題仍然會暴露GPT-2 的真實身份:例如文本重複,前後矛盾(例如,有時模型會輸出「在水下發生火災」),突然切換話題。

整體來說,GPT-2 對於上下文越熟悉,產生的文本就越合理。在英國脫歐、Miley Cyrus、《魔戒》等流行文化中常出現的話題上,GPT-2 幾乎不會出錯。但在應對技術含量更高、更專業的內容時,GPT-2 就會變成人工智障。

當我試圖讓它續寫《權力的遊戲》,它建議我插入廣告

工程師們感到興奮的另一個原因是,預測文本是AI 的「超級任務」,GPT-2 的誕生為問題的解決帶來了希望。從回答「現在幾點了」到自動聯想你簡訊的下一句話,一個好的問答模型可以解決一系列複雜的問題。

「我們不敢公佈原始碼」

除了寫同人小說,GPT-2 還能發揮更大的作用。

OpenAI 預測,在未來,GPT-2 可以成為寫作助手、殘障人士對話輔助AI,同樣的模型還能用於語言之間的無監督翻譯和建立更準確的語音辨識系統。

然而,OpenAI 卻暫時不打算公開GPT-2 的原始程式碼。

「大型通用語言模型可能會產生重大的社會影響,」OpenAI 在文件中寫道,「我們將會發布一個小型模型供研究人員進行實驗。」

在OpenAI 看來,一旦被公開,GPT-2 就可能被惡意利用。無論是產生假新聞,還是用來寫垃圾郵件,GPT-2 都是一把好手,可以想像,有了GPT-2 之後,社群網路上鋪天蓋地的機器人帳號只會變得更加難以辨認。

全部都是機器人

下一步,工程師們會用更多的資料訓練GPT-2。

「我們很期待到時候會發生什麼,」 OpenAI 工程師Luan 說,「同時也有點害怕。」

但對於普通人而言,我們不需要擔心那麼多,現在登入此網址,就可以使用GPT-2了!

責任編輯:Anny

延伸閱讀:



如何善用原生雲服務,打造企業專屬數據中台?

資訊化起步較早的企業,最常見的問題莫過於系統整合。隨著企業發展,疊床架屋的系統加上IT人員和外包廠商的異動,所埋下的技術債與系統地雷也越來越多。究竟「數據中台」如何解決分散的系統、不統一的資料結構、有斷點的工作流程?專業雲服務商 Epic Cloud 聚上雲,帶您了解何謂數據中台,以及如何展開循序漸進的轉型之路。
評論
Photo Credit:Epic Cloud 聚上雲
評論

在環境快速變動的時代,企業的數位轉型已不僅是口號,而是一場競速的進行式。數位化、數位優化、數位轉型,分別是數位轉型的三階段。在數位化方面,包含從企業內部導入  ERP(Enterprise Resource Planning,企業資源規劃),也包含提供外部客戶的各種系統,舉凡供應商系統、會員系統、電商平台、行動 APP 等。隨著使用者規模不斷成長與多樣化,便衍生大量的數位優化議題。數位優化泛指使現有系統提供更多元、更完整的服務,或是提高資訊系統的穩定度與負載力。而企業在全力發展系統、進行數位優化時,想必也衍生不少問題。

資訊發展帶來哪些難題?

資訊化起步較早的企業,最常見的問題莫過於系統整合。通常導入某項特定系統是為了解決某項特定問題,然而隨著企業發展,在不同時期導入的不同系統,或是在既有系統上疊床架屋持續發展,再伴隨著企業的人員異動,以及外包廠商的更換,所埋下的技術債與系統地雷也越來越多。

根據調查,針對資訊系統,使用者最常有下列三大困擾:

  1. 系統太多,帳號密碼難以管理,人員搞不清楚什麼時候該用什麼系統。
  2. 系統部分功能重疊,但資料無法互通,產生更多問題與不必要的工作。
  3. 系統老舊跟不上變化,與實際需求不符。
Photo Credit:Epic Cloud 聚上雲

由此可見,分散的系統、不統一的資料結構、有斷點的工作流程,持續困擾著內外部的使用者。前述問題若不解決,遑論該如何導入近年火紅的大數據與人工智慧應用。導入這類需仰賴大量企業數據運行的數位轉型方案,往往直接卡關在第一道難題:「 我要的資料在哪裡?它能再利用嗎?它有效嗎?」

打造企業專屬的數據中台

正因如此,是時候將散落的系統與資料整合在一起了。「數據中台」是一種數據管理體系,根據企業特有的業務模式和組織架構,建構一套持續把數據變成資產、並服務於業務的機制。簡言之,數據中台就是將各種使用者介面、系統架構或是底層資料進行整合,讓業務面的應用程式更易於使用。然而,累積已久的各種系統,要如何開始整合呢?

Photo Credit:Epic Cloud 聚上雲

當今的資訊技術與商務模式日益複雜,企業很難透過單一的解決方案排除所有問題。除了要顧及商業流程之外,新打造的系統還必須兼顧資訊安全、高可用性、可擴展性、彈性,還需降低成本,甚至還得符合 ESG 指標 (環境保護 Environment、社會責任 Social、公司治理 Governance),具備一定的專業能力才能全盤兼顧上述需求。所幸,現今的主流公有雲如 AWS、Azure、GCP 均有提供各式 SaaS(Software as a Service)和 PaaS(Platform as a Service),讓企業可以「站在巨人的肩膀上」,降低新世代資訊系統的開發門檻,使企業可以專注於打造商務邏輯。當企業開始善用原生雲服務作為新系統架構,可節省高達 60% 的開發時間和 70% 的維運成本,使數位轉型更容易達成。工具既然已經齊全,那麼打造數據中台時,企業該如何運用雲端服務來快速達成目標?

Photo Credit:Epic Cloud 聚上雲
  1. 採用微服務架構:
    微服務架構的精神,就是將傳統大系統的業務流程,依照不同階段或功能,垂直切分為較小的單位,使單一功能可以獨立運作,並且有自己的應用程式與資料庫,使其他的應用程式易於使用。建議可搭配容器化技術,使微服務架構更易於實現。在雲端服務中, AWS 的 ECS(Amazon Elastic Container Service)、EKS(Amazon Elastic Kubernetes Service)與 GCP 的 GKE(Google Kubernetes Engine)均提供了託管的容器管理服務,讓企業在實現微服務架構的同時,也能一併解決因微服務化而產生大量容器管理的需求。由於採用了託管的雲端服務,在系統維運上,也為 IT 人員減輕了不少維護伺服器的負擔。
     
  2. 善用 SaaS 簡化開發與維運:
    除了主要的核心商務邏輯,數據中台還需要許多的周邊服務來完善系統。以使用者帳號管理功能為例,AWS 的 Amazon Cognito 提供了完整的身份帳號管理機制,還可串接企業內部的 Azure AD 或 Google Workspace 等帳號機制,替企業在資訊安全與使用者管理方面省下不少心力。其他諸如寄送 Email、發送簡訊、手機訊息推播、異質系統的資料串接、程式碼管理、系統監控、系統數據分析等,均有現成的 SaaS 服務可直接使用。企業在規劃數據中台時,應專注於實現自身的業務邏輯,而非每一件事都從零開始。
     
  3. 選用自由軟體與開源技術:
    過去企業的系統大致以 Oracle 與微軟的解決方案為主,時常因授權與維護費用的因素,使系統的改版與擴充窒礙難行。而在自由軟體技術成熟的當今,已可選用適合的軟體技術來滿足需求,雲端服務亦提供熱門技術的託管服務,例如資料庫類型的 Amazon Aurora (MySQL, PostgreSQL)、GCP AlloyDB (PostgreSQL)和 NoSQL 的  MongoDB Atlas, Amazon ElastiCache (Redis),以及可實現無伺服器化 (serverless)服務的 AWS Lambda (Node.js, Python, Java),再加上各種大數據與 AI/ML 的解決方案,企業可以挑選適合的技術來發展自己的資料中台。
     
  4. 關於資訊安全:
    「將企業的資訊放到雲端,到底安不安全?」是許多人心中的疑問。事實上,資訊安全並不是將資料鎖在自家機房就代表安全。所謂資訊安全,一般分為「資料儲存的安全」和「資料傳輸的安全」。在儲存安全的部分,雲端服務本身即提供了各種類型的儲存媒介,這些儲存媒介的底層,也設計了多份備份與異地備份的機制,而針對儲存的資料亦有額外的加密機制可選用;至於在資料傳輸的部分,有外部使用的傳輸加密與應用程式防火牆(WAF),也有內部使用的防火牆、VPN 與專線架構,這些都是雲端的基礎服務,加上雲端服務本身對於平台的操作都有完整的 log 機制,因此,將資訊中台建置在雲端,絕對可受到更好的資安防護。
Photo Credit:Epic Cloud 聚上雲

循序漸進的轉型之路

「我知道系統要改,但是不知從何改起。」這是許多企業經營者、企業高層與 IT 的心聲。觀察眾多正在進行數位轉型的企業,其成功不外乎有下列共同點:

  1. 由上而下推行:
    經營者與企業高層必需了解轉型所帶來的好處與長期價值,訂立 3 至 5 年的中短期目標,並指示相關的部門一同配合。數位轉型不是單純 IT 的工作,相關使用單位一同合作才會成功。
     
  2. 由外而內進行:
    一步到位的強硬轉型,幾乎都是慘烈的收尾。資訊系統的更換,往往牽涉使用者習慣、新舊商務邏輯的變更和異質系統的相依性,因此,在規劃新一代的系統架構和未來框架後,會選擇以新需求或是離核心業務較遠的系統起步,逐步實現更新,一方面降低轉型帶來的業務衝擊,一方面讓內部人員跟上轉型的腳步。
     
  3. 選擇合適的合作夥伴:
    資訊產業是一個快速發展和變化的產業。選擇合作夥伴時,除了要看核心人員的實戰經驗與成功案例外,也要觀察其案例技術是否與時俱進?團隊技能組成是否完整?團隊是否具備貴公司的產業經驗?合作夥伴為您規劃的藍圖是否為您量身打造?
Photo Credit:Epic Cloud 聚上雲

打造企業專屬的數據中台,是企業數位轉型的必經之路,專業雲服務商 Epic Cloud 聚上雲,是國內唯一同時具備 SAP、鼎新、Oracle 雲端服務經驗與雲端系統開發的專業團隊,擅長雲地整合、核心系統上雲與企業軟體開發等解決方案,代表客戶多為國內知名製造業、知名零售百貨與各類型新創企業,可協助客戶規劃未來 10 年的資訊架構,展開完善的數位轉型。

Photo Credit:Epic Cloud 聚上雲

本文章內容由「Epic Cloud 聚上雲 」提供,經關鍵評論網媒體集團廣編企劃編審。



作者簡介:許益晨 (Andy Hsu),現任 Epic Cloud 聚上雲技術長,雲端服務經驗十餘年,熟悉企業數位轉型過程,曾帶領大型電商進行 Oracle 平台搬遷、大型百貨電商軟體開發、大型製造業 SAP 系統上雲、鼎新系統上雲等,幫助企業客戶制定數位轉型計畫,輔導超過百間企業導入雲端服務。


關於 Epic Cloud 聚上雲 

Epic Cloud 聚上雲,以雲端服務驅動企業數位轉型的專業顧問團隊,提供「工廠製造雲地串聯」、「雲服務」、「雲應用」、「ESG 解決方案」等顧問諮詢和軟體開發解決方案,運用 Google Cloud 與 Amazon Web Service (AWS)的「大數據分析」和「機器學習」之服務,陪伴企業實現數位領先,是 Google Cloud 與 AWS 在台協助企業成功上雲的強大推手。 Epic Cloud 聚上雲團隊擁有 50 張以上的專業技術認證,涵蓋 Google Cloud、AWS、SAP、HubSpot、Infobip、Asana、Delinea、HelloSign、Litmus.io 等專業顧問服務認證。 

官方網站LINE 聯繫Facebook