你填的驗證碼其實是在幫 Google 打工 揭開 reCAPTCHA 的前世今身

填驗證碼等於是在幫 Google 訓練 AI,不過你知道這背後是怎麼運作的嗎?驗證碼越來越多元又是怎麼一回事?
評論
評論

本篇來自合作媒體 PingWest,INSIDE 經授權轉載。

最近,筆者發現,上網遇見的驗證碼「越來越有內容」了。

為了證明自己是個真人,除了要輸入方框裡的文字,還得做從下面圖中挑出路牌、挑出門牌這種連連看似的高級任務。

在好幾年之後,筆者突然醒悟:我這哪裡是在填驗證碼,根本就是在幫別人標註數據,訓練AI 啊!

不管是給圖片分類:

給路牌勾邊:

還是把路牌圈出來:

感覺都是在教無人駕駛的 AI 認路啊……

其實,「輸驗證碼就是在為 AI 打工」並不是想得太多。事實上,我們在輸驗證碼時義務勞動的歷史,從古早的文字驗證碼時期就開始了。

每次輸入驗證碼,你都在義務勞動

今天,應用最廣的驗證碼系統就是 reCAPTCHA (Completely Automated Public Turing Test To Tell Computers and Humans Apart,區分人機的全自動圖靈測試系統)了。

這家如今已被 Google 收購的公司,承擔了世界上大部分網路的人機驗證工作(上文給出的三個例子均來自 reCAPTCHA)。

2007 年,reCAPTCHA 的創辦人之一,卡內基梅隆大學教授路易斯·馮·安(Luis von Ahn)想到:「如果人類與機器各有擅長,能不能利用驗證碼系統,讓人類和機器共同解決問題呢?」

當時,一個亟待解決的問題就是,如何把浩如煙海的人類紙本典籍數位化。

想要數位化文字,一種方法是手工輸入。這種方法費時費力,還容易出現輸入錯誤。另一種方法是先掃描文字,再結合光學文字辨識技術輸入文字。聽起來很美,但有些年代久遠或本身品質就差的文字掃描出來後實在是太糊了……

以至於電腦識別出來的文本漏洞百出,根本沒法看。

為了解決文本數位化的問題,2007 年,路易斯推出了新的驗證碼系統 reCAPTCHA。

在 reCAPTCHA 驗證碼系統裡,一個驗證碼會由兩部分構成。

第一部分和傳統驗證碼一樣,是自動生成並且經過變形處理的文字,用來檢驗你是不是真人。而第二部分,則是從無法辨識的文本中截取出來的詞。

如果用戶正確輸入前半部分,那麼 reCAPTCHA 就會假設用戶輸入的後半部分也是正確的,然後把輸入結果返回至 reCAPTCHA 的專案主機。

結果返回主機後,主機還會把這個結果再派發給多個用戶進行交叉驗證,以確保沒有不小心或故意輸錯單字的情況。

也就是說,真正有效的人機測試在驗證碼的前半段已經完成,而後半段,就是用戶在義務為人類文明做貢獻了。

那麼,reCAPTCHA 到底做了多大貢獻呢?

2007 年推出之初,reCAPTCHA 每天都能幫助輸入3000 萬個字元。2008年,這個數字飆升到了6000 萬個。粗略統計,在今天,全世界每天都有 2 億個字元透過 reCAPTCHA 登入,相當於人類15 萬小時的工作量。

也就是說,一個人要不吃不喝不睡兩年半,才能完成 reCAPTCHA 一天的工作量。

到今天為止, reCAPTCHA 已經輸入了從 1851 年至今的所有《紐約時報》,共計1300 萬篇文章。除《紐約時報》外,reCAPTCHA 還數位化了超過2500 萬本書,而全球的圖書數量約為1.3 億本。

路易斯在接受媒體 The Hustle 採訪時這樣評價 reCAPTCHA :「 我創造了一個系統,以十秒為單位,數百萬小時為增量,來利用世界上最寶貴的資源:人的大腦。 」

驗證碼是在剝削我們嗎?

如果 reCAPTCHA 的故事到這裡就結束了,每個人都會很開心。但事情沒那麼簡單。

2009 年,Google 以大約 2780 萬美元的價格收購了reCAPTCHA,並開始利用 reCAPTCHA 幫助標註數據。

正如前文所說,reCAPTCHA 的前半段是在驗證你是不是真人,後半段就是真人為驗證碼打工階段了。

2012 年,Google 開始把 Google 街景中難以辨識的門牌和路牌加入驗證碼,請用戶幫忙標註。

除了標註門牌路牌,讓用戶幫忙給數據庫分類也是常見的形式之一。比如下圖這種請用戶「挑出所有路牌的圖片」的驗證碼。

如今,Google AI 已經能精確辨認路牌上的文字和數字,準確度和人眼不相上下。

當有一天我們終於用上Google 的自動駕駛技術,依靠 AI 來辨識路牌和路燈時,這背後不能不說沒有上千萬用戶無償標註的苦勞。

對於此目的,Google 也並不避諱。在 reCAPTCHA 官網上,Google 公開說明了reCAPTCHA 集眾人之力標註數據、訓練 AI 的「群眾外包」模式。

但是仍有用戶對這一點感到不滿。

一位覺得驗證碼不道德的 Reddit 用戶寫到:「這就好像讓幾百萬個人每人為你幹5 秒鐘活兒,然後一分錢都不給一樣,這合適嗎?」

驗證碼的前世今生

驗證碼誕生之初,是為了解決一個特別實在的問題。

網路世界這麼大,你怎麼知道網路另一端是不是一條狗(或者機器人)?

在公開版面上,刷評機器人可以用大量垃圾評論和廣告淹沒真人用戶留下的有價值的資訊;在金融交易平台,腳本程式可以靠不停試驗來暴力破解密碼;在票務網站,我敢說你就算有十隻手也搶不過自動刷票的黃牛……

如何確定網路請求是真人發送的,成了維護網路環境和保護用戶安全的大問題。

2002 年,正是路易斯·馮·安提出了一種切實可行的解決方案,能分清網路對面「是人是狗」。

雖然電腦的計算和分析能力比人類強得多,但是當時的電腦連「一隻小貓在奔跑」這種難不倒三歲小孩兒的圖都認不出來。基於這種思想,路易斯和其他同事合作開發了reCAPTCHA 的祖宗 CAPTCHA,也就是我們俗稱的驗證碼。

初代驗證碼一般是一些經過扭曲變形的文字或數字。人類可以辨識這些文字(儘管偶爾也會出現連人類也認不出的情況),但機器難以理解字符的含義。

之後,驗證碼也經歷了算數題、選擇題,甚至植入廣告等類型的迭代,但都掩蓋不住一個最致命的問題:雖然 CAPTCHA 已經是相對比較好的解決方案,但也並非鐵板一塊。

透過撞庫、人工智慧辨識圖像、甚至是把驗證碼圖片返回給人工再批量輸入等方法,駭客們總能為垃圾腳本找到可乘之機。

更別提有些驗證碼,連真人都搞不定!

正因為驗證碼浪費時間,辨識難度大,而且對於執行某些特定行為(比如爬數據或做學術研究)的人類用戶而言極不友好,驗證碼長期在「網路時代最煩人發明」榜上名列前茅。

於是, reCAPTCHA 推出了更科學的驗證系統。這種驗證系統會檢測用戶的客戶端環境,追蹤用戶的鼠標和鍵盤操作軌跡,提高了機器人的模擬成本。用戶再也不需要苦哈哈地辨識歪歪扭扭的文字,只需要在對話框裡點擊「我不是機器人」,就能通過驗證。

既然已經有了更簡單、更安全的替代方式,那麼伴隨我們成長的驗證碼,是不是也該被淘汰了呢?這種能解決大問題的「群眾外包模式」,又是否合理呢?

延伸閱讀:



為什麼毛小孩這麼愛吃法米納?獨特四道關鍵生產程序打造新鮮美味

同樣是寵物食品,為什麼有的能讓寶貝百吃不膩,有的卻讓毛孩無比嫌棄?毛孩和人一樣,都喜歡新鮮美味的食物,但要做出新鮮美味又營養健康的飼料,過程可沒這麼簡單,讓我們一起來了解吧!
評論
Photo Credit:TNL Brand Studio
評論

同樣是寵物食品,為什麼有的能讓寶貝百吃不膩,有的卻讓毛孩無比嫌棄?除了食材選用的品質、產地,配方食譜的完整性,更關鍵的是-製作過程!毛孩和人一樣,都喜歡新鮮美味的食物,但要做出新鮮美味又營養健康的飼料,過程可沒這麼簡單,讓我們一起來了解吧!

你知道嗎?飼料的生產過程中,每道加工程序都會影響飼料的品質與適口性,義大利法米納為了提供全球毛孩家長最頂尖的寵物食品,禮聘多位獸醫師和動物營養師組成專業團隊,以超過 50 年豐富的生產經驗,針對原料、配方、技術等各環節進行深入研究,用最高標準的流程確保法米納生產的每一顆飼料都兼具新鮮美味與營養均衡。

首先,法米納從原料要求就遠高過其他品牌:嚴選新鮮優質的原肉塊,超過八種主要肉源,例如義大利放山雞肉、義大利放牧野豬肉、紐西蘭放牧草飼羊肉、北海深海魚肉(鯡魚、鱈魚等)、歐洲鹿肉、歐洲鵪鶉肉、歐洲鴨肉,不使用成本較低、營養價值較差的肉粉、次級原料(例如肉類副產品)、豆類或豆類蛋白來拉高蛋白質比例;亦選用產地直送的現採蔬果,例如石榴、蘋果、甜橙、藍莓、菠菜、胡蘿蔔、豌豆等,增加天然維生素、礦物質的來源;不使用基因改造原料,更不加入人工防腐劑;飼料中添加富含 Omega-3 的天然優質魚油,讓毛孩的毛髮更加明亮有光澤。

在配方上更是有動物性蛋白質高達 98% 的頂級無穀系列、選用低升糖指數的斯佩爾特小麥的低穀系列、Omega-3 脂肪酸含量最高的海洋系列、高纖抗氧化的南瓜無穀系列、加強腸胃、皮毛、體態、泌尿道保健的藜麥無穀機能系列,以及世界第一支以新鮮原肉塊製作、科學實證功效的獸醫處方系列等六大系列,供全球各地犬貓家長選擇。

除了選用優良的食材,調製專業的配方,更需要優秀的製程。法米納寵物食品出類拔萃的關鍵就是獨特的四道生產程序:「雙螺桿擠出技術」、「真空鍍膜技術」、「充氮調氣技術」、「即時生產」,有效大幅提升飼料的營養價值,也讓飼料變得更加美味可口。

Photo Credit:TNL Brand Studio

製作飼料一開始,食材原料會被送入擠壓機內,在高溫高壓環境下混合並加熱煮熟,接著從擠壓機模孔中擠出成型。擠壓的製程中,法米納使用「雙螺桿擠出技術」,讓原料中的澱粉糊化更加均勻,做出來的飼料顆粒更加緊實、細緻,更容易被消化,相較於一般使用單螺桿擠出機,法米納烘烤出來的飼料消化率提升 25%,吃到肚子裡的營養更有效被吸收。

Photo Credit:TNL Brand Studio

一般飼料在製作時,僅將油脂、維生素,與其他原料直接混合進入擠出機內加熱煮熟,營養容易受到破壞;但法米納的「真空鍍膜技術」則是把飼料內的空氣抽取出來,呈現負壓狀態,再將油脂與維生素均勻包裹在飼料表面,當壓力回復至正常大氣壓力時,氣壓會讓油脂與維生素均勻地滲進飼料裡面,不僅提升飼料的營養價值,更增加飼料的適口性。

Photo Credit:TNL Brand Studio

接著,透過「充氮調氣技術」,灌入氮氣取代包裝裡原有的空氣,避免飼料受到氧化變質;最後,為了提供毛小孩最新鮮優質的天然糧,法米納推出「即時生產政策」,也就是工廠接單之後才開始進行生產,因此法米納寵物食品的新鮮程度更高於其他市售飼料。

Photo Credit:TNL Brand Studio

為了確實且嚴格控管品質,法米納從食材的來源地、生產程序,到自主增加的微生物與化學分析項目,皆提供完整的追蹤流程,且每一批產品都會留一份樣品儲存至少兩年,如此高規格生產要求,法米納獲得 ISO9001(品質管理系統)、ISO45001(職業衛生安全管理系統)、ISO22000(食品安全管理系統)、HACCP(食品安全管制系統)等多項國際認證。

此外,法米納更與義大利拿坡里費德里克二世大學合作無殘忍動物實驗(Cruelty  Free Research)的發展研究,所有配方生產與測試過程中使用的實驗動物,皆是收集臨床上原本就生病的動物,並經過獸醫與飼主同意及監督進行實驗,有別於較不人道的一般動物實驗,是將健康動物強制誘發疾病後再進行實驗測試。

Photo Credit:TNL Brand Studio

法米納無論在天然原料、營養配方、專業製程、嚴格品管,或是創新研發、科學驗證,每一道環節都極其用心,因此受到國際各大知名寵物食品評論網站的高度評價與獲獎肯定,尤其獲得 Dog Food Advisior(DFA)五星最高分評鑑,The Whole Dog Journal(WDJ)每年最佳推薦品牌也都榜上有名。

魔鬼藏在細節裡,看似簡單的寵物食品,品質優劣可是大有學問!法米納的嚴格要求與用心追求,讓旗下的產品擁有最優秀的品質、最佳的適口性與風味、最好的營養價值,讓毛孩爸媽不用煩惱寵物食品五花八門的選擇就能輕鬆照顧好毛孩飲食與健康。還等什麼?現在開始就選擇法米納天然糧!

法米納官方網站

Photo Credit:TNL Brand Studio