驗證碼服務「reCAPTCHA」如何協助傳統書刊數位化

評論
評論

在種網路表單驗證碼服務中,近年來最熱門的莫過 reCPATHCA 了,包含 Twitter 和 Facebook 等眾多網路公司均採用他們的服務來進行驗證。但你知道嗎?就在網友們輸入驗證碼的同時,也替了許多傳統印刷的經典的文章做了數位化的動作,就讓我們一起來看看吧!

網站表單驗證碼

曾如先前 本站作者 fOx 的文章曾經談到 ,網站驗證碼主要是用在各種網路服務的會員註冊系統,透過一些機器不容易辨識的圖案與文字,以分辨是否是真的由使用者在操作系統、或者是透過電腦機器人在大量灌水、註冊重複帳號等。

reCAPTCHA

reCAPTHCA 是目前世界上最受歡迎的免費驗證碼服務之一,包含 Facebook、Twitter 等目前最熱門的網路服務都使用 reCPATHCA 作為驗證系統,原先是由卡內基梅隆大學開發,後來在去年受到 Google 收購,目前仍保持是免費的服務開放給大眾使用。

相比於其他的驗證碼服務提供者,reCAPTCHA 提供了相當良好的介面設計、當使用者無法分辨圖案時也可以選擇從新換一組驗證碼、或者是透過音效播放內容來提供盲人朋友驗證。

reCAPTCHA 是由 Google 提供的免費服務、又有許多第三方的外掛可以直接整合進你我的網站當中,包含 WordPressDrupal 等常見的開放原始碼都有外掛可以直接支援,所以自然受到網站開發者們的大力推崇,並且運用在自身的網站中,目前每日有超過千萬次的驗證是由 reCAPTCHA 完成,可見得其的影響力。

工人智慧

而 reCAPTCHA 除了提供網站開發者可以免費的使用驗證碼服務之外,更重要的是 reCAPTCHA 的背後精神也是相當值得玩味的。

一般我們看到的網站驗證碼往往都是由機器隨機產生一組文數字、經過變形與修改後顯示在頁面上,這樣做的效果雖然不錯、但有時產生出來的文數字組合並非常用的文字,造成使用者分辨閱讀不易。

而 reCAPTCHA 的文字來源卻是來自那些掃描過後的傳統書籍與報章雜誌,像是在受到 Google 收購前,reCAPTCHA 主要的成果便是將美國紐約時報過往的存檔全部數位化、讓使用者能夠在網路上搜尋、閱讀。

而為什麼傳統的報章雜誌掃描後不能直接上網提供使用者下載呢?這原因是因為尚未經過文字辨認過的圖檔是無法直接透過軟體搜尋的,在茫茫的報紙海當中、若是沒有可以直接透過搜尋工具搜尋指定關鍵字的話,那要找到想要的內容是曠日廢時的。

然而一般傳統的數位化方法便是透過 OCR 軟體,也就是讓電腦自動辨識文字內容。然而,誠如筆者先前談 工人智慧與廣告應用 的文章中曾經說過的,雖然技術的進步神速、但有許多問題仍然無法透過人工智慧解決,那就不如訴諸於工人智慧吧!透過人肉的力量來進行圖像的理解與辨識、效果自然好上不少。像是下圖透過軟體 OCR 辨識的結果便是慘不忍睹:

事實果然如此,根據 reCAPTCHA 的官方數字表示,目前透過 reCAPTCHA 辨識出的文字正確比率高達 99.5%,超過所有現有的 OCR 辨識軟體的表現,而目前的成果已經順利的辨識出多達十年份的紐約日報文章,隨著被 Google 的收購,接下來也將一併辨識那些由 Google Books 所收藏的各大學圖書館經典書籍。

結論

隨著網路的蓬勃發展,像是 reCAPTCHA 這樣有趣且確實幫助人們解決問題的服務是值得我們欣賞的,或許各位讀者也可以想想、在開發熱門網路服務的同時,是否也能夠透過一些額外的巧思來幫助人類文明的進步。


精選熱門好工作

市調平台會員行銷 PM(RIG)

台灣樂天市場
臺北市.台灣

獎勵 NT$20,000

前端開發者 / Frontend Developer

奔騰網路科技有限公司
臺北市.台灣

獎勵 NT$4,000

平台開發者 / Platform Developer

奔騰網路科技有限公司
臺北市.台灣

獎勵 NT$20,000

評論