什麼書會暢銷?數據比你知道得更多

誰在買書?買什麼書?這是規劃出版與行銷計畫時,需考量的因素,過去僅能用專業經驗判斷,現在透過資料分析與機器學習,可以用客觀的科學輔佐主觀的決策。中央研究院資訊科學研究所陳昇瑋研究員就用了正確大數據分析,找出書籍銷售數據中潛藏的商機!
評論
▲博客來讀者性別偏好的差異
評論

本文來自中研院旗下網站 《研之有物》,INSIDE 依據《創用 CC 姓名標示–非商業性–禁止改作 4.0 國際》條例轉載。

中研院以理論結合實作、專業結合想像力,探索生活中各種問題的答案。每個研究成果,都不只是一篇論文,而是推進生活邁向永續的動力。惟鑒於論文的專業嚴肅性,難以令社會大眾親近了解研究的意義與樂趣,進而運用各種理論與發現,因此中央研究院於 2017 年推出《研之有物》科普網站,期待成為中央研究院與社會大眾的橋梁,將論文幻化為親民簡易的報導,通往博大精深的研究世界。

「數據分析」結合「機器學習」,探勘書市商機

誰在買書?買什麼書?這是規劃出版與行銷計畫時,需考量的因素,過去僅能用專業經驗判斷,現在透過資料分析與機器學習,可以用客觀的科學輔佐主觀的決策。中央研究院資訊科學研究所陳昇瑋研究員,帶領資料洞察實驗室,找出書籍銷售數據中潛藏的商機。

資料科學:先搞懂如何發生,再讓它發生

▲資料分析的四個階段:描述、診斷、預測、指示。資料來│Gartner, 圖說改編│張語辰
▲資料分析的四個階段:描述、診斷、預測、指示。資料來源│Gartner, 圖說改編│張語辰

資料分析並非輸入數據、按下 Enter 鍵,就能得到立即性的結果,其工作至少可分為四個層次:

  1. 描述:瞭解眼前發生了什麼,例如讀者是什麼樣貌
  2. 診斷:用電腦來診斷眼前這件事為何發生,例如某些書籍的銷售為什麼特別好
  3. 預測:未來會不會發生某件事,例如預測新書的銷售表現
  4. 指示:如何促進某件事在未來發生,例如建置自動薦購系統或上架小工具,幫助提升新書銷售;或是幫書籍做更合適的命名以及封面設計

資料分析跟淘金一樣困難,若沒有以正確的方式使用合適的工具,什麼價值也淘不出來。

分析原始資料就像在砂礫中淘金,雖然不用冒著日曬雨淋的痛苦,但需長時間與電腦折騰,結合數學、統計、機器學習、資料探勘與資料視覺化的專業,整理資料的邏輯,找出隱藏在數據中的含意。若遇到非結構化的資料,在分析前尚需花額外的心力半自動或手動地將之轉換為結構化資料,才能使用分析技術來處理。但正因資料分析可以找出隱藏在數據中的洞察、輔助人類的思維,是一門值得投資心力的科學。

中研院陳昇瑋團隊與博客來合作,將 2014 年 12 月 至 2016 年 3 月間的匿名購書資料,結合政府資料開放平臺的數據,包含各個地區的綜合所得稅申報情況、教育程度、2016 年總統大選得票數等,探討購書行為和讀者生活型態的相關性,將不同購書客群之間的「差異性」數據化,藉以回答誰在買書、買什麼書、什麼書會暢銷……等問題,進而將資料科學的思維引入出版界,讓出版人不用再只是憑著經驗及感覺選書及做書。

什麼人在買什麼書?

▲博客來各類購書讀者:性別 x 年齡(資料區間為 2014 年 12 月 至 2016 年 3 月間),資料來源│陳昇瑋提供
▲博客來各類購書讀者:性別 x 年齡(資料區間為 2014 年 12 月 至 2016 年 3 月間),資料來源│陳昇瑋提供

從博客來的匿名消費資料,顯示讀者基本樣貌與購書興趣為:男性較多購買自然科普、電腦資訊和商業理財的書籍,女性較多購買親子教養、飲食、童書和青少年文學。長輩較多購買童書、宗教命理和醫療保健的書籍,而年輕人較多購買輕小說、漫畫和語言學習的書籍。

一樣米養百樣人,一種書也養百種人

在規劃出版與行銷策略時,有一個盲點常被忽略:

不能將同一個書籍類別的讀者,都視為同樣一個族群。

過往看銷售報表與會員資料時,經常會把讀者視為只有一種樣貌:例如財經讀者就是白領階級。但陳昇瑋與團隊定義「差異式讀者樣貌分析」,一層一層深入子類別探勘資料,證實同一個書籍類別亦存在「多重客群」。

以「小說」這個大類別為例,愛看「小說」的不會只是同一群人,例如都是戴著眼鏡的文青。同性愛小說和愛情小說的讀者主要是年輕人,而歷史武俠和文學研究的小說,讀者群以長輩為主。若進一步深入分析武俠小說中的「金庸」這個子類別,更存在兩種主要客群: 15 歲以下的青少年和 40 ~ 50 歲的中年人。

這反應出一個課題:出版與行銷規劃需更分眾、更精準,無論是溝通的宣傳語言、購買的行銷版位,皆需考慮多重客群的存在。

▲博客來讀者樣貌差異:文學小說類別(資料區間為 2014 年 12 月 至 2016 年 3 月間),資料來源│陳昇瑋提供
▲博客來讀者樣貌差異:文學小說類別(資料區間為 2014 年 12 月 至 2016 年 3 月間),資料來源│陳昇瑋提供

從購書數據一窺社會現象

世間男女情愛糾葛,李組長眉頭一皺發現事情並不單純,這種社會議題不只在電視劇或新聞中出現,也顯現於購書行為中。

在商業理財的類別,存在許多教導如何成功的書,數據顯示 25 歲以前偏好購買「生涯規劃」類的成功經驗書籍,而 30 歲之後改買如何「致富」的成功指導書籍,顯示 30 歲大關是人生覺悟的交叉點,與其花時間規劃生涯卻前途迷茫,快速致富還比較實際,但也可能因為 30 歲之後除了養自己也要養家人,肩膀壓力更重了。

另一方面,低收入族群偏向購買「投資理財」、「網路創業開店」的書籍,高收入族群則偏向購買「傳記」、「快樂學」的書籍,顯現 M 型社會下兩種不同人生方向與思維,有錢人需要學習如何快樂,而中產階級正朝著累積財富努力。

「外遇離婚」相關的書籍,會購買的族群大多年收入超過 70 萬,年收入越高,購買者越多,箇中含意不便多加著墨。

若將男性與女性消費者購買的書籍類別和數量,以書籍關鍵字作成文字雲,明顯看出男女想法大不同。在「心理勵志」這個書籍類別中,男性多關注「把妹、正妹、搭訕」,書中自有顏如玉是從古至今不變的智慧。而女性多關注「幸福、療癒、女人」,顯示現今女人越來越懂得要愛自己,是個樂見其成的社會風氣。

▲博客來讀者性別偏好的差異:心理勵志類為例(資料區間為 2014 年 12 月 至 2016 年 3 月間),資料來源│陳昇瑋提供
▲博客來讀者性別偏好的差異:心理勵志類為例(資料區間為 2014 年 12 月 至 2016 年 3 月間),資料來源│陳昇瑋提供
▲博客來讀者性別偏好的差異:飲食類為例(資料區間為 2014 年 12 月 至 2016 年 3 月間),資料來源│陳昇瑋提供
▲博客來讀者性別偏好的差異:飲食類為例(資料區間為 2014 年 12 月 至 2016 年 3 月間),資料來源│陳昇瑋提供

無論是賣書或餐飲業,都值得注意年輕人與長輩的喜好差異。「甜點、雞尾酒、廚藝、咖啡」相關書籍熱銷,與近來市場上年輕族群的甜點學校、咖啡開店熱潮相輔相成。而長輩較喜歡「健康、養生、好吃」相關書籍,對於市場而言,開發同時符合健康及好吃需求的餐飲,是顯著的商機。

「養生」這個書名關鍵字,在「飲食類」受到長輩歡迎,但在「醫療保健類」在銷量上並沒有同樣得到大眾的青睞。

陳昇瑋與團隊以「書名關鍵字」,找出關鍵字與暢銷書之間的相關性。在醫療保健類發現,「養生」這個關鍵字不受到讀者歡迎,反而是「名醫、改善、療法、奇蹟」這類關鍵字能抓住讀者的眼球與荷包。也許這反應出一個醫療保健現況:在一秒鐘幾十萬上下的今日,人們不注重花費時間經營的健康之本──日常養生,而是在症狀出現時追求速效的醫療結果。

書名關鍵字與銷量的相關性:以博客來醫療保健類別為例(資料區間為 2014 年 12 月 至 2016 年 3 月間),資料來源│陳昇瑋提供
▲書名關鍵字與銷量的相關性:以博客來醫療保健類別為例(資料區間為 2014 年 12 月 至 2016 年 3 月間),資料來源│陳昇瑋提供
書名關鍵字與銷量的相關性:以「輕鬆」為例(資料區間為 2014 年 12 月 至 2016 年 3 月間) 資料來源│陳昇瑋提供
▲書名關鍵字與銷量的相關性:以「輕鬆」為例(資料區間為 2014 年 12 月 至 2016 年 3 月間),資料來源│陳昇瑋提供

「文字」在不同環境中,會發揮不同力量。同一個書籍關鍵字,在不同書籍類別中,會產生不同的銷售表現。例如,「輕鬆」這個字是行銷時常使用的關鍵字,彷彿在告訴消費者一旦買了這個產品,就能豪不費力地享受好處。對於「輕鬆投資、輕鬆存錢、輕鬆提升業績」這類輕鬆致富的願景,讀者們的想法是「反正我是信了」。但如果在不努力就沒有收穫的語言學習類別,就算告訴讀者「輕鬆說英語、輕鬆搞定文法、輕鬆學日文」,銷量顯示讀者們不會買單。

哪些書會暢銷?除了財神,也能問問電腦

以上內容尚處於資料分析的「描述」和「診斷」階段,真正有意義是分析的第三階段「預測分析」,藉由機器學習技術自動歸納出書籍銷量與各式書籍屬性的相關性,進而建立銷售表現的預測模型。

「機器學習」的作法為,讓程式自動學習哪些因子是重要的,預測某本書成為暢銷書的機率。

書籍銷售表現的預測模型 資料來源│陳昇瑋提供 圖說設計│張語辰
▲書籍銷售表現的預測模型,資料來源│陳昇瑋提供,圖說設計│張語辰

在「預測分析」這個工作階段中,陳昇瑋團隊運用「書籍屬性」、「書名關鍵字」及「上市前的市場狀況」來發展暢銷書預測的模型,以文學小說類別測試,其暢銷書的預測準確度可以接近八成。預測分析的最終目的為「指示型分析」,也就是資料分析的第四個工作階段,透過程式的指示提供最佳化建議,例如書名及副標怎麽下、書介如何編排、預覽圖片要放哪幾張、如何訂價及折扣……等等,協助拉近書籍與目標消費者的距離。

有時資料分析的結果很殘酷,會顯示過去在編輯與行銷上的直覺是不符合現實的,有時則能佐證某些觀察的可信度。資料科學及人工智慧技術,並非為了取代人類而生,最重要的觀念是:從經驗導向的世界換位思考,以客觀的資料事實及科學方法,輔助決策的進行,提高決策的正確機率。

現在,無論在出版業、零售業或電子商務領域的你,準備好用「資料科學」突破過往的認知了嗎?


【社會數位轉型】連假出門不塞車、推動漁港再生,經濟部打造永續交通生態圈

智慧運輸時代來臨,全球競相投入無人載具與數位交通研發,希望在未來行動力的佈局搶得先機。從陸地、海洋到空中,無人機以整合 AI、5G 技術為核心,應用場域超乎想像,不僅能帶動產業升級與經濟成長,在解決社會問題上也有許多可能性。
評論
Photo Credit:Pexels
評論

聯合國預估,2030 年全球將出現 43 個人口超過千萬的巨型城市,而 2050 年將有 7 成人口居住於都市。城市人口密度持續增加,為交通帶來更大考驗,需要用更有效率的方式來管理。而在臺灣常見因車流量過大造成塞車、事故頻傳,以及偏鄉交通不便、公共運輸使用吸引不足、燃油車輛帶來環境污染等問題,也可望透過發展智慧交通迎刃而解。雖然短時間內還無法真正落地、普及,但種種想像已顯現出智慧運輸系統(Intelligent Transport System,ITS)的重要性。

智慧運輸科技是一門跨領域的技術,包括 7 大關鍵新興科技 iABCDEF 中的i(IoT,物聯網)、A(AI,人工智慧)、D(數據科技,DataTech)、E(邊緣運算,Edge Computing),並涵蓋資通訊、能源與電子等產業。面對接踵而來的挑戰,經濟部技術處與工業局合作,配合交通部、科技部、工研院、資策會等跨部會單位,關注企業與民眾的需求缺口,擴大各項交通科技創新服務的實驗場域。希望加速資通訊及智慧交通應用落地,推動產業轉型與數位經濟發展,更處理公共議題,建立更好的居住環境。

交通車載設備一站式整合 為國內實現物物相聯

未來在 5G 環境下,物聯網能讓各種設備、軟體、網路服務等更快速的相互連結,透過虛實整合應用與民眾進行深度互動,達成高速運算、低延遲通訊、萬物聯網的目標,這也是目前持續發展如智慧交通、自駕車所必備的條件。

當交通與運輸更加智慧化,將為國內業者帶來新商機,相關產業鏈例如雲端軟體服務、影像辨識與人工智慧分析、路側設備業、道路安全警示以及周邊的系統整合、工程顧問、二輪車安全聯網等,都是發展智慧交通智慧系統重要的環節,而智慧交通控制服務也是相當重要的一環,當交通號誌的紅綠燈控制做最有效的安排時,將可使路網中的車流運行更加順暢,也能減少更多的廢氣與碳排放的產生。

資策會智慧系統研究所(系統所)組長黃暉慈指出,發展一站式整合的關鍵之一在於道路上的路側設備(Roadside Unit,RSU)與安裝在車內的車載裝置(On Board Unit,OBU)兩者間的跨設備溝通,過去常因各家技術及介面規格不一、各類型設備分屬不同廠商維護、跨部門協調等原因難以整合,若要產生對民眾更具價值的應用相對是一大難題。

以建立永續智慧交通環境為目標,經濟部技術處匯集各法人能量,致力於運輸資源、資訊的整合共享,提升協作效能。

「比方說像各縣市智慧公車站牌就都長得不一樣,以及路側設備分屬不同部門管理:如交通局的號誌、工務局路燈管理處的路燈、警察局的 CCTV 等等,設備跟服務多為各單位獨立運作,資源無法進行有效的整合」黃暉慈表示。因此,為提升協作效率最佳化,經濟部技術處與資策會系統所合作,發展多元資訊的智慧交通作業系統,以建立共通平台之概念,打破廠商之間的資訊串接藩籬並能協同合作,減少資料使用者、管理者必須面對不同格式資料的困擾,以達成資訊交流的通透性與共享目的。

黃暉慈說明,智慧交通作業系統(Transport OS,TOS)是一套能整合各項遠端設備的管理平台,透過 TOS 函式庫讓程式介接、遠端佈署與應用開發都變得更簡單。「我們希望藉由一套共通的標準格式進行資料的收集,協助業者在設備管理、資料管理、資料分析上都能更加簡易有效率。」經由系統的整合,能自動化遠端監控路側設備的運行狀態,偵測錯誤並通知管理者,並以AI感測蒐集車輛、事故等應用數據。「省下開發系統和串接的功夫,業者能專注在設備功能的強化。」經濟部計畫透過整合性資訊服務,改善當今運輸走廊壅塞問題,未來國內車廠在技術發展上也能突破國外母廠的限制,打造出門無縫、用路安全、交通順暢的智慧運輸系統。

黃暉慈舉例,假如 CCTV 的監控影像出現雜訊、模糊、被遮蔽或鏡頭偏移,或工業電腦網路斷線等異常發生,系統都能即時發現問題,發出警示,「本系統具備彈性擴充功能,可協助業者介接提供更多加值應用,例如接入 RTSP 串流影像也能做到如智慧化判斷車輛是否違停的科技執法應用。」此外,TOS 的另一特色就是會將蒐集到的數據生成可視化圖表,有效地傳遞資訊,以利使用者能迅速評估狀況、做出因應。

Photo Credit:資策會

提升船舶監測效率 給予閒置港岸新生命

除了陸地的交通,海洋也是智慧運輸科技的發展重點。資策會系統所蔡政鴻組長分析,臺灣四面環海、海岸線長達 1,000 多公里,每年海洋經濟產值高達近 6 千億,「物流、漁業之外,還有觀光娛樂,光是用漁船載客出海磯釣每年就可賺超過百億,把安全性做好會很有市場。」

資策會系統所在經濟部技術處科技專案的支持下,採納百家以上產官學研機構與專家的建議,以海港數位轉型需求的高可靠邊霧協作物聯網技術為主,規劃「近岸船舶監測系統」,與相關業者、海巡隊合作,加強港岸船舶的管理效率。

蔡政鴻說,過去在智慧漁港常常做的是智慧照明,當然智慧照明在節能與管理上有很多好處,但除了漁港好像放在其他地方也很好,對於漁港的特色比較沒有凸顯出來。現在漁港面臨的問題是利用度不高,漁港資產閒置,最主要原因是來自過度捕撈,導致海裡無魚可抓,因此產生閒置問題,海洋資源的永續是主要的解決方法,除了生態保育,另一個是漁業漁港的轉型,從過去過度捕撈的抓來吃,轉型到生態體驗的旅遊價值,傳統漁業要轉型到娛樂漁業,發揮觀光旅遊的價值,從中帶來收入,魚就不用補那麼多,海洋資源才可永續。美國的漁業統計,休閒釣魚的經濟效益是商業捕魚的九倍,因此休閒釣魚的發展,其實是可以取代商業捕魚的部分經濟能量,進而減少捕撈。

以基隆市政府為例,2017 年便率先制定娛樂漁業島礁磯釣自治條例,管理認證核發與收費標準,並陸續導入科技管理工具,以船舶自動識別系統(Automatic Identification System,AIS)對磯釣船舶實施監測,採用邊霧運算技術,藉由與鄰近船舶、衛星等設備交換資料,當磯釣船訊號消失或離岸太遠,就會發出警示,建立數位治理機制,確保磯釣活動的安全戒護工作落實,保障業者與釣客的活動安全。另外磯釣證申辦,過去都要上班時間臨櫃申辦,造成不便。現在將磯釣證上網申辦,結合磯釣船出船單,送到漁港的海巡安檢流程,到磯釣船舶的海上航跡訊號勾稽,完成一套完整的服務鏈路,讓安全與方便形成基隆磯釣發展的重要後盾。使過去出海捕魚轉變成載客釣魚,減少捕撈,生態得以生息,漁民也有生計,還帶動釣具產業的發展。

其實智慧交通早已悄悄融入在日常生活,我們對數位票證的依賴度不斷增加,新零售時代的物流配送越來越快速。然而各種進步將可能衝擊原有的就業市場,該如何引導人才轉型也是重要的社會課題。

且讓我們試著想像,在交通的流動中,有出門運動、買菜的銀髮族,有通勤的白領上班族,有趕著上學的學生與接送孩子的父母,每個人的移動需求都能被滿足。經濟部技術處期望從技術專業角度,協助打造更人性化、友善的交通環境;同時,企業也能從競爭轉為合作,共同為產業創新轉型與減少污染的社會企業責任努力,創造更多就業機會;政府也能減少治理、管理的成本,持續優化交通運輸系統,形成社會美好的循環。