你知道為什麼數據科學最早應用於「農業」嗎?

評論
評論

本篇來自合作媒體 36kr,INSIDE 經授權轉載。

近年來,數據科學成為一門顯學。數據科學利用數據學習知識,其目標是透過從數據中提取出有價值的部分來生產數據產品。這門學科橫跨了統計、人工智慧、高性能計算等諸多領域,並為很多大企業創造了核心業務價值。「數據科學家」被追捧為最性感的職業。但數據科學最早的應用,卻發生在不顯眼的農業。

引領數據科學應用的,是羅納德·費舍爾。1919 年,29 歲的費舍爾來到英國東部的赫特福德郡。赫特福德郡有一個古老的農業研究機構——羅森斯得農業實驗站,費舍爾剛剛成為這個實驗站的研究員。費舍爾是畢業於劍橋大學的天文學家,並曾做過一段時間的數學講師。但此後的十四年裡,費舍爾都會和田裡的泥巴打交道。

早在 1843 年, 富商約翰·本尼特·勞斯就創立了羅森斯得農業實驗站。這個實驗站是一個農業科研機構。勞斯的財富來自化肥生意,因此一直想尋找最有效的化肥配方。化學家、植物學家、園藝學家紛紛加入科研機構。根據不同學科的理論,科學家們設計並進行了大量的實驗。經過半個多世紀的積累,實驗站積累了不少數據。這個時候,數據的問題卻越來越突出。很多研究員都在抱怨,無法從數據中獲得結論。

用於處理數據的統計方法已經誕生了兩百多年。早期統計學偏重數據探索,只採用了簡單的求和、求平均、求百分比等算術方法。這些方法能發現數據中的一些淺層結論。比如 17 世紀的數據科學家約翰·葛蘭特,就透過死亡統計表來發現城市居民死因。此外,統計主要用於物理和化學的實驗結果分析。這兩門學科都有嚴格的科學定律來說明因果關係,並且實驗環境非常可控。因此,測量誤差相對微小。科學家可以透過多次重複實驗來檢驗科學定律是否成立。

但農業提出的問題完全不同。在費舍爾的時代,DNA 還沒有發現,就連達爾文提出的「進化論」也充滿爭議。所以農業完全沒有科學定律可以參考。即便能寫出數學公式,還是沒法解決所有問題。物理學家做實驗時,會在室內使用簡單的小球。但農業研究的對像是複雜的生物,而且這些生物必須存活於開放的室外環境。田裡作物長勢如何,除了化肥起作用,陽光、灌溉、病蟲害、土壤肥力、耕作方式等諸多因素都要摻合。某個季節的一陣風,就可能造成兩塊田地完全不同的產量。如果用一般的統計方法進行分析,實驗站至少要把每種情況的數據都收集一遍。

因此,在農業這種複雜系統的研究中,數據科學家必須滿足於有限的少量數據樣本。要知道,數據科學家那裡,大數據能減少不確定性,是一件絕對的好事。但複雜系統的研究沒法提供那麼奢侈的條件。農業實驗的周期非常漫長。化學家一個小時能做好幾組實驗。可作物的收穫,至少需要幾個月的時間。如果按照物理化學那樣透過大量重複實驗來控制誤差,那農業研究永遠都無法達成。

費舍爾最大的貢獻,是變換了數據分析的視角。他不再試圖從完整的群體數據中獲得結論,而是把少量數據當做從一個理想群體抽樣,然後用概率的方式「猜測」這個抽樣告訴我們什麼樣的群體資料。用樣本來推測群體的資料,這被稱為“統計推斷”。費舍爾發展出一系列統計推斷方法,如 ANOVA、F 分佈檢驗、p 值分析。此外,費舍爾還提出用統計推斷的思路來設計農業實驗,從而降低農業實驗成本。他的所有努力最終解決了一個簡單的農業問題:選擇最佳化肥。

人們可能難以想像,20 世紀最重要的數學發展居然是為了解決一個看似簡單的農業生產問題。但我們不必對產業厚此薄彼。農業提供著人類生存必須的食物。在技​​術革命和工業革命之前,農業革命都會先行。在 19 世紀工業革命之前,英國引領的四輪耕作、育種等農業革命已經悄然進行了將近一百年。費舍爾的農業統計工作,也可以算作這場革命的後期發展部分。一批專業的化肥公司、種子公司和牲畜育種公司採用費舍爾的數據方法,成為最早享受數據紅利的產業公司。其中一部分公司建立起強大的數據壁壘,因此成為延續到今天的百年企業。

值得注意的是,刺激農業大發展的那套數據方法,要等到二戰之後才在工業上推廣使用。一方面,這可以歸因於產業發展的優先級。在任何時候,食物供應比槍砲子彈都要重要。墨索里尼在推動義大利糧食自給時,就特別倡導農業育種新方法的推廣應用。另一方面,工業環境類似於物理化學實驗室,環境相對可控。工業產品的隨機浮動不像農產品那麼大。早期工業把注意力放在產品和產線的設計上。直到二戰後,工業精度和工業效率都大為提高,數據方法才成為工業​​發展的新動力。透過採用數據方法,二戰後的日本製造業才實現彎道超車,在質量和效率兩個方面都超越了美國。

農業在技術應用上的領先並不鮮見。農業對技術的要求相對寬鬆,並能直接產生經濟效益和戰略意義。早在 80 年代,遙感和地理資訊技術就大規模應用於農業。這比地圖軟體和叫車軟體領先了四分之一個世紀。率先推廣的美國在農產品生產和農產品貿易方面獲得優勢,因此鞏固了農業霸主地位。在最新的智慧化運動中,農業已經在暗中打磨「智慧農業」。物聯網和 AI 技術已經在不斷提高農業效率,自動駕駛等技術也被引入農機。美、日等國已經研發出成熟的自動駕駛農機,中國的科技公司也開始佈局這一方向。相對於汽車面臨的道路安全挑戰,農業反而可能成為自動駕駛技術最先落地的領域。

數據科學在農業的應用歷史,也能給今天的數據科學帶來啟示。可以看到,只有數據沒有方法,數據不能產生真正的價值。隨著資料革命的到來,數據收集難度大為降低。無論是物聯網的電子訊號,還是社群網路的親密留言,都可以輕鬆地採集、傳輸和儲存。但大數據也帶給人一種錯覺,認為數據科學可以依靠全方位的數據來「暴力破解」一切問題。但我們面臨著和費舍爾相似的情況,看似海量的數據其實遠遠不夠。

無論是自然的生態系統,還是人類構成的社會系統都極為複雜,隨機性是不可迴避的一部分。在複雜問題面前,大數據並不意味著足夠的數據。事實上,數據科學的最新研究,也越來越傾向於從小樣本中推斷和建模。泥土中產生的數據哲學,依然充滿智慧。

相關文章

評論