資料是我家的,你能怎麼辦?

評論
評論

照片 2
▲ 莊庭瑞博士

2013 COSCUP 開源人年會第二天,早上中研院副研究員 莊庭瑞博士 以 〈「你們的後設資料都是我家的了。」您能怎麼辦? 〉 談 metadata(後設資料)。簡單來說 metadata 就是「資料的資料」,例如照片的 Exif、地理位置、日期等等,就是 metadata。

莊博士以二次世界大戰時美國轟炸台灣,戰鬥機在航空母艦起降的紀錄影片開場,他說明影片就是靠著 metadata 在 The Internet Archive 找到的。他以過去舊式圖書索引卡為例,指出 metadata 之於資料,就像索引卡之於圖書,方便我們搜尋、管理資料。

而 metadata 的內容也要注意用語的統一和連結,例如 metadata 含有「鄭成功」一詞的資料。「鄭成功」是「郑成功」、「Cheng Cheng-kung」、「Zheng Chenggong」,也是「國姓爺」、「Koxinga」。

「你們的後設資料都是我家的了。」您能怎麼辦?

以數位資料來說,我們每天產生、使用的資料都包含 metadata(或是我們會手動加入),例如音樂檔案的 ID3 標籤、照片的 Exif、日期和地理資訊等等。現在我們每天會產生、上傳數以億計的照片到 Facebook 或 Instagram,莊博士指出,其實在我們上傳資料的同時,也將 metadata 交到這些網站的手中(當然,我們在註冊帳號時都「 看過」使用者協議,也都同意了),而這些網站會對資料的 metadata 做額外處理,或是不讓使用者下載 metadata,例如 Facebook 和 Twitter 就會抹去照片的 metadata。

莊博士說,他的好朋友,音樂人朱約信之前曾經向他求助,因為 YouTube 帳號被檢舉三次(有時只是因為錄影時現場正在播音樂),導致被停權,過去上傳的數百則影片以及整理的資料都付之一炬。面臨這樣的風險,簡單的方法大概就是將資料上傳到多個網站,例如 Dropbox 雖然未必會直接顯示 metadata,但是都會保留下來,Google+ 則是兩者兼具。

然而,網路上資料的 metadata 如果不處理,也會有它的問題。有觀眾針對網站會對 metadata 再處理的議題提問,好奇為何不以法令限制網站必須保留 metadata。莊博士則回答說,metadata 一定程度上可能包含了隱私資訊(地理位置,製作者,也就是您的大名),因此網站不得不處理,而且,莊博士說,我們大多是免費使用人家的服務,很難做出這樣的要求……

莊博士也在演講中展示了 Embedded Metadata Initiative 針對多個網站處理照片 metadata 所做的測試 1

Embedded Metadata Initiative
圖片來源:Social Media sites: photo metadata test results

政府不應該自己跳下來做 app

使用政府資料開發出許多 app 的陳坤助(KNY)認為,政府不應該跳下來做 app,而且其實那些都只是外包給廠商去做,這導致一個問題,由於政府同時將政府握有的資料即 app 開發工作交給這些廠商,導致其他開發者想跟政府要資料的時候,得到的結果反而不如直接從政府的網站上「抓」來得完整、來得新,他認為這是因為資料並非由政府直接處理,而是由廠商經手,這之間有競爭關係。

其實 KNY 說的這個概念,致力於政府開放資料的朋友們已經強調多時,這讓我們不禁要想:何時政府才能將資源花在整理、維護資料,而非製造一大堆「蚊子 app」?

Linux Kernel 開發

Greg Kroah-Hartman
▲ Greg Kroah-Hartman

今天的重頭戲之一是 Linux 基金會的 Greg Kroah-Hartman 全場聯播演講,他是 Linux kernel 開發者,每年要 review 數千個 Linux kernel patch,這次的演講主要是要是向與會觀眾分享 Linux kernel 開發的現況。

六月底釋出的 3.10.0 版,包含了 43,000 個檔案、16,956,000 行程式碼,共有近三千名開發者、約 450 家公司參與, 每天 新增 10,440 行程式碼、刪除 6,400 行、修改 2,120 行,平均 每個小時 會產生 7.29 項更動,一年前這個數字是 6 個,八年前則是 3 個。

目前 Linux kernel 大約每 84 天會釋出一個新版本,每一年會釋出一個長期的穩定版本,並且保持為期兩年的維護。Greg Kroah-Hartman 說這些數字很重要,因為 Linux kernel 開發時程可以預期對所有的開發者、企業都很有幫助,他們能夠因此做出更佳的開發規劃。

集眾人努力之大成

Greg Kroah-Hartman 並解釋了 Linux kernel 開發者的結構。他說現在共約有 3,000 位的貢獻者、700 位 driver/file/subsystem。貢獻者每次做一個 patch,一個 patch 只做一件事,小至拼字錯誤,大一點的像是整個 driver;做出複雜變動的 patch 會被猜成小部分。在這個架構下,所有人的貢獻、每一行程式碼的作者、簽署人都清清楚楚。有人問 Greg Kroah-Hartman,他要檢視這麼多程式碼,真的都是經過仔細確認嗎?他說大部分是,但有些聲譽卓著的開發者很受到信任。「有問題,他們自己會處理好(fix it)」。

linux_kernel_dev 拷貝
▲ 我們可以看到最後都會跑到 Linus Tolvalds 那邊去。(圖片來源:Greg Kroah-Hartman

Linux kernel 的開發是集眾人之力完成,約有 13.4% 的工作是由開發者在業餘時間完成,佔最大宗,其次是 Red Hat、Intel 等等,Greg Kroah-Hartman 列出了前 20 名的貢獻者。約有 18% 是個人貢獻,82% 是由企業完成。

雖然企業佔的比例高,Greg Kroah-Hartman 也直接說了,這些公司當然都是專注於那些與自家產品相關的部份,但好處是他們的成果可以讓 Linux kernel 變得更好,也就是所有人都能從中獲益,所以其實誰做的多,誰做的少,誰做了什麼,我們不必過分在意(現場有人問了聯發科貢獻了多少 patch,答案是 4 個;貢獻最多的個人 H. Hartley Sweeten 則是 1,954 個)。

只有 Linux 才能殺死 Linux

Linux kernel 的開發需要仰賴眾人,對於 Linux kernel 的未來,Greg Kroah-Hartman 說只有哪一天他們決定終止 Linux kernel 開發,這個專案才會完結。他說:只有 Linux 才能殺死 Linux。

(說不定還死不了呢)


▲ Keynote 影片,請從 10 分 20 秒左右開始。

大家可以到 Greg Kroah-Hartman 的 GitHub 看這次的投影片。

小結

今年 2013 COSCUP 非常豪邁地排出「八軌」議程,也很漂亮地 在門票開賣後 47 秒即全數售罄 。可惜有人認為,由於台北國際會議中心第一天還有其他活動,導致會場在中午時變得相當混亂(今天就沒有這個現象了),此外對於會場的燈光、投影設備、桌椅和電源供應問題也可以在網路上聽到抱怨的聲音,相信這些都能作為下次活動舉辦的參考。

不過我們還是很感謝主辦單位以及工作人員的努力與辛勞(八軌議程 + 免費的票耶),講者們也都充滿熱忱地分享自己的所學,我沒有為開源社群做出過貢獻,但過去兩天卻實實在在地感受到了開源社群的熱情(最後的 lightning talk 也很歡樂 XD),請主辦單位繼續努力,希望明年的開源人年會可以更成功!: D

相關文章

評論