想成為資料科學家?來挑戰Google、FB、Apple等六間公司人工智慧最新面試題

Medium 上一位資料科學工程師花時間將蘋果、 Google 、Facebook 等一線科技公司的機器學習、人工智慧最新面試題整理下來,供有志成為科技大廠資料科學家的讀者們研究。
評論
Woman during job interview and four elegant members of management; Shutterstock ID 370947476; PO: angelikiJ-for robin kawakami
評論

原文來自 Vimarsh Karbhari 的 Medium 文章 ,經合作媒體 AI 前線 編譯 (微信公眾號:ai-front)。INSIDE 編按:Medium 上一位資料科學工程師花時間將蘋果、 Google 、Facebook 等一線科技公司的機器學習、人工智慧最新面試題整理下來,供有志成為科技大廠資料科學家的讀者們研究。

photo credit: pcworld
photo credit: pcworld

微軟

微軟在企業中的統治地位是眾所周知的。微軟已經駕馭了雲端計算浪潮。在今年的第一季財報中,其 Azure 服務和 Office 365  在線生產力業務的收入分別增長了 90% 和 42%。

在微軟執行長 Satya Nadella 在最近致所有微軟員工的一封信中,Intelligent Cloud 和 Intelligent Edge 組建了兩支新團隊,以塑造下一階段的創新。這意味著人工智慧將要給微軟的業務帶來十分重大的改變。毋庸置疑,微軟在此公告之後可能會招聘更多機器學習背景的相關員工。所以,現在你的機會來了。

面試流程

像大多數聘僱工程師的其他公司一樣,微軟有一套經典的面試過程。通常有電話面試(涉及程式碼),然後進行現場面試。現場有大約 4 -- 5 輪面試。面試過程中可能有 2 -- 3 個深入研究資料科學相關的問題,包括研究和機器學習模型。其餘的目的是測試寫程式的技能。

面試題

  • 合併 k(在這種情況下 k = 2)個數組並對它們進行排序。
  • 如何最好地選擇 500 萬個搜索查詢的代表性樣本?
  • 三個朋友告訴你今天會下雨,他們中每個人都有三分之一的機率說謊,那麼今天下雨的可能性是多少?
  • 你能解釋樸素貝葉斯的基本原理嗎?如何設定閾值?
  • 你能解釋一下 MapReduce 是什麼以及它是如何工作的?
  • 你能解釋 SVM 嗎?
  • 你如何檢測新的資料結果是否異常?什麼是偏差和變異之權衡(Bias-Variance Tradeoff)?
  • 如何從產品使用者群中隨機選擇一個樣本?
  • 你如何實現自動完成?
  • 描述梯度提升(Gradient Boosting)的工作原理。
  • 在整數列表中查找子序列的最大值。
  • 你會如何總結 twitter 推文?
  • 在應用機器學習演算法之前解釋資料角力(wrangling)和清洗的步驟。
  • 如何處理不平衡的二元 分類(Binary classification)?
  • 如何測量資料點之間的距離?
  • 定義方差。
  • 箱形圖和直方圖有什麼區別?
  • 你如何解決 L2 正規化回歸問題?
  • 如何通過使用一些計算技巧來更快地計算逆矩陣?
  • 如何在沒有計算機的情況下執行一系列計算。解釋步驟背後的邏輯。
  • 好的和壞的資料可視化之間有什麼區別?
  • 你如何找到百分位數?請編一個程式。
  • 從一系列值中查找最大總和子序列。
  • 正規化指標 L1 和 L2 有哪些不同?
  • 創建一個函數來檢查一個單字是否是回文。
photo credit: businessoutline
photo credit: businessoutline

Amazon

Amazon 從成為「地球上最大的書店」變成「地球上最以客戶為中心的公司」。執行長傑夫·貝佐斯一次又一次地在他的致股東信中定義了公司的發展道路。 Amazon 利用 Alexa 部署深度語言學習功能,並通過 AWS 為人工智慧服務提供雲端基礎架構。它還在 Amazon 網站上大規模地佈署了世界上第一批推薦系統。

面試流程

在現場面試的過程中,會有一場稱為 Bar 的面試。Bar raiser 的意思是,面試小組中最有經驗的人,他的動機是決定你是否在  Amazon 的前 50% 的員工中。Bar raiser 有權否決一個候選人,不管其他面試者是否喜歡這個候選人。

面試題

  • 邏輯回歸模型中如何知道係數是什麼?
  • 凸和非凸成本函數之間的區別?當成本函數是非凸的時候它是什麼意思?
  • 隨機權重分配是否優於為隱藏層中的單位分配相同的權重?
  • 給出一個長條圖並且想像你正從上面倒水,如何確定長條圖中可以保存多少水?
  • 什麼是過度擬合(overfitting)?
  • 主要會員費的變化如何影響市場?
  • 為什麼梯度檢驗(Gradient Checking)很重要?
  • 描述樹,SVM,隨機森林和 XGBoost 演算法。談談他們的優點和缺點。
  • 你如何在天平上重複秤重 9 個彈珠 3 次以選擇最重的彈珠?
  • 查找西雅圖客戶過去 6 個月中前 10 名利潤最高的產品的累計總和。
  • 描述特定模型選擇的標準。降維為什麼重要?
  • 邏輯回歸和線性回歸的假設是什麼?
  • 如果你可以構建完美(100% 準確度)的分類模型來預測某些客戶行為,那麼應用程式中會出現什麼問題?
  • 項目位置 A 的項目機率為 0.6,項目位置 B 的機率為 0.8。在 Amazon 網站上找到該項目的機率是多少?
  • 給定帶有 ID 和數量列的「csv」文件,5000 萬條記錄和資料大小為 2 GB,請用您選擇的任何語言編寫一個程式來聚合 QUANTITY 列。
  • 使用數組實現環狀佇列(Circular Queue)。
  • 如果您每月都有時間序列資料,那麼它有大量的資料記錄,您將如何發現本月與前幾個月的數值存在顯著差異?
  • 比較 Lasso Regression 和 Ridge Regression。
  • MLE 和 MAP 推斷有什麼區別?
  • 給定一個帶有輸入的函數:一個 N 個隨機排序數的數組,以及一個 int K,返回一個 K 個數最大的數組。
  • 當使用者瀏覽 Amazon 網站時,他們正在執行幾項操作。如果他們的下一個行動是購買行為,建立模型的最佳方式是什麼?
  • 鑑於全國範圍內可能性很低,估計一個城市的疾病機率。在這個城市隨機詢問 1000 人,全部為負面反應(無疾病)。這個城市發病的機率是多少?
  • 描述 SVM。
  • K-means 如何運作?你會選擇什麼樣的距離度量?如果不同的特徵有不同的動態範圍呢?
  • 什麼是 Boosting 演算法?
photo credit: fashiongames
photo credit: fashiongames

Facebook

Facebook 不需要過多介紹。經過近十年來累積大量資料之後,2013 年起,Facebook 內的工程師開始嘗試使用 CNN。之後,Facebook 認識到 AI 和 Deep Learning 的重要性,並聘用了他們的第一位 AI 工程師—— Google 大腦 Marc'Aurelio Ranzato。隨後又聘請了 CNN 的發明人 Yann LeCun(現已不再負責 Facebook AI 研究院的領導工作)。

面試流程

Facebook 面試過程是大多數公司使用的標準面試過程。可參考 此篇分享

面試題

  • 有一個 100 層的建築物,2 個相同的雞蛋。您如何使用 2 個雞蛋來查找閾值樓層 N,在 N 層及 N 層以上,雞蛋肯定會摔碎。
  • 從 100 個硬幣中隨機抽取一枚硬幣:1 枚不公平的硬幣(都是正面),99 枚公平的硬幣(一正一反)並投擲 10 次。如果結果是 10 個正面,那麼這枚硬幣是不公平的機率為多少?
  • 在 Python 中為數值編寫排序演算法。
  • Facebook 想要開發一種方法來估計人們生日的月份和日期,而不管人們是否直接給我們提供這些訊息。你會提出什麼方法和資料來幫助完成這項任務?使用 Python 的內建來處理 csv 資料。
  • 您如何比較兩種不同後端引擎的自動生成 Facebook「朋友」建議的相對表現?給定 KPI,選擇正確的指標,執行 ETL。(使用 SQL / 程式碼)
  • 你即將坐飛機去西雅圖。你想知道你是否應該帶一把雨傘。你可以給 3 個隨機的朋友打電話,每個人都會獨立詢問是否下雨。你的每個朋友都有三分之二的機會告訴你真相,並有三分之一的機會對你撒謊。所有 3 位朋友都告訴你正在下雨。在西雅圖實際下雨的可能性有多大?(同微軟的那道題)
  • 考慮一個有 2 名玩家 A 和 B 的比賽。A 有 8 個棋子,B 有 6 個棋子。比賽進行如下。首先,A 滾動一個公平的六面體,並且六面體上的數字決定 A 從 B 接收多少個寶石。接下來,B 滾動相同的六面體,並且完全相同的事情發生在相反的位置。本輪結束。誰在比賽結束時擁有更多的寶石則贏得比賽。如果玩家在回合結束時獲得相同數量的寶石,則會形成平局並且接下來會有一輪。B 在 1,2,...,n 輪獲勝的機率是多少?
  • 你如何得到一個句子中每個字母的數量?
  • 通過了解性別或身高,你如何證明男性平均身高比女性高?
  • 什麼是猴子補丁(monkey patch)?
  • 給定一個對象列表 A 和另一個與 A 相同的列表 B,一個元素被刪除,請找到被刪除的元素。
  • 給定一個整數列表(正數和負數),編寫一個演算法來查找是否至少有一對總和為零的整數。你會如何提高演算法的性能?
  • 製作 2 個變量的直方圖。
  • 在 SQL 中構建回覆計數的直方圖(包含 x 個回覆,x + 1 個回覆等的數)。建立一個表格,其中包含每個使用者每天使用的功能使用情況摘要(追蹤使用者的最後一個操作並每天匯總)。
  • 你在一個賭場擲骰子,如果擲出 5 則贏,並獲得 10 美元的獎金。你能賺多少?如果你一直玩到你贏了(不管花多長時間),那麼你的預期支出是多少?
  • 如果您試圖讓客戶註冊 Facebook 廣告,您會向小型企業展示什麼指標?
  • 給定發送好友請求和收到好友請求的表格,找到擁有最多好友的使用者。在平台上花費的讚/使用者和分鐘數正在增加,但使用者總數正在減少。最有可能的根本原因是什麼?
  • 多少人在他們的檔案中列出的高中是真實的?我們如何發現並大規模佈署尋找無效學校的方法?
  • 你如何將暱稱(Pete,Andy,Nick,Rob 等)映射到真實姓名?
  • Facebook 認為讚與去年相比增長 10%,為什麼會這樣呢?
  • 如果一位管理人員表示他們希望將 Facebook 動態消息廣告的數量加倍,那麼如何確定這是不是一個好主意?
photo credit: headquarters.com
photo credit: headquarters.com

Google

Google 擁有一批世界上最有才華的資料科學家、資料分析工程師。Google 執行長 Sundar Pichai 專注於將 Google 重新整合為一家人工智慧第一公司。 Google 已經將其大部分產品的人工智慧程式碼從 Gmail 搬移到擁有大量資料的自動駕駛系統。

面試流程

Google 的技術面試流程是標準的技術面試流程。包括了電話面試和現場面試。詳情參見 此網站

面試題

  • 什麼是 1 / x 的導數?
  • 繪製曲線 log(x + 10)
  • 如何設計客戶滿意度調查?
  • 擲硬幣十次,得到結果為 8 個正面和 2 個反面。如何分析一枚硬幣是否公平?p 值是什麼?
  • 你有 10 個硬幣。你每擲硬幣 10 次(共 100 次)並觀察結果。你會修改你的方法來測試硬幣的公平性嗎?
  • 解釋一個不是正態的機率分佈以及如何應用它?
  • 為什麼使用特徵選擇?如果兩個預測因子高度相關,那麼對邏輯回歸中的係數有什麼影響?係數的信賴區間是多少?
  • K- 均值和高斯混合模型:K 均值和 EM 之間有什麼區別?
  • 當使用高斯混合模型時,你怎麼知道它適用?(正態分佈)
  • 如果標籤在聚類項目中是已知的,那麼如何評估模型的性能?
  • 有一個 Google 應用程式,做了一個改變。如何測試指標是否增加?
  • 描述資料分析的過程?
  • 為什麼不進行邏輯回歸,為什麼選擇 GBM?
  • 推導 GMM 方程。
  • 如何衡量有多少使用者喜歡影片?
  • 模擬雙變量法線
  • 導出分佈的方差
  • 每年有多少人申請 Google?
  • 如何建立中位數的估計量?
  • 如果回歸模型中的兩個係數估計值中的每一個都具有統計顯著性,那麼您是否期望兩者的測試仍然很重要?
photo credit: Bloomberg/Getty Images
photo credit: Bloomberg/Getty Images

Uber

面試流程

Uber 的技術面試流程是一個標準的技術面試流程,由電話面試和現場面試組成(通常是 5 -- 6 輪面試)。Uber 在其 官方部落格 上詳細解釋了這一點。

面試題

  • 描述二分類
  • 計算 ROC 曲線的 AUC
  • 如何使用 A / B 測試?
  • 使用隨機白努利試驗來編寫函數以返回來自常態分布的數值樣本
  • P 值是什麼意思?
  • 解釋線性回歸、線性假設和線性方程
  • 定義 CLT,它和 Uber 有何關係?
  • 解釋 Logistic 回歸、Logistic 假設和 Logistic 方程
  • 一個車隊要花多少錢才能看到我們每個大城市的街景照片?
  • 如何建立汽車租賃司機成本的模型?
  • 解釋 surge 定價演算法是如何工作的,以及如何測試哪種策略更有效?
  • 什麼是交叉驗證?
  • 網路效應如何影響選擇來定義實驗和測量結果?
  • 什麼是異常檢測方法?
  • 駕駛狀況和交通堵塞對 Uber 收入有何影響?
  • 駕駛狀況和交通堵塞如何影響 Uber 的收入或司機體驗?
  • CPU 快取如何工作?以及如何在資料科學中使用它?
  • 如何優化各種行銷管道之間的支出?
  • 如何計算一個城市 Uber Pool 的半徑?
  • 如何決定一個地點是否應該包含在 Uber Pool 中?
  • 什麼是時間序列預測技術?
  • 解釋 PCA,PCA 假設,PCA 方程式。
  • Uber 會造成交通堵塞嗎?
photo credit: freshhome
photo credit: freshhome

Apple 

人工智慧被包含在蘋果硬體內部的軟體中。也就是說,人工智慧是蘋果的一種服務。根據他們在 2018 年第一季財報,他們的服務收入比去年增長了 18%。截至去年 12 月底,所有服務產品的付費使用者數量都超過了 2.4 億。

面試流程

與大多數聘僱工程師的其他公司一樣,蘋果公司也有典型的面試流程,電話面試與現場面試兼有。現場大約有 4 -- 5 名團隊成員進行面試。詳情可參考 此篇分享

面試題

  • 如何以數百萬的交易數量吸引數百萬使用者,並將這些使用者集中在一個有意義的細分市場中?
    我們對數據進行預先篩選以消除欺詐威脅- 那麼我們如何找到可用於確定欺詐事件真實表示的數據樣本?
    給定一張帶有使用者 ID 和使用者購買的產品 ID 的 1B 的表格,以及具有用產品名稱映射的產品 ID 的另一張表格。我們試圖找到經常由同一使用者一起購買的配對產品,例如葡萄酒和開瓶器,薯片和啤酒。如何找到這些並存的成對產品中的前 100 名?
  • 請詳細描述 L1 和 L2 正規化之間的區別,特別是對於它們對模型培訓過程本身的影響的差異。
  • 假設你有 100,000 個文件分佈在多個伺服器上,如何在 Hadoop 中處理這些文件?
  • Python 和 Scala 有什麼區別?
  • 解釋 LRU Cache。
  • 如何設計一個客戶端 -- 伺服器端模型,客戶端每分鐘發送一次位置資料?如何將資料從一個 Hadoop 叢集傳輸到另一個 Hadoop 叢集?
  • Java 中有哪些不同類型的 memory?
  • 如何處理數百個標題的 Metadata 同時進行的日常繁瑣任務?
  • 最想擁有的超能力是什麼?
  • 你有時間系列的感測器,預測下一個讀數。
  • 使用 SQL 創建超市購物籃輸出。
  • 你有什麼心理實踐經驗?(基於研究組合的問題)
  • 您在表徵方面的專長是什麼?通常使用什麼?你如何在研究中使用它並找到有趣的結果?(Research Portfolio based question)
  • 你如何處理失效分析?
  • 檢查一個二叉樹是否是左右子樹上的鏡像。
  • 什麼是隨機森林?為什麼樸素貝葉斯更好?

總結

六家代表著頂尖科技的技術企業,六套面試題,大家可以在這幾套題中看到每家公司的側重點有何不同,建議先收藏本文再慢慢研究。如果能將上面這幾套面試題研究透徹,就算進不了這六家公司,相信其他的人工智慧大廠同樣會為你敞開大門,未來就在你的手中!


佈局未來需求! Viva TV 導入 Seagate 儲存解決方案,打造可「與時俱進」的海量影音資料庫!

「電視購物」的概念自 80 年興起後已有超過 40 年的歷史,目前國內也有多間經營近 20 年的電視購物頻道,在面對網路電商、直播帶貨…等新型態的銷售方式,電視購物業者如何做到「進可攻,退可守」?
評論
Photo Credit:Viva TV
評論

在 2000 年左右,隨著東森購物、富邦 momo 與 Viva TV 美好購物…等多個電視購物頻道陸續開播,也引發一波「看電視,打電話買東西」的熱潮,全盛時期電視購物頻道的收視人口甚至覆蓋超過全國總人口的一半,潛在營收規模上看新台幣千億元。

不過隨著網路電商的興起,以及後來寬頻網路與行動網路的普及,帶動了網路串流影音內容的發展,也大大影響了電視購物頻道的營收表現,除了因應轉型 EC 電子商務業務,國內知名電視購物頻道之一的 Viva TV 美好購物也選擇站穩腳步,鞏固現有業務,透過優質的節目內容為消費者創造價值,同時也進一步思索如何強化營運效能,找出未來創新的可能方向。

影音檔案龐大,儲存也需要講求效率

對於電視台來說,每日產出的影音內容,都需要被完整儲存下來,除了作為電視台日後參考使用的歷史資料,也需要符合政府法規制定的規範保留一定年限,日積月累,所需要佔用的空間真的十分可觀。以 Viva TV 自身為例,每日購物台會有數小時的全新節目,每一小時的影音內容達 15GB~18GB,因此每日最低就需要 150GB 的儲存量。

不過以購物台的內容形態而言,其實對於歷史資料的保留需求並不高,雖說目前從 2005 年開台至今的 SD、HD 影音內容都有完整保存,但公司內部其實也有歷史影音內容需求性與保存時間的討論,由於過去儲存資料的方式單純以「片庫」的形態來管理,所以資料的擺放其實相散亂,只要求基本服務的正常運作,但當需要查找檔案較龐大的舊影音時,就會遇到處理效能較為緩慢的問題。而當時建置的儲存系統廠商已無法解決效能上的問題,也因此最終考量建置全新的資料儲存中心,以便進行資料的搬遷與升級。

企業選擇儲存解決方案:容量、效率、穩定性三大條件缺一不可

近期 Viva TV 與知名儲存解決方案廠商 Seagate 希捷合作,導入企業級的儲存解決方案,採用兼顧大容量與高效能的 5U 高密度機架式存設備 ExoS E 5U84,搭配單碟 18TB 容量的 Exos X18 企業級硬體,打造總容量 1.5 PB(1,500 TB)的超大儲存系統。

Photo Credit:Viva TV
Viva TV攜手Seagate解決資料儲存問題

董事長室的專案規劃經理林振德與我們分享,對於 Viva TV 來說,選擇企業級儲存解決方案的三個主要條件,包括了「容量」是否符合未來內容成長需求,以及前面提到調用資料的「效率」問題之外,另一個絕對必要的就是產品的穩定性與廠商在系統整合支援的能力。

在「容量」評估方面,考量到過去舊有儲存系統已經有 300 TB 規模的資料量,以及未來資料增長的需求,Viva TV 評估需要更大的總容量,同時為了限縮主機佔用的機架空間,因此單一磁碟的儲存量與整個儲存系統的儲存密度就顯得更為重要,也因此選用 Seagate 單碟 18 TB、可擴充達 84 顆硬碟的儲存主機就獲得 Viva TV 的青睞,同時以單位儲存價格比來說,Seagate 也是目前市場上極具競爭力的選擇,也為企業節省不少成本。此外,在「效率」的表現方面,Exos X18 提供進階寫入快取機制,能提供 270 MB/s 的傳輸效率,而 ExoS E 5U84 也內建雙控制器配置,最高傳輸量達 5.5GB/s 寫入;7GB/s 讀取,能滿足資料隨時調用的需求。

除了實際使用上的需求,對於所有企業而言,資料儲存的「穩定性」絕對是重中之重,若是發生硬體方面的問題,受到影響的部門眾多,也會影響整個電視台的營運;而 Seagate 不僅在 Exos X18 企業級硬碟提供高標準的每年 550TB 工作負載率、250 萬小時的 MTBF(平均故障隔時間) ,高密度機架式存設備 ExoS E 5U84 也提供 ADAPT 功能的備援熱插拔控制器、備援熱插拔硬碟機、風扇、雙電源線、熱待機備用、自動容錯轉移與多路徑支援…等提高可用性的機制,另外更為重要的是,Seagate 提供的系統整合服務極為完善,無論是售前或是售後都能保持極為暢通的溝通管道,能即時滿足技術上的支援。

雲端化現階段還未能滿足影音內容應用需求

由於影音檔案的儲存量極為龐大,林振德表示,除了單純解決「如何存放」的問題,能夠有效率的依照需求來調用資料更是一大關鍵,而他們也曾比較過自有的儲存中心與雲端化的儲存服務,除了「成本」是主要考量之外,「應用」更是一大關鍵,尤其是資料上下雲端所需要花費的時間可能會是本地端複製的數倍,可能無法滿足實際使用這些備存檔案的需求;像是過去 Viva TV 就曾經遇到需要配合檢調單位調出特定產品的資料時,就要一次找出不同年份、時間有曝光產品的節目內容,檔案規模也高達數百 GB,光是本地端匯出資料就耗費大量時間,若是真的採用雲端化儲存,恐怕花費的時間會增加數倍,同時單純靜態資料的固定備份,也將增加日常維運的時間成本。

現階段 Viva TV 仍以本地端磁碟儲存系統為主要解決方案的主要理由還是在於龐大儲存量的需求,雲端的成本仍舊偏高,再者就是資料上雲後,資料下載時的速度是否足夠,以實際需求面來說,影音儲存的目的並非單純的「稽核備份」,能夠「隨取使用」更是一大重點。

迎接 8K 世代,「與時俱進」絕對必要

電視產業的大環境變遷絕對是目前面臨最大的挑戰,近幾年因為疫情影響,也可以發現到競爭對手搭上電商需求的浪潮轉型成功,不過對於電視購物這一個領域,Viva TV 對於未來發展仍舊看好,如何內容做到更好會是聚焦的重點,在堅守本業的同時,與 EC 整合,同時吸取網路直播帶貨、低成本形態的媒體營運模式之長,做出內容拍攝、銷售形態的轉變將會是下一階段的目標,畢竟年輕族群接收資訊的主要管道已非電視平台,如何拉回這些人的目光焦點會是非常重要的關鍵。

Photo Credit:Viva TV
Viva TV積極做內容優化,看好未來市場仍大有可為。

除此之外,在電視節目由 SD 轉變為 HD 之後,下一步可能會直接跳過 4K 而進入到 8K 世代,以目前公眾平台的傳輸基礎量來評估,2 至 3 年後台灣的收視就將進入到 8K 市場,目前已有業者正在實測營運 8K 影音內容,而這也將會是電視購物頻道下一階段要面臨的挑戰。

單位資料量比現有 HD 等級高出數倍的 8K 超高畫質內容,可符合儲存容量且高效穩定的數位儲存系統,對於電視台來說絕對會是必要的投資項目,以 Viva TV 所導入的 Seagate 企業儲存解決方案來說,已經能夠因應未來 5 年的實際使用需求,同時也兼具「與時俱進」的擴充彈性,從容不迫地面對下一階段的挑戰。