想成為資料科學家?來挑戰Google、FB、Apple等六間公司人工智慧最新面試題

Medium 上一位資料科學工程師花時間將蘋果、 Google 、Facebook 等一線科技公司的機器學習、人工智慧最新面試題整理下來,供有志成為科技大廠資料科學家的讀者們研究。
評論
Woman during job interview and four elegant members of management; Shutterstock ID 370947476; PO: angelikiJ-for robin kawakami
Woman during job interview and four elegant members of management; Shutterstock ID 370947476; PO: angelikiJ-for robin kawakami
評論

原文來自 Vimarsh Karbhari 的 Medium 文章 ,經合作媒體 AI 前線 編譯 (微信公眾號:ai-front)。INSIDE 編按:Medium 上一位資料科學工程師花時間將蘋果、 Google 、Facebook 等一線科技公司的機器學習、人工智慧最新面試題整理下來,供有志成為科技大廠資料科學家的讀者們研究。

photo credit: pcworld

微軟

微軟在企業中的統治地位是眾所周知的。微軟已經駕馭了雲端計算浪潮。在今年的第一季財報中,其 Azure 服務和 Office 365  在線生產力業務的收入分別增長了 90% 和 42%。

在微軟執行長 Satya Nadella 在最近致所有微軟員工的一封信中,Intelligent Cloud 和 Intelligent Edge 組建了兩支新團隊,以塑造下一階段的創新。這意味著人工智慧將要給微軟的業務帶來十分重大的改變。毋庸置疑,微軟在此公告之後可能會招聘更多機器學習背景的相關員工。所以,現在你的機會來了。

面試流程

像大多數聘僱工程師的其他公司一樣,微軟有一套經典的面試過程。通常有電話面試(涉及程式碼),然後進行現場面試。現場有大約 4 -- 5 輪面試。面試過程中可能有 2 -- 3 個深入研究資料科學相關的問題,包括研究和機器學習模型。其餘的目的是測試寫程式的技能。

面試題

  • 合併 k(在這種情況下 k = 2)個數組並對它們進行排序。
  • 如何最好地選擇 500 萬個搜索查詢的代表性樣本?
  • 三個朋友告訴你今天會下雨,他們中每個人都有三分之一的機率說謊,那麼今天下雨的可能性是多少?
  • 你能解釋樸素貝葉斯的基本原理嗎?如何設定閾值?
  • 你能解釋一下 MapReduce 是什麼以及它是如何工作的?
  • 你能解釋 SVM 嗎?
  • 你如何檢測新的資料結果是否異常?什麼是偏差和變異之權衡(Bias-Variance Tradeoff)?
  • 如何從產品使用者群中隨機選擇一個樣本?
  • 你如何實現自動完成?
  • 描述梯度提升(Gradient Boosting)的工作原理。
  • 在整數列表中查找子序列的最大值。
  • 你會如何總結 twitter 推文?
  • 在應用機器學習演算法之前解釋資料角力(wrangling)和清洗的步驟。
  • 如何處理不平衡的二元 分類(Binary classification)?
  • 如何測量資料點之間的距離?
  • 定義方差。
  • 箱形圖和直方圖有什麼區別?
  • 你如何解決 L2 正規化回歸問題?
  • 如何通過使用一些計算技巧來更快地計算逆矩陣?
  • 如何在沒有計算機的情況下執行一系列計算。解釋步驟背後的邏輯。
  • 好的和壞的資料可視化之間有什麼區別?
  • 你如何找到百分位數?請編一個程式。
  • 從一系列值中查找最大總和子序列。
  • 正規化指標 L1 和 L2 有哪些不同?
  • 創建一個函數來檢查一個單字是否是回文。
photo credit: businessoutline

Amazon

Amazon 從成為「地球上最大的書店」變成「地球上最以客戶為中心的公司」。執行長傑夫·貝佐斯一次又一次地在他的致股東信中定義了公司的發展道路。 Amazon 利用 Alexa 部署深度語言學習功能,並通過 AWS 為人工智慧服務提供雲端基礎架構。它還在 Amazon 網站上大規模地佈署了世界上第一批推薦系統。

面試流程

在現場面試的過程中,會有一場稱為 Bar 的面試。Bar raiser 的意思是,面試小組中最有經驗的人,他的動機是決定你是否在  Amazon 的前 50% 的員工中。Bar raiser 有權否決一個候選人,不管其他面試者是否喜歡這個候選人。

面試題

  • 邏輯回歸模型中如何知道係數是什麼?
  • 凸和非凸成本函數之間的區別?當成本函數是非凸的時候它是什麼意思?
  • 隨機權重分配是否優於為隱藏層中的單位分配相同的權重?
  • 給出一個長條圖並且想像你正從上面倒水,如何確定長條圖中可以保存多少水?
  • 什麼是過度擬合(overfitting)?
  • 主要會員費的變化如何影響市場?
  • 為什麼梯度檢驗(Gradient Checking)很重要?
  • 描述樹,SVM,隨機森林和 XGBoost 演算法。談談他們的優點和缺點。
  • 你如何在天平上重複秤重 9 個彈珠 3 次以選擇最重的彈珠?
  • 查找西雅圖客戶過去 6 個月中前 10 名利潤最高的產品的累計總和。
  • 描述特定模型選擇的標準。降維為什麼重要?
  • 邏輯回歸和線性回歸的假設是什麼?
  • 如果你可以構建完美(100% 準確度)的分類模型來預測某些客戶行為,那麼應用程式中會出現什麼問題?
  • 項目位置 A 的項目機率為 0.6,項目位置 B 的機率為 0.8。在 Amazon 網站上找到該項目的機率是多少?
  • 給定帶有 ID 和數量列的「csv」文件,5000 萬條記錄和資料大小為 2 GB,請用您選擇的任何語言編寫一個程式來聚合 QUANTITY 列。
  • 使用數組實現環狀佇列(Circular Queue)。
  • 如果您每月都有時間序列資料,那麼它有大量的資料記錄,您將如何發現本月與前幾個月的數值存在顯著差異?
  • 比較 Lasso Regression 和 Ridge Regression。
  • MLE 和 MAP 推斷有什麼區別?
  • 給定一個帶有輸入的函數:一個 N 個隨機排序數的數組,以及一個 int K,返回一個 K 個數最大的數組。
  • 當使用者瀏覽 Amazon 網站時,他們正在執行幾項操作。如果他們的下一個行動是購買行為,建立模型的最佳方式是什麼?
  • 鑑於全國範圍內可能性很低,估計一個城市的疾病機率。在這個城市隨機詢問 1000 人,全部為負面反應(無疾病)。這個城市發病的機率是多少?
  • 描述 SVM。
  • K-means 如何運作?你會選擇什麼樣的距離度量?如果不同的特徵有不同的動態範圍呢?
  • 什麼是 Boosting 演算法?
photo credit: fashiongames

Facebook

Facebook 不需要過多介紹。經過近十年來累積大量資料之後,2013 年起,Facebook 內的工程師開始嘗試使用 CNN。之後,Facebook 認識到 AI 和 Deep Learning 的重要性,並聘用了他們的第一位 AI 工程師—— Google 大腦 Marc'Aurelio Ranzato。隨後又聘請了 CNN 的發明人 Yann LeCun(現已不再負責 Facebook AI 研究院的領導工作)。

面試流程

Facebook 面試過程是大多數公司使用的標準面試過程。可參考 此篇分享

面試題

  • 有一個 100 層的建築物,2 個相同的雞蛋。您如何使用 2 個雞蛋來查找閾值樓層 N,在 N 層及 N 層以上,雞蛋肯定會摔碎。
  • 從 100 個硬幣中隨機抽取一枚硬幣:1 枚不公平的硬幣(都是正面),99 枚公平的硬幣(一正一反)並投擲 10 次。如果結果是 10 個正面,那麼這枚硬幣是不公平的機率為多少?
  • 在 Python 中為數值編寫排序演算法。
  • Facebook 想要開發一種方法來估計人們生日的月份和日期,而不管人們是否直接給我們提供這些訊息。你會提出什麼方法和資料來幫助完成這項任務?使用 Python 的內建來處理 csv 資料。
  • 您如何比較兩種不同後端引擎的自動生成 Facebook「朋友」建議的相對表現?給定 KPI,選擇正確的指標,執行 ETL。(使用 SQL / 程式碼)
  • 你即將坐飛機去西雅圖。你想知道你是否應該帶一把雨傘。你可以給 3 個隨機的朋友打電話,每個人都會獨立詢問是否下雨。你的每個朋友都有三分之二的機會告訴你真相,並有三分之一的機會對你撒謊。所有 3 位朋友都告訴你正在下雨。在西雅圖實際下雨的可能性有多大?(同微軟的那道題)
  • 考慮一個有 2 名玩家 A 和 B 的比賽。A 有 8 個棋子,B 有 6 個棋子。比賽進行如下。首先,A 滾動一個公平的六面體,並且六面體上的數字決定 A 從 B 接收多少個寶石。接下來,B 滾動相同的六面體,並且完全相同的事情發生在相反的位置。本輪結束。誰在比賽結束時擁有更多的寶石則贏得比賽。如果玩家在回合結束時獲得相同數量的寶石,則會形成平局並且接下來會有一輪。B 在 1,2,...,n 輪獲勝的機率是多少?
  • 你如何得到一個句子中每個字母的數量?
  • 通過了解性別或身高,你如何證明男性平均身高比女性高?
  • 什麼是猴子補丁(monkey patch)?
  • 給定一個對象列表 A 和另一個與 A 相同的列表 B,一個元素被刪除,請找到被刪除的元素。
  • 給定一個整數列表(正數和負數),編寫一個演算法來查找是否至少有一對總和為零的整數。你會如何提高演算法的性能?
  • 製作 2 個變量的直方圖。
  • 在 SQL 中構建回覆計數的直方圖(包含 x 個回覆,x + 1 個回覆等的數)。建立一個表格,其中包含每個使用者每天使用的功能使用情況摘要(追蹤使用者的最後一個操作並每天匯總)。
  • 你在一個賭場擲骰子,如果擲出 5 則贏,並獲得 10 美元的獎金。你能賺多少?如果你一直玩到你贏了(不管花多長時間),那麼你的預期支出是多少?
  • 如果您試圖讓客戶註冊 Facebook 廣告,您會向小型企業展示什麼指標?
  • 給定發送好友請求和收到好友請求的表格,找到擁有最多好友的使用者。在平台上花費的讚/使用者和分鐘數正在增加,但使用者總數正在減少。最有可能的根本原因是什麼?
  • 多少人在他們的檔案中列出的高中是真實的?我們如何發現並大規模佈署尋找無效學校的方法?
  • 你如何將暱稱(Pete,Andy,Nick,Rob 等)映射到真實姓名?
  • Facebook 認為讚與去年相比增長 10%,為什麼會這樣呢?
  • 如果一位管理人員表示他們希望將 Facebook 動態消息廣告的數量加倍,那麼如何確定這是不是一個好主意?
photo credit: headquarters.com

Google

Google 擁有一批世界上最有才華的資料科學家、資料分析工程師。Google 執行長 Sundar Pichai 專注於將 Google 重新整合為一家人工智慧第一公司。 Google 已經將其大部分產品的人工智慧程式碼從 Gmail 搬移到擁有大量資料的自動駕駛系統。

面試流程

Google 的技術面試流程是標準的技術面試流程。包括了電話面試和現場面試。詳情參見 此網站

面試題

  • 什麼是 1 / x 的導數?
  • 繪製曲線 log(x + 10)
  • 如何設計客戶滿意度調查?
  • 擲硬幣十次,得到結果為 8 個正面和 2 個反面。如何分析一枚硬幣是否公平?p 值是什麼?
  • 你有 10 個硬幣。你每擲硬幣 10 次(共 100 次)並觀察結果。你會修改你的方法來測試硬幣的公平性嗎?
  • 解釋一個不是正態的機率分佈以及如何應用它?
  • 為什麼使用特徵選擇?如果兩個預測因子高度相關,那麼對邏輯回歸中的係數有什麼影響?係數的信賴區間是多少?
  • K- 均值和高斯混合模型:K 均值和 EM 之間有什麼區別?
  • 當使用高斯混合模型時,你怎麼知道它適用?(正態分佈)
  • 如果標籤在聚類項目中是已知的,那麼如何評估模型的性能?
  • 有一個 Google 應用程式,做了一個改變。如何測試指標是否增加?
  • 描述資料分析的過程?
  • 為什麼不進行邏輯回歸,為什麼選擇 GBM?
  • 推導 GMM 方程。
  • 如何衡量有多少使用者喜歡影片?
  • 模擬雙變量法線
  • 導出分佈的方差
  • 每年有多少人申請 Google?
  • 如何建立中位數的估計量?
  • 如果回歸模型中的兩個係數估計值中的每一個都具有統計顯著性,那麼您是否期望兩者的測試仍然很重要?
photo credit: Bloomberg/Getty Images

Uber

面試流程

Uber 的技術面試流程是一個標準的技術面試流程,由電話面試和現場面試組成(通常是 5 -- 6 輪面試)。Uber 在其 官方部落格 上詳細解釋了這一點。

面試題

  • 描述二分類
  • 計算 ROC 曲線的 AUC
  • 如何使用 A / B 測試?
  • 使用隨機白努利試驗來編寫函數以返回來自常態分布的數值樣本
  • P 值是什麼意思?
  • 解釋線性回歸、線性假設和線性方程
  • 定義 CLT,它和 Uber 有何關係?
  • 解釋 Logistic 回歸、Logistic 假設和 Logistic 方程
  • 一個車隊要花多少錢才能看到我們每個大城市的街景照片?
  • 如何建立汽車租賃司機成本的模型?
  • 解釋 surge 定價演算法是如何工作的,以及如何測試哪種策略更有效?
  • 什麼是交叉驗證?
  • 網路效應如何影響選擇來定義實驗和測量結果?
  • 什麼是異常檢測方法?
  • 駕駛狀況和交通堵塞對 Uber 收入有何影響?
  • 駕駛狀況和交通堵塞如何影響 Uber 的收入或司機體驗?
  • CPU 快取如何工作?以及如何在資料科學中使用它?
  • 如何優化各種行銷管道之間的支出?
  • 如何計算一個城市 Uber Pool 的半徑?
  • 如何決定一個地點是否應該包含在 Uber Pool 中?
  • 什麼是時間序列預測技術?
  • 解釋 PCA,PCA 假設,PCA 方程式。
  • Uber 會造成交通堵塞嗎?
photo credit: freshhome

Apple 

人工智慧被包含在蘋果硬體內部的軟體中。也就是說,人工智慧是蘋果的一種服務。根據他們在 2018 年第一季財報,他們的服務收入比去年增長了 18%。截至去年 12 月底,所有服務產品的付費使用者數量都超過了 2.4 億。

面試流程

與大多數聘僱工程師的其他公司一樣,蘋果公司也有典型的面試流程,電話面試與現場面試兼有。現場大約有 4 -- 5 名團隊成員進行面試。詳情可參考 此篇分享

面試題

  • 如何以數百萬的交易數量吸引數百萬使用者,並將這些使用者集中在一個有意義的細分市場中?
    我們對數據進行預先篩選以消除欺詐威脅- 那麼我們如何找到可用於確定欺詐事件真實表示的數據樣本?
    給定一張帶有使用者 ID 和使用者購買的產品 ID 的 1B 的表格,以及具有用產品名稱映射的產品 ID 的另一張表格。我們試圖找到經常由同一使用者一起購買的配對產品,例如葡萄酒和開瓶器,薯片和啤酒。如何找到這些並存的成對產品中的前 100 名?
  • 請詳細描述 L1 和 L2 正規化之間的區別,特別是對於它們對模型培訓過程本身的影響的差異。
  • 假設你有 100,000 個文件分佈在多個伺服器上,如何在 Hadoop 中處理這些文件?
  • Python 和 Scala 有什麼區別?
  • 解釋 LRU Cache。
  • 如何設計一個客戶端 -- 伺服器端模型,客戶端每分鐘發送一次位置資料?如何將資料從一個 Hadoop 叢集傳輸到另一個 Hadoop 叢集?
  • Java 中有哪些不同類型的 memory?
  • 如何處理數百個標題的 Metadata 同時進行的日常繁瑣任務?
  • 最想擁有的超能力是什麼?
  • 你有時間系列的感測器,預測下一個讀數。
  • 使用 SQL 創建超市購物籃輸出。
  • 你有什麼心理實踐經驗?(基於研究組合的問題)
  • 您在表徵方面的專長是什麼?通常使用什麼?你如何在研究中使用它並找到有趣的結果?(Research Portfolio based question)
  • 你如何處理失效分析?
  • 檢查一個二叉樹是否是左右子樹上的鏡像。
  • 什麼是隨機森林?為什麼樸素貝葉斯更好?

總結

六家代表著頂尖科技的技術企業,六套面試題,大家可以在這幾套題中看到每家公司的側重點有何不同,建議先收藏本文再慢慢研究。如果能將上面這幾套面試題研究透徹,就算進不了這六家公司,相信其他的人工智慧大廠同樣會為你敞開大門,未來就在你的手中!


精選熱門好工作

後端工程師

AsiaYo.com
臺北市.台灣

獎勵 NT$15,000

iOS 工程師

FunNow
臺北市.台灣

獎勵 NT$15,000

PopDaily 人力資源管理專員–【人資部】

數果網路股份有限公司
臺北市.台灣

獎勵 NT$15,000

評論