想成為資料科學家?來挑戰Google、FB、Apple等六間公司人工智慧最新面試題

Medium 上一位資料科學工程師花時間將蘋果、 Google 、Facebook 等一線科技公司的機器學習、人工智慧最新面試題整理下來,供有志成為科技大廠資料科學家的讀者們研究。
評論
Woman during job interview and four elegant members of management; Shutterstock ID 370947476; PO: angelikiJ-for robin kawakami
評論

原文來自 Vimarsh Karbhari 的 Medium 文章 ,經合作媒體 AI 前線 編譯 (微信公眾號:ai-front)。INSIDE 編按:Medium 上一位資料科學工程師花時間將蘋果、 Google 、Facebook 等一線科技公司的機器學習、人工智慧最新面試題整理下來,供有志成為科技大廠資料科學家的讀者們研究。

photo credit: pcworld
photo credit: pcworld

微軟

微軟在企業中的統治地位是眾所周知的。微軟已經駕馭了雲端計算浪潮。在今年的第一季財報中,其 Azure 服務和 Office 365  在線生產力業務的收入分別增長了 90% 和 42%。

在微軟執行長 Satya Nadella 在最近致所有微軟員工的一封信中,Intelligent Cloud 和 Intelligent Edge 組建了兩支新團隊,以塑造下一階段的創新。這意味著人工智慧將要給微軟的業務帶來十分重大的改變。毋庸置疑,微軟在此公告之後可能會招聘更多機器學習背景的相關員工。所以,現在你的機會來了。

面試流程

像大多數聘僱工程師的其他公司一樣,微軟有一套經典的面試過程。通常有電話面試(涉及程式碼),然後進行現場面試。現場有大約 4 -- 5 輪面試。面試過程中可能有 2 -- 3 個深入研究資料科學相關的問題,包括研究和機器學習模型。其餘的目的是測試寫程式的技能。

面試題

  • 合併 k(在這種情況下 k = 2)個數組並對它們進行排序。
  • 如何最好地選擇 500 萬個搜索查詢的代表性樣本?
  • 三個朋友告訴你今天會下雨,他們中每個人都有三分之一的機率說謊,那麼今天下雨的可能性是多少?
  • 你能解釋樸素貝葉斯的基本原理嗎?如何設定閾值?
  • 你能解釋一下 MapReduce 是什麼以及它是如何工作的?
  • 你能解釋 SVM 嗎?
  • 你如何檢測新的資料結果是否異常?什麼是偏差和變異之權衡(Bias-Variance Tradeoff)?
  • 如何從產品使用者群中隨機選擇一個樣本?
  • 你如何實現自動完成?
  • 描述梯度提升(Gradient Boosting)的工作原理。
  • 在整數列表中查找子序列的最大值。
  • 你會如何總結 twitter 推文?
  • 在應用機器學習演算法之前解釋資料角力(wrangling)和清洗的步驟。
  • 如何處理不平衡的二元 分類(Binary classification)?
  • 如何測量資料點之間的距離?
  • 定義方差。
  • 箱形圖和直方圖有什麼區別?
  • 你如何解決 L2 正規化回歸問題?
  • 如何通過使用一些計算技巧來更快地計算逆矩陣?
  • 如何在沒有計算機的情況下執行一系列計算。解釋步驟背後的邏輯。
  • 好的和壞的資料可視化之間有什麼區別?
  • 你如何找到百分位數?請編一個程式。
  • 從一系列值中查找最大總和子序列。
  • 正規化指標 L1 和 L2 有哪些不同?
  • 創建一個函數來檢查一個單字是否是回文。
photo credit: businessoutline
photo credit: businessoutline

Amazon

Amazon 從成為「地球上最大的書店」變成「地球上最以客戶為中心的公司」。執行長傑夫·貝佐斯一次又一次地在他的致股東信中定義了公司的發展道路。 Amazon 利用 Alexa 部署深度語言學習功能,並通過 AWS 為人工智慧服務提供雲端基礎架構。它還在 Amazon 網站上大規模地佈署了世界上第一批推薦系統。

面試流程

在現場面試的過程中,會有一場稱為 Bar 的面試。Bar raiser 的意思是,面試小組中最有經驗的人,他的動機是決定你是否在  Amazon 的前 50% 的員工中。Bar raiser 有權否決一個候選人,不管其他面試者是否喜歡這個候選人。

面試題

  • 邏輯回歸模型中如何知道係數是什麼?
  • 凸和非凸成本函數之間的區別?當成本函數是非凸的時候它是什麼意思?
  • 隨機權重分配是否優於為隱藏層中的單位分配相同的權重?
  • 給出一個長條圖並且想像你正從上面倒水,如何確定長條圖中可以保存多少水?
  • 什麼是過度擬合(overfitting)?
  • 主要會員費的變化如何影響市場?
  • 為什麼梯度檢驗(Gradient Checking)很重要?
  • 描述樹,SVM,隨機森林和 XGBoost 演算法。談談他們的優點和缺點。
  • 你如何在天平上重複秤重 9 個彈珠 3 次以選擇最重的彈珠?
  • 查找西雅圖客戶過去 6 個月中前 10 名利潤最高的產品的累計總和。
  • 描述特定模型選擇的標準。降維為什麼重要?
  • 邏輯回歸和線性回歸的假設是什麼?
  • 如果你可以構建完美(100% 準確度)的分類模型來預測某些客戶行為,那麼應用程式中會出現什麼問題?
  • 項目位置 A 的項目機率為 0.6,項目位置 B 的機率為 0.8。在 Amazon 網站上找到該項目的機率是多少?
  • 給定帶有 ID 和數量列的「csv」文件,5000 萬條記錄和資料大小為 2 GB,請用您選擇的任何語言編寫一個程式來聚合 QUANTITY 列。
  • 使用數組實現環狀佇列(Circular Queue)。
  • 如果您每月都有時間序列資料,那麼它有大量的資料記錄,您將如何發現本月與前幾個月的數值存在顯著差異?
  • 比較 Lasso Regression 和 Ridge Regression。
  • MLE 和 MAP 推斷有什麼區別?
  • 給定一個帶有輸入的函數:一個 N 個隨機排序數的數組,以及一個 int K,返回一個 K 個數最大的數組。
  • 當使用者瀏覽 Amazon 網站時,他們正在執行幾項操作。如果他們的下一個行動是購買行為,建立模型的最佳方式是什麼?
  • 鑑於全國範圍內可能性很低,估計一個城市的疾病機率。在這個城市隨機詢問 1000 人,全部為負面反應(無疾病)。這個城市發病的機率是多少?
  • 描述 SVM。
  • K-means 如何運作?你會選擇什麼樣的距離度量?如果不同的特徵有不同的動態範圍呢?
  • 什麼是 Boosting 演算法?
photo credit: fashiongames
photo credit: fashiongames

Facebook

Facebook 不需要過多介紹。經過近十年來累積大量資料之後,2013 年起,Facebook 內的工程師開始嘗試使用 CNN。之後,Facebook 認識到 AI 和 Deep Learning 的重要性,並聘用了他們的第一位 AI 工程師—— Google 大腦 Marc'Aurelio Ranzato。隨後又聘請了 CNN 的發明人 Yann LeCun(現已不再負責 Facebook AI 研究院的領導工作)。

面試流程

Facebook 面試過程是大多數公司使用的標準面試過程。可參考 此篇分享

面試題

  • 有一個 100 層的建築物,2 個相同的雞蛋。您如何使用 2 個雞蛋來查找閾值樓層 N,在 N 層及 N 層以上,雞蛋肯定會摔碎。
  • 從 100 個硬幣中隨機抽取一枚硬幣:1 枚不公平的硬幣(都是正面),99 枚公平的硬幣(一正一反)並投擲 10 次。如果結果是 10 個正面,那麼這枚硬幣是不公平的機率為多少?
  • 在 Python 中為數值編寫排序演算法。
  • Facebook 想要開發一種方法來估計人們生日的月份和日期,而不管人們是否直接給我們提供這些訊息。你會提出什麼方法和資料來幫助完成這項任務?使用 Python 的內建來處理 csv 資料。
  • 您如何比較兩種不同後端引擎的自動生成 Facebook「朋友」建議的相對表現?給定 KPI,選擇正確的指標,執行 ETL。(使用 SQL / 程式碼)
  • 你即將坐飛機去西雅圖。你想知道你是否應該帶一把雨傘。你可以給 3 個隨機的朋友打電話,每個人都會獨立詢問是否下雨。你的每個朋友都有三分之二的機會告訴你真相,並有三分之一的機會對你撒謊。所有 3 位朋友都告訴你正在下雨。在西雅圖實際下雨的可能性有多大?(同微軟的那道題)
  • 考慮一個有 2 名玩家 A 和 B 的比賽。A 有 8 個棋子,B 有 6 個棋子。比賽進行如下。首先,A 滾動一個公平的六面體,並且六面體上的數字決定 A 從 B 接收多少個寶石。接下來,B 滾動相同的六面體,並且完全相同的事情發生在相反的位置。本輪結束。誰在比賽結束時擁有更多的寶石則贏得比賽。如果玩家在回合結束時獲得相同數量的寶石,則會形成平局並且接下來會有一輪。B 在 1,2,...,n 輪獲勝的機率是多少?
  • 你如何得到一個句子中每個字母的數量?
  • 通過了解性別或身高,你如何證明男性平均身高比女性高?
  • 什麼是猴子補丁(monkey patch)?
  • 給定一個對象列表 A 和另一個與 A 相同的列表 B,一個元素被刪除,請找到被刪除的元素。
  • 給定一個整數列表(正數和負數),編寫一個演算法來查找是否至少有一對總和為零的整數。你會如何提高演算法的性能?
  • 製作 2 個變量的直方圖。
  • 在 SQL 中構建回覆計數的直方圖(包含 x 個回覆,x + 1 個回覆等的數)。建立一個表格,其中包含每個使用者每天使用的功能使用情況摘要(追蹤使用者的最後一個操作並每天匯總)。
  • 你在一個賭場擲骰子,如果擲出 5 則贏,並獲得 10 美元的獎金。你能賺多少?如果你一直玩到你贏了(不管花多長時間),那麼你的預期支出是多少?
  • 如果您試圖讓客戶註冊 Facebook 廣告,您會向小型企業展示什麼指標?
  • 給定發送好友請求和收到好友請求的表格,找到擁有最多好友的使用者。在平台上花費的讚/使用者和分鐘數正在增加,但使用者總數正在減少。最有可能的根本原因是什麼?
  • 多少人在他們的檔案中列出的高中是真實的?我們如何發現並大規模佈署尋找無效學校的方法?
  • 你如何將暱稱(Pete,Andy,Nick,Rob 等)映射到真實姓名?
  • Facebook 認為讚與去年相比增長 10%,為什麼會這樣呢?
  • 如果一位管理人員表示他們希望將 Facebook 動態消息廣告的數量加倍,那麼如何確定這是不是一個好主意?
photo credit: headquarters.com
photo credit: headquarters.com

Google

Google 擁有一批世界上最有才華的資料科學家、資料分析工程師。Google 執行長 Sundar Pichai 專注於將 Google 重新整合為一家人工智慧第一公司。 Google 已經將其大部分產品的人工智慧程式碼從 Gmail 搬移到擁有大量資料的自動駕駛系統。

面試流程

Google 的技術面試流程是標準的技術面試流程。包括了電話面試和現場面試。詳情參見 此網站

面試題

  • 什麼是 1 / x 的導數?
  • 繪製曲線 log(x + 10)
  • 如何設計客戶滿意度調查?
  • 擲硬幣十次,得到結果為 8 個正面和 2 個反面。如何分析一枚硬幣是否公平?p 值是什麼?
  • 你有 10 個硬幣。你每擲硬幣 10 次(共 100 次)並觀察結果。你會修改你的方法來測試硬幣的公平性嗎?
  • 解釋一個不是正態的機率分佈以及如何應用它?
  • 為什麼使用特徵選擇?如果兩個預測因子高度相關,那麼對邏輯回歸中的係數有什麼影響?係數的信賴區間是多少?
  • K- 均值和高斯混合模型:K 均值和 EM 之間有什麼區別?
  • 當使用高斯混合模型時,你怎麼知道它適用?(正態分佈)
  • 如果標籤在聚類項目中是已知的,那麼如何評估模型的性能?
  • 有一個 Google 應用程式,做了一個改變。如何測試指標是否增加?
  • 描述資料分析的過程?
  • 為什麼不進行邏輯回歸,為什麼選擇 GBM?
  • 推導 GMM 方程。
  • 如何衡量有多少使用者喜歡影片?
  • 模擬雙變量法線
  • 導出分佈的方差
  • 每年有多少人申請 Google?
  • 如何建立中位數的估計量?
  • 如果回歸模型中的兩個係數估計值中的每一個都具有統計顯著性,那麼您是否期望兩者的測試仍然很重要?
photo credit: Bloomberg/Getty Images
photo credit: Bloomberg/Getty Images

Uber

面試流程

Uber 的技術面試流程是一個標準的技術面試流程,由電話面試和現場面試組成(通常是 5 -- 6 輪面試)。Uber 在其 官方部落格 上詳細解釋了這一點。

面試題

  • 描述二分類
  • 計算 ROC 曲線的 AUC
  • 如何使用 A / B 測試?
  • 使用隨機白努利試驗來編寫函數以返回來自常態分布的數值樣本
  • P 值是什麼意思?
  • 解釋線性回歸、線性假設和線性方程
  • 定義 CLT,它和 Uber 有何關係?
  • 解釋 Logistic 回歸、Logistic 假設和 Logistic 方程
  • 一個車隊要花多少錢才能看到我們每個大城市的街景照片?
  • 如何建立汽車租賃司機成本的模型?
  • 解釋 surge 定價演算法是如何工作的,以及如何測試哪種策略更有效?
  • 什麼是交叉驗證?
  • 網路效應如何影響選擇來定義實驗和測量結果?
  • 什麼是異常檢測方法?
  • 駕駛狀況和交通堵塞對 Uber 收入有何影響?
  • 駕駛狀況和交通堵塞如何影響 Uber 的收入或司機體驗?
  • CPU 快取如何工作?以及如何在資料科學中使用它?
  • 如何優化各種行銷管道之間的支出?
  • 如何計算一個城市 Uber Pool 的半徑?
  • 如何決定一個地點是否應該包含在 Uber Pool 中?
  • 什麼是時間序列預測技術?
  • 解釋 PCA,PCA 假設,PCA 方程式。
  • Uber 會造成交通堵塞嗎?
photo credit: freshhome
photo credit: freshhome

Apple 

人工智慧被包含在蘋果硬體內部的軟體中。也就是說,人工智慧是蘋果的一種服務。根據他們在 2018 年第一季財報,他們的服務收入比去年增長了 18%。截至去年 12 月底,所有服務產品的付費使用者數量都超過了 2.4 億。

面試流程

與大多數聘僱工程師的其他公司一樣,蘋果公司也有典型的面試流程,電話面試與現場面試兼有。現場大約有 4 -- 5 名團隊成員進行面試。詳情可參考 此篇分享

面試題

  • 如何以數百萬的交易數量吸引數百萬使用者,並將這些使用者集中在一個有意義的細分市場中?
    我們對數據進行預先篩選以消除欺詐威脅- 那麼我們如何找到可用於確定欺詐事件真實表示的數據樣本?
    給定一張帶有使用者 ID 和使用者購買的產品 ID 的 1B 的表格,以及具有用產品名稱映射的產品 ID 的另一張表格。我們試圖找到經常由同一使用者一起購買的配對產品,例如葡萄酒和開瓶器,薯片和啤酒。如何找到這些並存的成對產品中的前 100 名?
  • 請詳細描述 L1 和 L2 正規化之間的區別,特別是對於它們對模型培訓過程本身的影響的差異。
  • 假設你有 100,000 個文件分佈在多個伺服器上,如何在 Hadoop 中處理這些文件?
  • Python 和 Scala 有什麼區別?
  • 解釋 LRU Cache。
  • 如何設計一個客戶端 -- 伺服器端模型,客戶端每分鐘發送一次位置資料?如何將資料從一個 Hadoop 叢集傳輸到另一個 Hadoop 叢集?
  • Java 中有哪些不同類型的 memory?
  • 如何處理數百個標題的 Metadata 同時進行的日常繁瑣任務?
  • 最想擁有的超能力是什麼?
  • 你有時間系列的感測器,預測下一個讀數。
  • 使用 SQL 創建超市購物籃輸出。
  • 你有什麼心理實踐經驗?(基於研究組合的問題)
  • 您在表徵方面的專長是什麼?通常使用什麼?你如何在研究中使用它並找到有趣的結果?(Research Portfolio based question)
  • 你如何處理失效分析?
  • 檢查一個二叉樹是否是左右子樹上的鏡像。
  • 什麼是隨機森林?為什麼樸素貝葉斯更好?

總結

六家代表著頂尖科技的技術企業,六套面試題,大家可以在這幾套題中看到每家公司的側重點有何不同,建議先收藏本文再慢慢研究。如果能將上面這幾套面試題研究透徹,就算進不了這六家公司,相信其他的人工智慧大廠同樣會為你敞開大門,未來就在你的手中!


開發應用趨勢 X 產業轉型策略:DevDays Asia 2021 亞太技術年會報名開跑!

DevDays Asia 2021 Online 亞太技術年會活動即日起開放報名,7 月 25 日前報名即可參加早鳥抽獎活動,8 月 11~13 日準時上線參與更有機會獲得Gogoro VIVA Lite、Xbox Series X 等豐富大獎。
評論
評論

面對疫後變化莫測的商業局勢,如何透過開發者的力量增強企業韌性、保持競爭優勢是勝出的關鍵策略。為賦能台灣開發者,引發企業轉型與創新動能,由經濟部指導,經濟部工業局、台灣微軟、iThome 共同主辦的「DevDays Asia 2021 Online 亞太技術年會」邁入第六屆,今年將於 8月 11 日(三)至 8 月 13 日(五)以「賦能創新.疾速突圍」為題,線上盛大登場。豐富議程包含線上論壇、實作坊、社群活動、以及國際與在地實際案例展示,匯集全球技術資源,協助開發者透過科技力量共同型塑疫後新未來,向世界展現台灣的創新能量。

過去一年全球各產業面臨各種挑戰,無論是疫情的衝擊、經貿環境的變化等,促使企業加速數位轉型的進程。在導入雲端、AI 等技術之中,開發者成為企業數位轉型的關鍵,更是承擔企業成功數位轉型、突破困境的重責。各領域與產業的技術人才需求皆有顯著提升,顯示開發者的力量已成為企業決策與建立韌性的重要一環。台灣微軟致力提供完善的開發平台,不僅分享全球豐沛的研發能量予在地人才,更結合理論與實務,以在地產業案例展現應用面向,期望藉技術年會賦能台灣產業創新發展,迎向疫後新未來。

關鍵 9 大主軸技術演講:勾勒創新科技想像,探索量子運算無限潛力

為期三天的「DevDays Asia 2021 Online 亞太技術年會」,特別邀請微軟全球副總裁 Charles Lamanna、微軟亞洲 Teams 資深工程總監 Dan Stevenson、微軟全球人工智慧業務開發總監 Matt Sinclair、微軟大中華區全球合作夥伴解決方案事業群首席技術長 徐明強博士、微軟 Teams Platform 產品行銷總監 Daniel Canning 等重量級講師進行主題演講,分享建立高生產力的未來工作模式、資安、工業物聯網價值鏈等主題,全方位幫助開發者即時掌握前瞻科技趨勢。

看好量子技術強大運算力將為資安、產業、金融與國防等領域帶來突破性發展,微軟首席架構師 Ujjwal Kumar 將以「量子運算」精彩開場,分享微軟於量子運算技術上的更新與應用情境,帶領開發者一同探索潛力無窮的量子運算領域。

此外,今年年會將聚焦於「實現創新應用開發」與「加速強化企業韌性」的 9 大關鍵議題:

  • 大數據與人工智慧(Data & AI):AI 已然成為驅動產業前進的原動力,企業也逐漸擁抱整合數據平台,微軟推出六大 Applied AI Services 產業應用場景,協助企業將 AI 落地,並透過雲端現代化資料倉儲與分析中台、數據治理與安全、資料為先的混合雲應用,協助企業在面對日趨增加的數據資產強勁轉型需求中,建立疫後時代的企業韌性。
  • 雲原生應用(Cloud Native):以微軟最新發表內容的開發者工具如 Visual Studio、GitHub,介紹智慧雲原生應用程式包含 Cloud Native App、Micro Services 等,助企業可隨環境動盪迅速反應、敏捷開發,提升 IT 即戰力。
  • 開源技術(Open Source):掌握開源將助企業洞燭市場先機,而開源發展與社群關係更是環環相扣,年會將邀請多位開源社群一同擔任協辦單位,包括軟體人才培訓學校(Build School)、台灣雲原生使用者社群(Cloud Native Taiwan User Group)、DevOps 台灣社群(DevOps Taiwan community)、STUDY4、Taiwan Java community、台灣 PostgreSQL 使用者社群(Taiwan PostgreSQL User Group)等單位,分享自身經驗,提供第一線開發者的獨到見解。
  • 開發與維運(DevOps):為實踐 DevOps 理念與架構,快速依需求更迭軟體產品與功能,年會中將以 Azure DevOps 解決方案展示更快速、方便的應用程式開發。
  • 商務流程優化(Business Process):展現如何使用 Microsoft Cloud 建構差異化的 SaaS 應用程式,極大化發揮雲端工具綜效,建構新一代為企業量身打造的解決方案,解決企業營運困境。
  • 混合式工作模式(Hybrid Work):面對後疫情時代,開發者將可運用 Microsoft Teams 輕鬆協作溝通、簡化工作流程,以一站式生產力平台整合多元企業所需功能,迎向智慧工作時代。
  • 產業情境應用解決方案(Industry Solution):微軟長期與台灣產業建立深厚合作關係,更將在年會中力邀製造、醫療、金融等產業合作夥伴,深度剖析產業實例,助開發者結合理論與市場經驗,解決產業切身痛點。
  • 物聯網應用(IoT):以日趨成熟的 IoT 技術加乘 AR 與 VR 的虛實整合概念,向開發者展示未來的智慧工廠價值鏈。
  • 資安新思維(Security):全球遠距辦公需求劇增,駭客攻擊比率大幅增加,企業急需建立零信任文化與部署全面資安防禦系統。透過微軟 Microsoft XDR、Azure AD、Azure Defender、Azure Sentinel 等解決方案,開發者將更能幫助企業避免網路威脅、守護寶貴的數據資產。

呼應疫情下各企業對遠端實作與數據分析的需求激增,此次年會中也專門設立實作坊,藉由線上與講師零距離互動與即時問答,手把手教學如何使用 Microsoft Teams 進行遠距工作,並善用 Power BI 分析數據、發現洞察,滿足開發者對於持續深化技術以及實戰經驗累積的熱切期待。

「DevDays Asia 2021 Online 亞太技術年會」預計將再次創下參加人數新高,吸引數千人次線上參與,促進台灣技術人才接軌國際,培養開發者技術實力,共同構築更完整的開發生態系。活動即日起開放報名

7 月 25 日前報名即可參加早鳥抽獎活動,8 月 11~13 日準時上線參與更有機會獲得包括 Gogoro VIVA Lite、Xbox Series X、Surface Go 2 等豐富大獎;欲了解更多,或報名參加亞洲區域旗艦技術社群年度交流的盛會,請參考官方網站

本文章內容由「台灣微軟」提供,經關鍵評論網媒體集團廣編企劃編審。