想成為資料科學家?來挑戰Google、FB、Apple等六間公司人工智慧最新面試題

Medium 上一位資料科學工程師花時間將蘋果、 Google 、Facebook 等一線科技公司的機器學習、人工智慧最新面試題整理下來,供有志成為科技大廠資料科學家的讀者們研究。
評論
Woman during job interview and four elegant members of management; Shutterstock ID 370947476; PO: angelikiJ-for robin kawakami
評論

原文來自 Vimarsh Karbhari 的 Medium 文章 ,經合作媒體 AI 前線 編譯 (微信公眾號:ai-front)。INSIDE 編按:Medium 上一位資料科學工程師花時間將蘋果、 Google 、Facebook 等一線科技公司的機器學習、人工智慧最新面試題整理下來,供有志成為科技大廠資料科學家的讀者們研究。

photo credit: pcworld
photo credit: pcworld

微軟

微軟在企業中的統治地位是眾所周知的。微軟已經駕馭了雲端計算浪潮。在今年的第一季財報中,其 Azure 服務和 Office 365  在線生產力業務的收入分別增長了 90% 和 42%。

在微軟執行長 Satya Nadella 在最近致所有微軟員工的一封信中,Intelligent Cloud 和 Intelligent Edge 組建了兩支新團隊,以塑造下一階段的創新。這意味著人工智慧將要給微軟的業務帶來十分重大的改變。毋庸置疑,微軟在此公告之後可能會招聘更多機器學習背景的相關員工。所以,現在你的機會來了。

面試流程

像大多數聘僱工程師的其他公司一樣,微軟有一套經典的面試過程。通常有電話面試(涉及程式碼),然後進行現場面試。現場有大約 4 -- 5 輪面試。面試過程中可能有 2 -- 3 個深入研究資料科學相關的問題,包括研究和機器學習模型。其餘的目的是測試寫程式的技能。

面試題

  • 合併 k(在這種情況下 k = 2)個數組並對它們進行排序。
  • 如何最好地選擇 500 萬個搜索查詢的代表性樣本?
  • 三個朋友告訴你今天會下雨,他們中每個人都有三分之一的機率說謊,那麼今天下雨的可能性是多少?
  • 你能解釋樸素貝葉斯的基本原理嗎?如何設定閾值?
  • 你能解釋一下 MapReduce 是什麼以及它是如何工作的?
  • 你能解釋 SVM 嗎?
  • 你如何檢測新的資料結果是否異常?什麼是偏差和變異之權衡(Bias-Variance Tradeoff)?
  • 如何從產品使用者群中隨機選擇一個樣本?
  • 你如何實現自動完成?
  • 描述梯度提升(Gradient Boosting)的工作原理。
  • 在整數列表中查找子序列的最大值。
  • 你會如何總結 twitter 推文?
  • 在應用機器學習演算法之前解釋資料角力(wrangling)和清洗的步驟。
  • 如何處理不平衡的二元 分類(Binary classification)?
  • 如何測量資料點之間的距離?
  • 定義方差。
  • 箱形圖和直方圖有什麼區別?
  • 你如何解決 L2 正規化回歸問題?
  • 如何通過使用一些計算技巧來更快地計算逆矩陣?
  • 如何在沒有計算機的情況下執行一系列計算。解釋步驟背後的邏輯。
  • 好的和壞的資料可視化之間有什麼區別?
  • 你如何找到百分位數?請編一個程式。
  • 從一系列值中查找最大總和子序列。
  • 正規化指標 L1 和 L2 有哪些不同?
  • 創建一個函數來檢查一個單字是否是回文。
photo credit: businessoutline
photo credit: businessoutline

Amazon

Amazon 從成為「地球上最大的書店」變成「地球上最以客戶為中心的公司」。執行長傑夫·貝佐斯一次又一次地在他的致股東信中定義了公司的發展道路。 Amazon 利用 Alexa 部署深度語言學習功能,並通過 AWS 為人工智慧服務提供雲端基礎架構。它還在 Amazon 網站上大規模地佈署了世界上第一批推薦系統。

面試流程

在現場面試的過程中,會有一場稱為 Bar 的面試。Bar raiser 的意思是,面試小組中最有經驗的人,他的動機是決定你是否在  Amazon 的前 50% 的員工中。Bar raiser 有權否決一個候選人,不管其他面試者是否喜歡這個候選人。

面試題

  • 邏輯回歸模型中如何知道係數是什麼?
  • 凸和非凸成本函數之間的區別?當成本函數是非凸的時候它是什麼意思?
  • 隨機權重分配是否優於為隱藏層中的單位分配相同的權重?
  • 給出一個長條圖並且想像你正從上面倒水,如何確定長條圖中可以保存多少水?
  • 什麼是過度擬合(overfitting)?
  • 主要會員費的變化如何影響市場?
  • 為什麼梯度檢驗(Gradient Checking)很重要?
  • 描述樹,SVM,隨機森林和 XGBoost 演算法。談談他們的優點和缺點。
  • 你如何在天平上重複秤重 9 個彈珠 3 次以選擇最重的彈珠?
  • 查找西雅圖客戶過去 6 個月中前 10 名利潤最高的產品的累計總和。
  • 描述特定模型選擇的標準。降維為什麼重要?
  • 邏輯回歸和線性回歸的假設是什麼?
  • 如果你可以構建完美(100% 準確度)的分類模型來預測某些客戶行為,那麼應用程式中會出現什麼問題?
  • 項目位置 A 的項目機率為 0.6,項目位置 B 的機率為 0.8。在 Amazon 網站上找到該項目的機率是多少?
  • 給定帶有 ID 和數量列的「csv」文件,5000 萬條記錄和資料大小為 2 GB,請用您選擇的任何語言編寫一個程式來聚合 QUANTITY 列。
  • 使用數組實現環狀佇列(Circular Queue)。
  • 如果您每月都有時間序列資料,那麼它有大量的資料記錄,您將如何發現本月與前幾個月的數值存在顯著差異?
  • 比較 Lasso Regression 和 Ridge Regression。
  • MLE 和 MAP 推斷有什麼區別?
  • 給定一個帶有輸入的函數:一個 N 個隨機排序數的數組,以及一個 int K,返回一個 K 個數最大的數組。
  • 當使用者瀏覽 Amazon 網站時,他們正在執行幾項操作。如果他們的下一個行動是購買行為,建立模型的最佳方式是什麼?
  • 鑑於全國範圍內可能性很低,估計一個城市的疾病機率。在這個城市隨機詢問 1000 人,全部為負面反應(無疾病)。這個城市發病的機率是多少?
  • 描述 SVM。
  • K-means 如何運作?你會選擇什麼樣的距離度量?如果不同的特徵有不同的動態範圍呢?
  • 什麼是 Boosting 演算法?
photo credit: fashiongames
photo credit: fashiongames

Facebook

Facebook 不需要過多介紹。經過近十年來累積大量資料之後,2013 年起,Facebook 內的工程師開始嘗試使用 CNN。之後,Facebook 認識到 AI 和 Deep Learning 的重要性,並聘用了他們的第一位 AI 工程師—— Google 大腦 Marc'Aurelio Ranzato。隨後又聘請了 CNN 的發明人 Yann LeCun(現已不再負責 Facebook AI 研究院的領導工作)。

面試流程

Facebook 面試過程是大多數公司使用的標準面試過程。可參考 此篇分享

面試題

  • 有一個 100 層的建築物,2 個相同的雞蛋。您如何使用 2 個雞蛋來查找閾值樓層 N,在 N 層及 N 層以上,雞蛋肯定會摔碎。
  • 從 100 個硬幣中隨機抽取一枚硬幣:1 枚不公平的硬幣(都是正面),99 枚公平的硬幣(一正一反)並投擲 10 次。如果結果是 10 個正面,那麼這枚硬幣是不公平的機率為多少?
  • 在 Python 中為數值編寫排序演算法。
  • Facebook 想要開發一種方法來估計人們生日的月份和日期,而不管人們是否直接給我們提供這些訊息。你會提出什麼方法和資料來幫助完成這項任務?使用 Python 的內建來處理 csv 資料。
  • 您如何比較兩種不同後端引擎的自動生成 Facebook「朋友」建議的相對表現?給定 KPI,選擇正確的指標,執行 ETL。(使用 SQL / 程式碼)
  • 你即將坐飛機去西雅圖。你想知道你是否應該帶一把雨傘。你可以給 3 個隨機的朋友打電話,每個人都會獨立詢問是否下雨。你的每個朋友都有三分之二的機會告訴你真相,並有三分之一的機會對你撒謊。所有 3 位朋友都告訴你正在下雨。在西雅圖實際下雨的可能性有多大?(同微軟的那道題)
  • 考慮一個有 2 名玩家 A 和 B 的比賽。A 有 8 個棋子,B 有 6 個棋子。比賽進行如下。首先,A 滾動一個公平的六面體,並且六面體上的數字決定 A 從 B 接收多少個寶石。接下來,B 滾動相同的六面體,並且完全相同的事情發生在相反的位置。本輪結束。誰在比賽結束時擁有更多的寶石則贏得比賽。如果玩家在回合結束時獲得相同數量的寶石,則會形成平局並且接下來會有一輪。B 在 1,2,...,n 輪獲勝的機率是多少?
  • 你如何得到一個句子中每個字母的數量?
  • 通過了解性別或身高,你如何證明男性平均身高比女性高?
  • 什麼是猴子補丁(monkey patch)?
  • 給定一個對象列表 A 和另一個與 A 相同的列表 B,一個元素被刪除,請找到被刪除的元素。
  • 給定一個整數列表(正數和負數),編寫一個演算法來查找是否至少有一對總和為零的整數。你會如何提高演算法的性能?
  • 製作 2 個變量的直方圖。
  • 在 SQL 中構建回覆計數的直方圖(包含 x 個回覆,x + 1 個回覆等的數)。建立一個表格,其中包含每個使用者每天使用的功能使用情況摘要(追蹤使用者的最後一個操作並每天匯總)。
  • 你在一個賭場擲骰子,如果擲出 5 則贏,並獲得 10 美元的獎金。你能賺多少?如果你一直玩到你贏了(不管花多長時間),那麼你的預期支出是多少?
  • 如果您試圖讓客戶註冊 Facebook 廣告,您會向小型企業展示什麼指標?
  • 給定發送好友請求和收到好友請求的表格,找到擁有最多好友的使用者。在平台上花費的讚/使用者和分鐘數正在增加,但使用者總數正在減少。最有可能的根本原因是什麼?
  • 多少人在他們的檔案中列出的高中是真實的?我們如何發現並大規模佈署尋找無效學校的方法?
  • 你如何將暱稱(Pete,Andy,Nick,Rob 等)映射到真實姓名?
  • Facebook 認為讚與去年相比增長 10%,為什麼會這樣呢?
  • 如果一位管理人員表示他們希望將 Facebook 動態消息廣告的數量加倍,那麼如何確定這是不是一個好主意?
photo credit: headquarters.com
photo credit: headquarters.com

Google

Google 擁有一批世界上最有才華的資料科學家、資料分析工程師。Google 執行長 Sundar Pichai 專注於將 Google 重新整合為一家人工智慧第一公司。 Google 已經將其大部分產品的人工智慧程式碼從 Gmail 搬移到擁有大量資料的自動駕駛系統。

面試流程

Google 的技術面試流程是標準的技術面試流程。包括了電話面試和現場面試。詳情參見 此網站

面試題

  • 什麼是 1 / x 的導數?
  • 繪製曲線 log(x + 10)
  • 如何設計客戶滿意度調查?
  • 擲硬幣十次,得到結果為 8 個正面和 2 個反面。如何分析一枚硬幣是否公平?p 值是什麼?
  • 你有 10 個硬幣。你每擲硬幣 10 次(共 100 次)並觀察結果。你會修改你的方法來測試硬幣的公平性嗎?
  • 解釋一個不是正態的機率分佈以及如何應用它?
  • 為什麼使用特徵選擇?如果兩個預測因子高度相關,那麼對邏輯回歸中的係數有什麼影響?係數的信賴區間是多少?
  • K- 均值和高斯混合模型:K 均值和 EM 之間有什麼區別?
  • 當使用高斯混合模型時,你怎麼知道它適用?(正態分佈)
  • 如果標籤在聚類項目中是已知的,那麼如何評估模型的性能?
  • 有一個 Google 應用程式,做了一個改變。如何測試指標是否增加?
  • 描述資料分析的過程?
  • 為什麼不進行邏輯回歸,為什麼選擇 GBM?
  • 推導 GMM 方程。
  • 如何衡量有多少使用者喜歡影片?
  • 模擬雙變量法線
  • 導出分佈的方差
  • 每年有多少人申請 Google?
  • 如何建立中位數的估計量?
  • 如果回歸模型中的兩個係數估計值中的每一個都具有統計顯著性,那麼您是否期望兩者的測試仍然很重要?
photo credit: Bloomberg/Getty Images
photo credit: Bloomberg/Getty Images

Uber

面試流程

Uber 的技術面試流程是一個標準的技術面試流程,由電話面試和現場面試組成(通常是 5 -- 6 輪面試)。Uber 在其 官方部落格 上詳細解釋了這一點。

面試題

  • 描述二分類
  • 計算 ROC 曲線的 AUC
  • 如何使用 A / B 測試?
  • 使用隨機白努利試驗來編寫函數以返回來自常態分布的數值樣本
  • P 值是什麼意思?
  • 解釋線性回歸、線性假設和線性方程
  • 定義 CLT,它和 Uber 有何關係?
  • 解釋 Logistic 回歸、Logistic 假設和 Logistic 方程
  • 一個車隊要花多少錢才能看到我們每個大城市的街景照片?
  • 如何建立汽車租賃司機成本的模型?
  • 解釋 surge 定價演算法是如何工作的,以及如何測試哪種策略更有效?
  • 什麼是交叉驗證?
  • 網路效應如何影響選擇來定義實驗和測量結果?
  • 什麼是異常檢測方法?
  • 駕駛狀況和交通堵塞對 Uber 收入有何影響?
  • 駕駛狀況和交通堵塞如何影響 Uber 的收入或司機體驗?
  • CPU 快取如何工作?以及如何在資料科學中使用它?
  • 如何優化各種行銷管道之間的支出?
  • 如何計算一個城市 Uber Pool 的半徑?
  • 如何決定一個地點是否應該包含在 Uber Pool 中?
  • 什麼是時間序列預測技術?
  • 解釋 PCA,PCA 假設,PCA 方程式。
  • Uber 會造成交通堵塞嗎?
photo credit: freshhome
photo credit: freshhome

Apple 

人工智慧被包含在蘋果硬體內部的軟體中。也就是說,人工智慧是蘋果的一種服務。根據他們在 2018 年第一季財報,他們的服務收入比去年增長了 18%。截至去年 12 月底,所有服務產品的付費使用者數量都超過了 2.4 億。

面試流程

與大多數聘僱工程師的其他公司一樣,蘋果公司也有典型的面試流程,電話面試與現場面試兼有。現場大約有 4 -- 5 名團隊成員進行面試。詳情可參考 此篇分享

面試題

  • 如何以數百萬的交易數量吸引數百萬使用者,並將這些使用者集中在一個有意義的細分市場中?
    我們對數據進行預先篩選以消除欺詐威脅- 那麼我們如何找到可用於確定欺詐事件真實表示的數據樣本?
    給定一張帶有使用者 ID 和使用者購買的產品 ID 的 1B 的表格,以及具有用產品名稱映射的產品 ID 的另一張表格。我們試圖找到經常由同一使用者一起購買的配對產品,例如葡萄酒和開瓶器,薯片和啤酒。如何找到這些並存的成對產品中的前 100 名?
  • 請詳細描述 L1 和 L2 正規化之間的區別,特別是對於它們對模型培訓過程本身的影響的差異。
  • 假設你有 100,000 個文件分佈在多個伺服器上,如何在 Hadoop 中處理這些文件?
  • Python 和 Scala 有什麼區別?
  • 解釋 LRU Cache。
  • 如何設計一個客戶端 -- 伺服器端模型,客戶端每分鐘發送一次位置資料?如何將資料從一個 Hadoop 叢集傳輸到另一個 Hadoop 叢集?
  • Java 中有哪些不同類型的 memory?
  • 如何處理數百個標題的 Metadata 同時進行的日常繁瑣任務?
  • 最想擁有的超能力是什麼?
  • 你有時間系列的感測器,預測下一個讀數。
  • 使用 SQL 創建超市購物籃輸出。
  • 你有什麼心理實踐經驗?(基於研究組合的問題)
  • 您在表徵方面的專長是什麼?通常使用什麼?你如何在研究中使用它並找到有趣的結果?(Research Portfolio based question)
  • 你如何處理失效分析?
  • 檢查一個二叉樹是否是左右子樹上的鏡像。
  • 什麼是隨機森林?為什麼樸素貝葉斯更好?

總結

六家代表著頂尖科技的技術企業,六套面試題,大家可以在這幾套題中看到每家公司的側重點有何不同,建議先收藏本文再慢慢研究。如果能將上面這幾套面試題研究透徹,就算進不了這六家公司,相信其他的人工智慧大廠同樣會為你敞開大門,未來就在你的手中!


【 MarTech Asia 】數位轉型突圍!萬里雲推出機器人寫文案服務,以 AI 加速行銷流程

CloudMile 萬里雲旗下 Martech 產品── ADsvantage (廣告智庫)全新 2.0 功能上線,採用非營利人工智慧組織 —— OpenAI 強大的文章產成器 「 GPT 系列」為基礎,推出全新 AI 智慧寫手功能。
評論
Photo Credit:CloudMile
評論

 CloudMile  萬里雲旗下 Martech 產品── ADsvantage(廣告智庫)全新 2.0 功能上線,採用非營利人工智慧組織 —— OpenAI  強大的文章產成器「 GPT 系列」為基礎,推出全新 AI 智慧寫手功能。隨著行銷碎片化時代來臨,消費者的用戶輪廓越來越難拼湊,從獲取資料、數據分析,到廣告文案創作的最後一哩路,行銷人員必須借助更多工具幫忙,奪回行銷效益的掌握度。 ADsvantage 提供台灣中小企業行銷人員、廣告主及電商業者自助管理的廣告平台,大幅縮短廣告行銷人員作業時間。

 ADsvantage 推出新功能,受邀 2021 MarTech Asia 分享 AI 化數據行銷

日前全台最大的行銷科技盛會 2021 MarTech Asia ,阿物科技創辦人暨執行長林思吾號召 26 位業界領袖同台 ,現場及線上共有超過 1,800 位全球及台灣相關業者齊聚一堂,包括行銷科技之父 Scott Brinker、前 Verizon Media 國際事業董事總經理鄒開蓮、全聯實業副董事長謝健南等人,分享行銷科技的重要趨勢及後疫情時代的新生態。 CloudMile 萬里雲營運長高斌恒也受邀分享,各個科技巨頭都紛紛有許多針對隱私權的規範和措施,消費者的線上線下界線越來越模糊。 當今行銷人所面對的難題不只是 SEO、投放優化而已,「數據」才是致勝關鍵,透過將許多流程自動化,省下時間與人力成本的情況下,達到更高的行銷目標,其中包括 Cookieless 時代來臨、深化 OMO 無縫體驗、打造顧客數據平台( Customer Data Platform , CDP )等議題都受到業界高度關注。

豐富跨國實戰經驗的 CloudMile 機器學習團隊,運用超過 500 萬的文案數據庫、橫跨 20 種產業以上的廣告量,結合廣告代理商 20 年以上行銷經驗,創造 ADsvantage 「 AI 智慧寫手」 新功能。 CloudMile 看見客戶對於數位轉型及運用 MarTech 行銷科技推廣商品的急迫需求,希望可運用 AI 技術之力,縮短廣告前期企劃、發想關鍵字詞、寫文案和廣告投放設定,同時還需跨組溝通,尋找資源協助的時程, ADsvantage 廣告智庫即是專為滿足客戶後疫行銷需求的一站式廣告營運平台解決方案。

人工智慧寫手結合電商平台, 加速行銷流程的最佳 AI 助理

 ADsvantage 全新 2.0 功能上線,採用 GPT 模型,為矽谷時下最夯的自然語言處理模型,推出全新 AI 智慧寫手功能,透過平台能協助客戶透過數據匯流、 AI 分析達到預測的成效,快速蒐集最熱門的關鍵字、文案內容,加速創意的過程並提升廣告效率。

此全新產品適合應用在電商等大型網購平台上,透過機器學習與 AI 科技應用,讓中間產製時間被大幅被縮短,並提升操作數位行銷的「效率」與「精準度」,像是電商平台即可透過採用 ADsvantage 的服務,有效提升自己在數位行銷上的競爭力。

Photo Credit:CloudMile
ADsvantage 全新 2.0 功能上線,推出 AI 華語文案生成工具「AI 智慧寫手」。/Photo Credit:CloudMile

 ADsvantage 產品介紹

運用 AI 科技力助企業數位轉型的 CloudMile 萬里雲,發表關鍵字數位廣告輿情系統 ADsvantage(廣告智庫),提供企業廣告主及電商平台,透過超過百萬的文案創意庫( Ads  idea ) 、 AI 智慧監控工具及 AI 智慧寫手,平均只要 3 秒即可生成一個廣告文案。 CloudMile 透過 Google 雲端、機器學習與 AI 大數據分析技術,致力協助企業落實數位轉型。疫情期間抓住需求開發的 ADsvantage ( 廣告智庫) 服務,透過服務台灣、新加坡、及香港逾 400 家客戶的專業經驗,將傳統的商業廣告運營模式數據化,提供企業廣告主一站式 Google Ads 廣告文案創作 AI 化平台。

本文章內容由「阿物科技」提供,經關鍵評論網媒體集團廣編企劃編審。