淺談 case interview(4):資料分析與資料科學

資料分析師的 case interview,通常是案例與技術並重,除了對數字、統計(與相關偏誤)的敏感度,也要對領域知識和商業常識有基礎的了解。

在科技類和其他職位面試,也常常碰到會有案例分析題(case study 或 case interview)。面試要求一般不會像管顧業那麼高,那麼全面,更是藉由案例考驗你對具體職位的『即戰力』,因此根據職位有不同的側重點。


本篇我們討論資料分析師*(data analyst)崗位 case interview 的關注重點。以目錄的形式,整理這職位面試中實用的知識點、框架和參考資料,並且提供一些思路的範例給讀者參考。

*(『資料』類的職位,職稱變來變去,在不同公司各有各的定義眾所周知。此處討論的『資料分析師』可能包含『資料科學家 (data scientist)』: 聽起來比較偏技術,但是在很多公司這個職位還是相當重視基礎分析技巧和商業實務,所以也有可能會出現案例分析。除此之外,XXX analytic specialist,research scientist,decision scientist,technical PM 等等職稱在某些公司的實際業務也與資料分析師類似。)

資料分析師案例面試重點

回答 case interview 問題,首先需要花幾分鐘講述引言,可參考 淺談 case interview(1)引言:釐清問題、提出假說、溝通框架;而具體解題中,面試評分重點會在於:

  • 是否懂資料、不落入資料分析偏誤
  • 是否有行業基礎知識
  • 大方向、概數思維(不要過於『學術』,糾結於小數字和細節)
  • 對數字的敏銳,分析邏輯(可能會延伸直接進入『技術面試』)

資料分析師案例常見題型

資料分析師的案例比較特別,可以說是 all-over the palce,更與公司、團隊實際的問題有關,也會順便考驗技術方面的問題(直接進入 SQL,machine learning,甚至 coding interview)。以下我們列舉一些要特別注意的點,以及一些題型範例。

1. Data Driven problem solving:Metric 設計

很多資料分析師的案例題,其實就是讓你設計一個 data-driven solution 的架構(中間再穿插一些技術題),可以參考:什麼是 Data Driven? 這篇文章。除了技術之外,其中的 metrics(指標,類似 KPI,用來追蹤你所在意的事情)設計也是一個重點。設計 metrics 要注意不要只關注技術或學術≤上的 metrics(R2AUC,P-value),更要考慮商業上的價值:通常跟錢有關,例如:營業額、利潤,也要考慮資料是否容易取得(是否 measurable)。

2. 技術-案例綜合分析

(參考:外商科技公司常見面試題型:技術-個案綜合分析

3. 注意常見謬誤

(以下列舉常見的偏誤,附上相關文章的連結,面試前值得在過一遍)

問題範例(與答題思路參考)

底下我們列舉一些常見的資料分析案例題型,提供一些可以思考的方向作為答題思路。這些方向不一定是正確答案,僅作為腦力激當階段參考。實際題目通常會提供更多細節(與公司實際業務有關)和數字。

Q: 每個月我們有 5% 會員選擇不續訂,該如何留住會員?
  1. 5% 算不算高,跟什麼比?(跟歷史資料比,跟同行比,同比 vs. 環比,是否有季節性)
  2. 如何找出『不續訂』的原因
  3. 如何追蹤成果(不能只顧短期數字好看,把『取消』弄的很複雜,反而會激怒客戶)。
Q: 如何增加會員的消費額,增加客戶價值(customer lifetime value)?
  1. 怎麼計算 customer lifetime value (不可能真的算 lifetime,所以要有明確定義)
  2. 是否需要客戶分群,如何分群
Q: 要怎麼分配行銷(廣告)預算(電視、網路、傳單、facebook)?
  1. 行銷成效需要一些時間才能顯現出來(不會今天看廣告今天就去買),也許管道有關(網路通常較快且短效)
  2. 有些管道提供參考 metrics
  3. 直覺很有用(例如我可以假設老人喜歡的產品在電視打廣告效果更好),但是也要與資料並重,以直覺判斷時要搭配『測試假說』的計畫。
  4. 需要了解廣告行業的一些術語
Q: 怎麼決定要不要批准貸款?
  1. 可用機器學習或是簡單規則?各有什麼優缺點?
  2. 需要了解相關術語(e.g. “default")
  3. 怎麼定義貸款的成功?有什麼數據可以用?
Q: 怎麼找出願意多花錢的客戶(target for upselling)?
  1. 兩種錯誤(False Positive vs. False Negative)的成本不同
  2. 怎麼設計 metrics,來確認獲得真正的 upsell 而不是在『挖東牆補西牆』(cannibalization):例如表面上這個月多賣的營業額,其實只是預支可客戶接下來幾個月的預算。

參考:資料科學中『機器學習』該使用何種模型?(ML map