
這幾年,data driven 可已算是個熱門關鍵字,萬物皆可 data driven,好像誰不會就落伍了一樣。但是具體而言,到底麼樣叫 data driven 呢?是不是只要在整個計畫中,拉上幾個資料科學家、分析師來背書就好?
本篇就我們整理的一些案例,淺談要完成一個 data driven 的專案或行動,基本上有哪些步驟。
定義指標, 收集資料
要做 data driven 的事,首先要有 data,而要知道該搜集什麼資料,就必須先定義 metrics 。Metrics 可以翻譯為指標、指數,用來量化那個你在意的事情。例如:想要增加用戶互動,可以用點擊率、點擊數、分享數之類的。Metrics 可以有好幾個,互相補充。
定義指標時,也要想想是否可以蒐集到這個資料,資料可能會有什麼問題。例如想要改善員工身心健康,但是身心健康很難直接量化。而以員工『請病假次數』來量化,可能會有因果關係錯置的問題。
探索與洞見(Explore and Insights)
拿到資料的下一步,就是做『探索式分析』(explorative data analysis, EDA),從中找出是否有洞見(insights)。探索式分析,基本上就是在尋找 pattern 以及用不同方式切割資料,對資料背後代表的現象摸索了解的過程。
探索式分析聽起來簡單,卻可以說是最考驗資料分析師經驗與功力的一個步驟。以下我們只能簡單列舉常見的方法:
- 一維(histogram, kde)
- 二~三維(scatter plot, residual analysis, heatmap)
- 多維(clustering)
- 其他:例如社交網路之類,需要用相關的特殊分析
而這些分析,都可以再以不同方式切割資料,各自重新分析,才能減少資料分析常見謬誤,並且得出洞見。洞見,簡單來說,就是在這些資料裡面發現的任何有趣、值得深入研究的現象。
這種可供切割的資料,在商業分析界又稱為 dimension,以客戶資料而言,性別,年齡段,會員等級等等都可以成為分割的方式。有時候,單一的分割還不夠,還需要考慮多個 dimension 的交叉分割(intersectionality)。
(#一般資料科學和數學用語,dimension 指的是資料的維度,就是一般說 2D、3D 中的『D』。例如身高體重兩個資料,就是二維的資料,可以畫成平面的分佈圖。八個科目的成績,就是 8 個維度:這種時候要視覺化就需要做降維。)
例如:『研究發現 sign of parenthood (例如:『我是某小學家長會會長』) 對於女性的是扣分項,而對男性卻是加分。(順帶一提 career gap 有相反的影響)』這種 insights,如果只看性別,或是只看是否有 sign of parenthood 都沒有辦法發現。
(也可以參考這篇 HBR 的文章)
假說與驗證(hypotheses testing)
從上一步得出的洞見,我們要得到結論(找出根本原因 root cause)通常還需要做假說與驗證。洞見做的越精確,我們提出的假說也越有可能是正確的。假說可以有很多個,需要一一驗證。
洞見:發現辭職的員工,大多是去年新招募來的員工。
假說 1:新來的員工薪水較低,所以容易離職。
假說 2:新來的員工沒有跟主管、同事有個人交流的機會(因為 remote work)比較沒有歸屬感。
驗證假說的方法:
- 更多的分析(包含探索式和統計式)
- 找更多資料(外部資料或是不包含在原本分析內的資料)
- 要求實驗
- 邏輯常理
採取行動
找出問題的根本原因(root cause),才可以擬定相關的行動。如果離職是因為薪水低,可以針對薪資福利有更好的設計。如果離職是因為缺乏歸屬感,採取的行動又會不同。
有些時候,針對某個洞見其實沒有什麼值得採取的行動;也要懂的分辨,把行動力(和預算,資源)放在其他地方。例如:發現女性員工請病假機率較高,是因為本公司雇用的女性員工年紀都比較大。這種洞見屬於沒什麼行動可做的。
反覆過程,持續監控

Data driven approach 是個持續的過程。
前面資料分析,洞見,假說測試,採取行動等等步驟,都不是做完一次就好,需要不斷地重複。提出的假說都被否定,就要再回去重新分析資料,甚至再回頭檢視資料蒐集,指標定義是否有錯誤。
採取行動後,也要持續蒐集資料監控行動的成效,定期更新分析與洞見。
#參考案例(HBR 每個月可以免費閱讀 4 篇文章):
Who Is Driving the Great Resignation? (HBR 2021)
A Data-Driven Approach to Addressing Racial Disparities in Health Care Outcomes (HBR 2020)
#資料分析常見謬誤,包含誤將相關性解讀為因果關係、隱藏變因與辛普森悖論、overfitting、誤用線性量化與 underfitting、各種認知偏誤(bias) 等等,每一個都值得深入了解。有空填坑。
什麼是 Data Driven? 有 “ 9 則迴響 ”