
在『『實驗』的基本概念:控制與重複』一文中我們介紹了『實驗』的基本要素,本篇我們來盤點在工作中,常見的實驗相關錯誤。很多時候犯這些錯誤(或是無法分辨錯誤)的人並不是資料專業,但是身處的職位還是需要了解如何正確做實驗,才能做出正確決策。
非隨機對照組(before – after)
做實驗常見的錯誤之一,就是挑選或設計的控制組(control group)沒有發揮其應有的作用,不能作為有效的對照。有可能是它與接受實驗操作的『實驗組』本來就有太多不同,甚至根本不是隨機選擇的。
常見的 before-after 對照就是這種錯誤的典型。
例如某電商公司(這個案例是真實事件改編),在旺季(雙十一、耶誕、過年)期間推出一種新的推薦系統,與之前的兩個月相比,發現日均營業額增漲了 1.5 倍,便非常興奮地宣布『實驗證明』新系統的成功。其實與平日相比,旺季營業額可能本來就會高這麼多,不能證明新系統的效力。
另外,有時候在實際操作上,設計者會傾向於接受看似『自然』的分群,也會造成不具可比性的對照組。
例如:將初次進入網站的用戶分為隨機的 A B 兩組,如果客戶想要免費試用,A 組可以直接試用,B 組則被要求輸入信用卡資料(試用期結束自動續訂),最後發現 B 組的免費用戶『續訂率』比較高。(圖中以黃色表示不續訂的客戶)

這個例子裡,雖然 A B 兩組一開始是隨機分配的,但是最後真正進入實驗對照時,B 組中訂閱意願不高的用戶可能早已經被篩選掉,因而變成不隨機的對照組。
實驗操作的副作用
實驗的操作,有時候會帶來本意之外的副作用,而把這個『副作用』造成的結果當成實驗結果,也是實驗設計常見的錯誤之一。例如 email 給會員優惠卷,除了優惠卷本身的誘因,email 本身也會提醒他們這家公司的存在,而激發消費行動。如果實驗沒有適當的對照組,可能會高估優惠卷的效用。
很多實驗操作的副作用可以藉由精心設計的控制組來排除。例如醫藥實驗中,『給患者吃藥』這個動作可能讓患者覺得有信心被治癒,造成『安慰劑效應』就是實驗操作的副作用之一。在這類實驗中,給予控制組的患者安慰劑,就可以減少實驗副作用與真正效果混淆。
無效重複(pseudo-replication): 不具代表性的實驗群體
『重複』是實驗中重要的因素,目的是證明所觀察到的關聯性不是巧合,也不是只在幾個樣本上的特例。重複的樣本數不足常常伴隨著 overfitting 的問題。實務上,會由統計學家(現在可能叫資料科學家)做 power analysis 估算出完成實驗所需的樣本數(通常用 N 表示),並且用這個樣本數去分析最後的實驗結果(是否存在因果關係)。
無效重複又稱『假重複』,通常發生在把只是『重複測量』取得的資料當成『取樣』。例如在同一個病人身上抽了好幾管血,只是重複測量而不該算成取樣的重複。另一種無效重複的錯誤是把所有實驗組在一個分群中而所有控制組放在另一個分群。(農業實驗中,所有實驗組在一個溫室,所有控制組在另一個溫室)
如果某個『巧合事件』發生在其中一個群組,就會被誤認為是實驗效果。也就是說,藉由重複來確認『不是巧合』的功能形同虛設。
p value and p-hacking
所有在學術借有經過統計訓練的人,對 p-value 和所謂『統計顯著』(significant)應該都是愛恨交錯。p-value 可以粗略理解為『這個結果純屬巧合』的機率,科學界一般把 p= 0.05 算成一個門檻,p-value 小於 0.05 則稱為『顯著』,(一般來說)才值得拿出來討論。
與 p-value 有關的常見錯誤是所謂 p-hacking:就是做很多類似的『實驗』,以期某一個實驗可以有『顯著』的 p-value。廣義而言,亂拿一大堆數據做相關性測試,就很有可能找出某兩個指標在數據上的『相關性』。這種相關性只能當作數據探索階段(EDA)的參考,下結論之前還需更謹慎的研究。
在商業環境中,直接上 Bonferroni correction 等統計方式之階篩選 p-value 也可能會太過保守。防止 p-hacking,更有效的方法還是 Know your business,結合產品/商業概念和常識,不要濫用或只依賴數據分析,才能讓實驗的結果更有效用。
商業應用指標與研究不同:勿過度依賴 P-value
過度強調 P-value 也可能造成數據解讀錯誤。簡單來說, p-value 不是唯一的指標,0.05更只是學界常用的一個標準而已,不是『一刀切』的定律。
但是在商業環境,不一定要像研究環境一樣保守,更應該綜合考慮各種指標(參考:『勿枉勿縱』:混淆矩陣、precision、recall 及其他)的影響,做出相應的決定。(如果 p-value = 0.2 但是影響重大,也不該以一句『不顯著』就當作沒這回事)
實驗中常見錯誤:無效重複、假重複、操作副作用與誤用 p-value 有 “ 2 則迴響 ”