奧推網

選單
科技

資料分析丨安卓和IOS的使用者留存率都有提升,大盤留存率一定提升嗎?

只要是在可拆解場景,都有「坑」的身影。本文從「辛普森悖論」著手,側重於其在業務中的實際表現場景,分析業務中有哪些可能踩坑的地方,一起來看一下吧。

今天分享一個分析師的老朋友——「辛普森悖論」,只要是在可拆解場景,都有「坑」的身影,所以也成為了資料分析面試中的常客。本文主要側重於其在業務中的實際表現場景,需要分析同學引起警惕,其之「坑」,小則忽略改進機會,大則結論直接錯誤。

一、什麼是辛普森悖論

既然叫「悖論」,首先肯定是反常識的。還是以一個簡單的案例來引入吧:

(案例瞎編,如有雷同,純屬巧合)假設一個產品,無論安卓端還是IOS端的使用者留存率都較去年同期有提升,是否大盤的留存率一定有提升?

受過多年應試教育錘鍊的我們,看到「一定」兩個字就會覺得必有玄機。

是的,你沒想錯,就算我們窮舉了各個維度,且各個維度趨勢一致,也未必能反映大盤的特性。

為什麼?因為我們只關注了「比值」而沒關心「絕對值」。

讓我們把資料展開再看一下實際的量級:

是不是很能反映問題了?

雖然雙端的留存率都有提升,但是整體的留存率出現了大幅下降。其主要原因是iOS使用者出現大量流失,只剩下核心使用者;安卓端次月留存率較低,但使用者量級較大,拉低了整體留存率。

這就是有名的辛普森悖論,用學術一點的語言解釋:

計算分項的比例(比如各種各樣的率)資料時,A方的每一分項的資料都比B方要高,但是把各分項一彙總起來算總體資料時,A方卻比B方低

。這種不符合常規認知的“悖論”現象,在資料分析領域並不少見;這種在進行分組研究的時候,有時在每個組比較時都佔優勢的一方,在總評中有時反而是失勢的一方的“悖論”現象就叫辛普森悖論。」

接下來,我們來看看在業務中有哪些可能踩坑的地方。

場景一:只注重比例指標,不注重絕對值變化

在工作場景中,這樣的表述是不是似曾相識:

「我們的活躍使用者付費率從3%提升到了5%,說明付費流程改版效果非常好,對使用者的付費率有了較大幅度的提升。」

「近期我們APP的內容播放率有所提升,親子類播放率提升30%,歷史類播放率提升10%,所以APP內容播放率的提升是親子類內容帶來的。」

乍看好像沒啥問題,但是其實經不起推敲。

面對情景一,

也許我們按重度使用者、輕度使用者去拆解,會發現兩邊的付費率其實都沒有明顯改變,這個付費率的提升是由於近期重度使用者在日活中的佔比增加了

。那把付費率的提升歸功於付費流程的改版好像多少有點不對勁。

後續的分析過程中,我們的重點就需要調整為「為什麼重度使用者在日活的佔比增加了」。可能是因為輕度使用者轉化為了重度使用者,好事情,不用太擔心。也可能是輕度使用者逐漸流失了,只留下一些重度使用者,那我們又得進一步分析「為什麼輕度使用者逐漸流失」。

資料分析,就是類似這樣抽絲剝繭的過程。

對於場景二,也與場景一大同小異,忽略量級直接聊比例都是耍流氓。假設本來親子內容有10個播放,現在13個,歷史類本來有1000個播放,現在有1100個。你還能自信的說內容播放率提升是由親子內容播放提升帶來的嗎?

與之類似,當一個渠道今天的新增註冊使用者只有100人時,明天有1000個新增都是10倍增長。一個新增註冊有10,000人的渠道,哪怕只漲10%,就能帶來同等的增量。

場景二:拆解做得不夠,關鍵維度有缺失

簡單來說,我們如果不做拆解或者拆解做的不夠,只關注總體表現,

就會忽略了「被平均」的一部分人,或者忽略其他關鍵維度對資料的影響。

資料分析的藝術有時候也就是從各個維度拆解的藝術,忽略關鍵維度,小則錯失改進的機會,大則出現結論性錯誤。

比如,投放時我們發現某個投放素材的ROI較低,就決定直接把它停了。但是真實世界往往是十分複雜的,也許這個素材在中國不行,在美國又行了,在美國不行,在南美又行了。在高收入人群不行,可能在低收入人群又很能打。

這裡引用頭條的一道面試題來進一步解釋吧:

對潛在客戶進行投放時,30歲以上客戶1000人,轉化率2%,30歲以下3000人,轉化率4%,整體轉化率就是3.5%,所以分析師得出結論:30歲以上的客戶價值低,不建議再投放。請問這個結論合理嗎?

我們有幾種角度來駁斥這個結論。

第一,沒有呈現其他重要維度,可能是樣本選擇不均衡。

首先,30歲以下選了3,000人,30歲以上則選了1,000人,30歲以下使用者和30歲以上的使用者的人口學特徵是否一致呢?

假設咱們30歲以上人群選的低收入人群佔比高,30歲以下選的是高收入人群佔比高,對結論必然產生影響。所以除了30歲以下/30歲以上這個拆分,我們可能還要按人群收入進行拆分。

第二,衡量投放效果,不能僅僅關注轉化率,也要關注使用者生命週期整體LTV。

假設30歲以下人群買的大多是9。9的走量產品,30歲以上買的都是999的利潤產品,你還能說30歲以上的使用者沒有價值嗎?

場景三:AB實驗時測試效果很好,實際上線後翻車

而辛普森悖論也可以為一些業務現象提供一些合理解釋。「AB實驗測試效果好,上線效果一般」的原因有很多,比如「新奇效應」或者「統計顯著不等於業務顯著」,但是「辛普森悖論」也是導致翻車的種子選手之一。

舉個例子,雖然我們在進行AB實驗時會對使用者進行隨機分流,我也認可這種分流足夠準確,但是測試往往是跟隨版本迭代進行的,可能這類率先進入ab實驗,勤於更新的使用者本身就是這種對app更為熱衷,活躍度更高的使用者。最後我們依照實驗結果釋出版本,可能對於某些活躍度沒這麼高的使用者,反而有負面影響。

甚至極端一點,實驗版的新使用者流程可能有bug,但是因為新使用者在大盤佔比較低,如果我們只看大盤資料,可能不會注意到實驗已經對新使用者體驗產生惡劣影響。

所以要求我們在分析過程中,除了關注主指標,也關注重要維度拆解出的關鍵指標。比如我已經知道某個維度下各個群體的使用者(比如新使用者和老使用者)的指標表現有所不同了,也很難在實驗層面就保證各組使用者在該維度下的使用者佔比是完全均勻的,除了總指標,就需要對該指標進行進一步拆解分析。比如看付費率不光看總體付費率,也看新使用者付費率和老使用者付費率。

另外做足夠精細的資料分析,也可以讓我們更好的把實驗價值最大化。

比如某實驗顯示雖然總體付費率提升只有0。1%,沒有顯著性。但是對於某特定人群來說提升明顯,可以讓30歲以上的女性付費率提升30%,那麼這個實驗仍然有上線的價值。

Reference:

關於辛普森悖論的深度解析,奇奇和蒂蒂

資料分析——工作中遇到的“辛普森悖論”,森谷蘑

從大廠資料分析面試題了解「辛普森悖論」,趣談資料分析

淺談AB測試裡常見的辛普森悖論,王曄

本文由 @Ver 原創釋出於人人都是產品經理,未經許可,禁止轉載

題圖來自 Unsplash,基於 CC0 協議

該文觀點僅代表作者本人,人人都是產品經理平臺僅提供資訊儲存空間服務。