奧推網

選單
科技

聚類分析在使用者分類畫像中的應用——基於心理統計學的應用思路與...

編輯導語:聚類分析是對樣本或指標進行分類的一種統計方法,它能幫助我們窺探不同人群之間的資料差異,也被應用於基於定量資料的使用者分類實踐中。本文作者結合某金融借貸服務流程再設計中的使用者分類案例,闡述了聚類分析在使用者畫像中的應用,一起來看一下吧。

聚類分析

(Cluster analysis)是對樣本或指標進行分類的一種統計方法,屬於探索性的資料分析方法。

聚類分析將看似無序的物件(如桌子、人、樹木、情緒、觀念等)進行分組、歸類,按照個體或樣本的特徵將其分類,使得同一類別下的個體具有儘可能高的同質性,而不同類別/組別之間則是儘可能高的異質性,以更好地理解研究物件。

物以類聚,人以群分。藉助聚類分析演算法,可以幫助我們窺探不同人群之間的資料差異(如圖1)。因此,此種方法也被應用於基於定量資料的使用者分類實踐中。

圖1:二維(2個變數 )下的聚類分析示意圖

然而,由於聚類分析所使用的資料並沒有明確的分類,聚類分析後的類別數量也是未知的。

即:我們不知道用來聚類分析的樣本大概有什麼分佈,也不瞭解系統會將其分成哪幾類,事先可能也沒有任何有關類別資訊供參考。

因此聚類分析更像是一種建立假設的方法,而對相關假設的檢驗還需要藉助其它統計方法,在使用者畫像的生成過程中,建議將聚類分析當做一種探索分類結構、提供資料支撐的手段,而非(也不可能)完全依賴於聚類分析來形成終端使用者分類結論。

以下結合

某金融借貸服務流程再設計中的使用者分類案例,來具體闡述聚類分析在使用者畫像中的應用。

01 聚類分析適用的資料型別

聚類分析所應用的資料型別主要為多維度、連續/等級/分類變數,且要求資料量足夠大、客觀可測量,因此,較為適合應用於研究者已擁有海量、多維度使用者客觀資料的情況。

資料來源如:已經運營一段時間的

產品後臺資料、電商瀏覽購買行為資料、客戶CRM資料、微信公眾號後臺資料

等。

基於這些資料,我們可以以使用者實際產生的行為資料(如:點選次數、轉發次數、使用頻率等)、人口學資料資料等客觀資料將使用者分成數類。正因此,

聚類分析被廣泛應用於消費者行為研究、細分市場研究、電子商務運營策略研究等關注人群、市場和消費行為的研究專案中。

聚類分析介入使用者分類的程式:

在使用者研究工作中,使用者分類可以基於定性或定量資料來進行,但最終會收斂為一個具體、明確、符合經驗的分類模型,使之能夠服務於未來的產品設計與運營。如圖2:

圖2:2019微眾銀行使用者調研之人群畫像

僅依靠資料無法幫助我們定義和解釋不同類別下的樣本輪廓,也無法將統計結果直接運用於生產設計和運營活動中。

因此聚類分析的方法應當結合前後期的定性研究(如產品走查、使用者訪談、內部訪談、觀察、工作坊等)和定量研究(問卷調查、攔訪調研、接受度測試等)而進行。在本案例中,研究者採取了先定性,後聚類,再補充定量的方式,來形成和運用聚類分析的結果,如圖3:

圖3:金融借貸服務流程再設計-使用者畫像建立流程

再者,從機器學習角度上來說,聚類分析是一種

無監督學習

unsupervised learning,根據不同的資料選取策略和不同的聚類演算法,系統會給出不同的分類模型。

至於哪個模型是貼合研究實際的“最優解”,需要研究者自行決定。這意味著在做使用者分類時,我們所依賴的工具需要在研究者所提供的浩如煙海的資料當中根據資料的分佈形態,逐漸探索出資料的分類形態,因此最終資料分類的結果質量對研究者對資料的理解、把握和解讀有著更高的要求。

這要求研究者在使用資料進行聚類之前,應當對資料的業務內涵具有相當程度的把握和敏感性。

02 聚類分析用於使用者分類的操作流程

1)樣本資料選擇

根據前期的定性研究和已經生成的假設,選擇能夠用來描述和定義使用者的資料維度。在本案例中,透過定性訪談、內部訪談等研究,研究者已經得知,不同使用者在借貸週期、借貸金額、還款履約行為、猶豫週期上存在著很大差別,因此,研究者可以有目的地選擇可能有用的資料。可以列出所需維度的資料清單,向資料負責人獲取。

在選擇資料時,也可以查閱相關文獻,如行業競品常用的資料/引數模型,建立對研究所需資料標籤的感知。圖4為本案例在選擇樣本資料時參考的某銀行產品使用者標籤體系。

圖4:某銀行金融產品使用者標籤體系

2)樣本資料清洗

這一步驟的目的在於去除預設值、異常值、不合理值、非研究範疇值,研究者可以根據專案的實際需求,去除可能成為干擾項的資料。如:對收入進行標準化處理,剔除3個標準差外的異常值,去除超越研究範疇(如60週歲以上)的樣本。

注意儲存清洗邏輯並在團隊成員間共享,以便隨時恢復被誤刪除的資料。

3)資料編碼及標準化

涉及到資料型別的轉換和資料可讀性的調整,由於聚類分析需要用到一定規模的連續變數和分類變數,對於一些界定模糊的變數,需要團隊成員商議後給予其明確的資料型別定義,並給出相應的定義值。此外,注意儲存這些編碼邏輯,業務資料往往夾雜著諸多術語和縮寫,研究員需將其轉為易讀的符號並加以記憶。

如圖5,本案例中,申請型別、進件渠道、還款方式屬於分類變數,B卡評分描述了使用者的信用程度,則可以定義為等級變數或連續變數。

圖5:金融借貸服務流程再設計-原始資料編碼邏輯片段

此外,為了順利進行聚類分析演算法的運轉,需將不一致的資料單位調整為一致的、標準的計量單位,如:將“利率”統一轉化為“月利率”或“年利率”。

4)變數處理與提取特徵

這一步驟目的在於使冗餘的資料得到凝縮和降維。

原始變數可能會有幾百上千的維度,但最終用於聚類分析的變數需要能夠很好地描摹使用者行為,有時研究者需要對資料進行一些簡單加工,得到一些更為關鍵的變數。如:研究者可以用最終辦理進件時間減去首次使用者問詢時間,得出中間的差值,該變數(猶豫時長)可以用來形容使用者在金融借貸產品中的消費風格。

此外,聚類分析演算法要求變數與變數之間具有較強的獨立性,因此,需要研究者儘可能地整合相關性較大的變數,更嚴謹的做法則可以藉助關聯規則分析發現並排除高度相關的特徵,或透過主成分分析進行降維。

5)選擇聚類分析演算法

在 SPSS統計分析軟體中,常用的聚類分析演算法包含二階聚類 twostep、K-均值聚類 K-means、系統/層次聚類 Hierarchical。不同聚類分析的演算法邏輯不同(本文不再贅述)所需要用到的變數型別也有所不同,適用的樣本群體也略有差異。研究者可根據專案的實際需要來選擇相應的演算法。如圖6:

圖6:根據專案實際需要選擇相應演算法

本案例中,研究者選擇了二階聚類演算法,這種演算法無需人為設定最終分類個數,有助於實現對人群樣本聚類的探索。

6)選擇變數進行聚類——檢驗模型效果

這一步驟是漫長的探索過程,需要研究者不斷嘗試,選擇適量的變數進行聚類分析運算,並檢視模型質量和前期研究的適配度。研究者往往需要嘗試幾十、幾百次的更換變數、修改引數,才能得到一個聚類質量較高、模型解釋力強的分類模型。

本案例中,研究者選擇了B卡評分、還款方式、累計逾期次數、利率、使用率(用款金額佔授信額度的佔比)、收入、月利息共7個變數,包含連續變數和分類變數,最終得到圖7的聚類模型。研究者可以在“模型摘要圖”開啟模型瀏覽器,看到聚類質量、聚類大小等圖表形式結果(圖8)。

圖7:模型摘要圖

圖8:聚類質量、聚類大小圖表

03 聚類分析結果應用

得到聚類分析的模型結果,透過模型中呈現的不同變數(含用於聚類分析的變數,和用於描述各分類的其他變數)的數值及分佈,可以描述出不同類別使用者的特徵,而每一類使用者會有個別較為突出的顯著特徵,如圖9:

圖9:某銀行金融產品使用者標籤體系

透過提取不同類別使用者的關鍵特徵,結合聚類分析前所獲得的定性調研結果及經驗,研究者與行方共同探討定義出了這5類使用者的內涵與外延。如圖10:

圖10:使用者的內涵與外延

為了便於業務理解和應用,進一步加工該分類,將這五類使用者放在“風險-收益”兩個獨立維度中進行描述,如圖11:

圖11:使用者進一步分類

如此,業務方得以瞭解各類使用者對於銀行借貸金融業務的價值與風險、期待與需求,基於此描述,我們可以進一步制定針對不同使用者的營銷和服務策略。

值得注意的是,對最終與研究假設/直覺擬合度較高的模型,最終需要結合已知的定性研究結果和業務相關人員共同闡釋,方可使機械的模型具備生態效力和業務解釋力。

得出使用者分類的基礎畫像後,可以再次使用訪談、工作坊、定量問卷等方式加以補充描述,本文不再贅述。

作者:何龍荃,ISAR公司資深用研

本文由人人都是產品經理合作媒體 @伊颯爾UXD 授權釋出,未經許可,禁止轉載。

題圖來自 Unsplash,基於 CC0 協議。