【乾貨】大資料時代，如何構建使用者畫像系統？看完這篇文章就知道了

編輯導語：如今在這個大資料時代，很多時候我們會被打上“標籤”，比如我們在逛淘寶時，軟體會根據你的瀏覽和搜尋喜好進行推薦，這就是對於使用者的精準投放，有效地提高轉化；本文作者分享了關於構建使用者畫像系統解決方案，我們一起來看一下。

一、認識使用者畫像

1. 什麼是使用者畫像

使用者畫像是一個描述使用者的工具，刻畫出使用者個體或者使用者群體全方位的特徵，為運營分析人員提供使用者的偏好、行為等資訊進而最佳化運營策略，為產品提供準確的使用者角色資訊以便進行針對性的產品設計。

使用者畫像系統集使用者畫像的生產與應用於一身，對外（如產品運營、推薦系統等）封裝提供使用者畫像資訊，以便對產品更好的設計以及對使用者更好的運營。

2. 使用者畫像與數倉的關係

前面介紹了資料倉庫的搭建《資料產品經理如何推進資料倉庫的落地》，那麼使用者畫像與數倉是一個什麼樣的關係？

一般來說，資料倉庫儲存的是結構化的資料，而構建使用者畫像需要結構化資料，也有非結構化和半結構化資料，既擁有結構化資料又擁有半結構化資料和非結構化資料的系統稱之為資料湖。

相對來說，結構化的資料更容易構建使用者畫像，只需要對結構化的資料直接進行標籤化，而非結構化和半結構化資料需要透過演算法進行處理後再進行標籤化。

使用者畫像與數倉的關係為資料來源與資料應用的關係，兩者相輔相成，關係圖如下：

3。使用者畫像（User Profile）與使用者角色（User Persona）區別

經常有人搞不清楚使用者畫像與使用者角色的區別，其實兩者本質上是不一樣的，先來看看兩者的對比圖表：

①性質：使用者角色為定性研究，只考慮使用者的特徵性質不考慮程度，而使用者畫像是對使用者的精細刻畫，為定量研究。

②使用時機：一般來說，使用者角色的使用場景在產品上線之前，此時幾乎沒有任何資料，需要產品同學針對產品的使用方進行特徵描繪，以便了解目標群體進行針對性的設計；使用者畫像的使用場景在產品上線後，此時已積累了一定的資料量，可以對使用者進行資料統計構建使用者畫像，獲得精細化運營的能力。

③描述程度：使用者角色是對某個使用者群體特徵進行高度概括，使用者畫像是對使用者個體或者使用者群體的精細描述。

④用途：使用者角色用於輔助產品進行設計，研究使用者體驗，例如許可權控制系統會分為以下幾個角色：分析師、產品、運營、資料科學家等角色，使用者畫像用於瞭解使用者特徵以及偏好，以便提供個性化的服務和提高盈利。

二、使用者畫像規劃

在構建使用者畫像之前，需要產品同學進行一個規劃，說明下專案的背景以及做這個系統的必要性，最終要實現的目標是什麼，即提供什麼樣的功能，為了達成這個目標需要的人力以及物力資源。

1. 所需物力資源

這裡需要計算一下需要什麼硬體，如多大的磁碟、記憶體，需要哪些，具體可以將硬碟和記憶體分配到每個儲存及計算元件上，這個工作可與技術同學協商完成。

2. 所需人力資源

基於前面的介紹，裝置的維護以及各儲存計算元件的執行保障這裡需要運維工程師，資料的清洗需要ETL工程師。

資料的儲存、標籤生成、流式計算等需要用到多種的大資料元件，這就需要大資料開發工程師，同時儲存的資料庫各種備份維護等工作需要配備資料庫工程師。

非結構化和半結構化資料需要經過演算法處理，所以演算法工程師也是必需的；最後，使用者畫像需要進行視覺化，還需要配備一個前端工程師。

根據以上分析，所需的工程師如下（具體需要人數視專案而定，有的全棧工程師可以身兼多職就不需要這麼多）：

三、怎麼構建使用者畫像

1. 使用者畫像實施

在開始構建使用者畫像之前，需要資料產品出一個詳細的實施文件，如果說使用者畫像規劃文件是說做什麼的話，那使用者畫像實施文件就是說明具體要怎麼做；這樣開發人員才知道具體的邏輯著手實施，如受多個因素影響的標籤每個因素的權重是多少，這樣才能計算出最終標籤的值。

以下各步驟均要在實施文件裡面詳細說明：

2. 資料建模

資料的如何從原始資料最終轉化成標籤資料，需要定義一個標準處理流程，這就是資料建模。

1）建模流程

以上圖片為使用多項 Logistic 迴歸演算法對電信業客戶進行分類的建模流程，從圖片上看，資料建模可以分為以下幾個步驟：

① 獲取原始資料，包含使用者訪問的行為日誌、使用者基本屬性等，具體需要的資料視用途而定，這裡預測客戶類別用到的資訊有地區、年齡、婚姻狀況、地址、收入、教育程度、行業、退休、性別、居住地和客戶類別。

② 資料預處理，挖掘出事實標籤，對使用者資料進行過濾、清洗、簡化表示，例如：過濾掉表中的無關欄位，指定欄位型別，處理預設值等。

③ 分析使用者行為及屬性，構建使用者畫像的模型標籤，透過使用者行為屬性分析，得到各型別使用者的行為規律及特徵屬性，構建使用者行為屬性模型，訓練出最終模型。

④ 調優模型，對模型進行調優，使預測結果更準確。

⑤ 透過模型進行預測，完善使用者畫像，預測使用者的操作行為。

2）建模常用模型

以下列出常見的建模模型，以便了解熟悉各模型的常見用途。

① 文字挖掘模型（TF-IDF）：常用於文字的特徵提取，處理與清洗資料，匹配標識使用者資料，TF-IDF的主要思想是：如果某個詞或短語在一篇文章中出現的頻率越高，並且在其他文章中很少出現，則認為此詞或者短語具有很好的類別區分能力，能更好的代表本篇文章，適合用來分類。

② 分類聚類模型（貝葉斯、KNN、K-Means）：透過分析有相同特徵的群體資訊，對使用者進行劃分。

③ 機器學習：透過特徵提取挖掘出標籤。

④ 相似度模型（餘弦相似度、皮爾遜相似度）：用於輔助分類、聚類。

⑤ 推薦演算法（Apriori）：根據使用者訪問情況推薦出興趣標籤，完善畫像。

3. 使用者畫像維度拆解

思考透過各種維度來全方位描述使用者畫像，根據產品是To B還是To C注重的方向又不一樣，To C型別產品會關注使用者的性別、年齡、興趣、職業等資訊；而To B類產品不太關注這些，會更傾向於研究使用者的工作能力、行為習慣等。

產品所處的行業對使用者畫像側重點也有影響，社交類和金融類的產品關注點又不一樣；一般來說，可透過以下資訊來基本構建使用者畫像，其餘的維度視具體需求再進行定製化開發。

總之，使用者畫像的多維度刻畫需要遵循MECE法則進行全方位不重複的拆解，這裡同時引出了一個問題，維度的細分是不是越細越好？

如果使用者畫像的顆粒度過於精細。意味著開發成本直線提升，同時，過細的拆分意味著每個類別對應的使用者量變少，造成服務目標單一化。

舉一個比較極端不存在的例子，將使用者ID作為標籤，則每個ID對應一個使用者，這樣的細分對精細化運營是沒有幫助的；在維度細化拆分的過程中也要不停關注標籤值覆蓋面來進行微調。

4. 使用者畫像標籤生成

由於使用者需求和使用者場景不斷更新，所以標籤體系需要持續完善。不同的使用者需求和業務場景，不同的業務標籤，使用者標籤系統就不同。

1）標籤的生成

標籤從生成邏輯上來區分主要有幾大類：統計標籤、規則標籤、模型標籤、演算法標籤。

統計標籤：根據已有資料進行統計，如統計使用者近30天的消費金額；

規則標籤：根據一定的業務規則進行劃分，如根據使用者的歷史消費情況給使用者劃分對應的消費等級；

模型標籤：基於一些分析模型對使用者進行打標籤，如RFM模型；

演算法標籤：此類標籤可用於預測，如預測使用者是否是潛在付費使用者。

下面在RFM模型基礎上，結合AHP分析法對使用者進行打標籤：

某產品有以下購買消費資料：

如果我們想知道每個使用者的價值是多少的話需要怎麼評估，使用者價值有多個因素影響，這裡的影響因素就是RFM三個因素，計算步驟如下：

構建層次結構模型：

構造判斷矩陣：

根據以上打分規則，由經驗豐富、判斷力強的專家對三個因素兩兩打分給出判斷矩陣。

上表意味著專家評判RFM三個因素的權重順序分別是M>F>R。

計算特徵向量：

透過判斷矩陣計算特徵向量（也就是權重）。

判斷矩陣一致性檢驗：

有了以上權重，還要進行一致性檢驗，判斷權重分配是否合理，避免出現類似M>F，F>R，R>M的情況；由於篇幅問題，就不進行詳細的計算，網上也提供了線上計算工具只需要輸入判斷矩陣即可得出一致性檢驗結果。

從以上計算，我們得出了RFM三個因素的權重，接下來就要根據這些權重以及各使用者的RFM具體的值來計算使用者價值。

RFM值標準化計算價值：

因為RFM值的量綱不一樣，需要進行標準化才有可比性，可透過以下兩個公式進行標準化。

兩個公式應用的場景不一樣，第一個公式適用於該因素對結果有正向影響時使用，第二個公式適用於該因素對結果有負向影響時使用。

RFM因素中，R值越小對使用者價值影響越大，因此使用第二個公式，F值和M值越大對使用者價值影響越大，因此使用第一個公式。

使用以上兩個公式進行標準化後，將得到標準化後的值分別乘以該因素對應的權重即可得到每個使用者的價值。

生成標籤：

根據上面計算出來的值生成各因素對應的標籤，可以用均值區分，均值以上的為1，均值以下的為0，最終生成的標籤如下：

以上有R、F、M、價值四個因素，每個因素有0或者1兩種情況，總共可以組合成16種情況，即可以將使用者分為16層，針對每層使用者特點進行個性化服務。

5. 標籤值對映規則

各類標籤在底層儲存中並不會儲存具有實際意義的值，為了節省儲存成本和提高查詢效率通常用0、1等簡單字元來表示；所以具體的對映規則需要資料產品進行定義並維護，業務人員諮詢某標籤裡面的1代表什麼意思的時候不至於一頭霧水。

6. 使用者畫像質量評估

經過以上步驟，使用者畫像的維度逐漸豐富，此時需要對使用者畫像的質量進行檢驗，主要從以下幾個方面：

使用者覆蓋率：使用者畫像具體能夠覆蓋到多少使用者，如年齡標籤有80萬人打上的具體的值，有20萬人沒打上，則年齡標籤的使用者覆蓋率是80%；覆蓋率是使用者畫像應用的一個評價，覆蓋率越高，對後續精準營銷的策略選擇越準確。

準確率：標籤有值但是打錯了標籤也是質量差的一個表現，，使用演算法模型導致的使用者分群錯誤或者對使用者的購買意向預測錯誤，將直接影響購買率，影響GMV。此項指標可以透過灰度測試來驗證。

可拓展：使用者畫像系統在維度刻畫方面應該是可擴充套件的，支援後續方便的增加其他標籤維度。

及時性：標籤的實時更新對一些場景化推薦營銷起到至關重要的作用，需要對近10分鐘內做過某些行為的使用者進行針對性廣告推薦，如果使用者做了該行為但是標籤沒有及時更新的話那這個推薦系統將起不到任何作用。此項指標可以人工進行操作後觀察使用者畫像更新的時長。

7. 使用者畫像視覺化

使用者畫像完成之後，需要對使用者畫像進行視覺化以便只管感受，可透過Echarts、Tableau等視覺化工具進行繪圖；對於使用者個體，可生成類似於簡歷的使用者資訊描述，對於使用者群體，可展示該群體在各個維度的分佈情況。

四、使用者畫像的應用

使用者畫像的應用場景十分廣泛，無論是使用者精細化運營還是系統個性化服務都能很好的支援，以下列舉一些使用者畫像常見的應用：

精準營銷，分析產品潛在使用者，針對特定群體利用簡訊郵件等方式進行營銷；

使用者統計，比如APP使用者的性別、年齡分佈；

推薦系統，透過資料探勘利用關聯規則計算，進行物品關聯推薦，利用聚類演算法分析，上班一族使用APP的時間分佈情況；

廣告推薦，其實也是推薦系統的一種；

提供種子使用者，篩選出與種子使用者類似的使用者群體或者相反的使用者群體，進行定製化的服務。

本文由 @不語原創釋出於人人都是產品經理，未經許可，禁止轉載

題圖來自 Unsplash，基於 CC0 協議

奧推網

【乾貨】大資料時代，如何構建使用者畫像系統？看完這篇文章就知道了

相關文章閱讀