奧推網

選單
科技

企業究竟該如何落地資料治理?

編輯導語:你是否想要了解企業在傳統資料平臺使用資料時會遇見哪些常見問題或挑戰、什麼是資料治理、治理範疇是什麼、如何落地資料治理等問題呢?本篇文章的作者將詳細地為大家講解這些問題,一起來看看吧!

在傳統資訊架構階段,各個部門根據各自的業務需求的需要,在不同的時期不同的技術環境下建設出各自的資訊系統,從而出現了一個個“資訊孤島”式應用。

隨著大資料時代的到來,為解決系統孤島的現象,現如今各行各業都在進行大資料平臺的建設,都想透過大資料的能力實現數字化轉型,而資料治理作為實現企業資料價值的第一步,也就越來越被重視。

實際上,大資料平臺的建設本質還是資料的建設,企業只有保證資料的可見、可用、易用、可運營,才能儘快依靠資料成為重要的生產力。

然而,企業在傳統資料平臺碰到的所有問題,在大資料平臺也有可能遇到。且隨著資料量級的變化,大資料平臺必然還會產生新的問題。

一、企業使用資料時遇到的常見問題和挑戰

那麼,企業在傳統資料平臺使用資料時會遇見哪些常見問題或挑戰呢?

為幫助你快速理解,下面我將透過一個真實案例進行切入。

資料分析師:“老大,昨天會議上你說的供應商評價場景,我感覺目前資料存在問題。你看 10 年前上的系統與去年上的新系統供應商編碼、物料編碼、人員編碼、資料單位都不一致,根本關聯不起來。

就拿其中一個指標來說吧,近 3 年的及時到貨量 = 及時到貨數量 / 到貨數量,目前我們連這個簡單的場景都做不了。因為當時編碼沒有定規則,企業沒有制定統一的資料標準,不僅這個場景做不了,涉及需要大量歷史資料訓練 AI 模型的場景也無法實現。”

老大:“他們沒有上主資料系統以此保證主資料的一致性嗎?也沒有人定義標準?看來這個坑不小呀。下面我們抓緊建立一套資料質量體系吧,針對不符合規範的內容,透過郵件定時傳送給業務部門負責人。通知傳送後,如果再出現問題那就是業務部門的事情了,要不然老闆還懷疑我們的能力不行,這個鍋我們不背。”

演算法工程師:“老大,要訓練的銷量預測資料感覺有問題,問了一圈業務領域的人,就沒有一個對歷史資料全域性能說明白的,每個人都只知道自己的那一塊資料。我看了一下,營銷資料、訂單資料、採購資料、供應鏈資料統計口徑都不一致。我已經很盡力地拉了幾次會議了,可每次組織會議時,大家都有時間的情況不多,所以這個事情部門之間就推來推去,都想讓其他部門改,最後會議都是以不了了之收場。”

研發工程師:“老大,昨天採購那邊好像改了什麼欄位或資料,導致下游的報表資料都出現了問題,今晚又得加班了,主要是現在還不清楚問題到底在哪?”

透過以上這段對話可知,資料治理一般存在以下 4 種挑戰:

第一,資料不可知:

作為業務人員/企業管理者不清楚資料與業務之間的關係到底是什麼,對於資料資產完全不清晰。

第二,資料不可控:

現有資料質量不高,導致業務人員的工作瑣碎,工作量巨大,且容易出錯。

第三,資料不可取:

業務人員無法根據真實需求從資料來源中快速提取資料,導致業務需求無法快速被滿足。

第四,資料不關聯:

因各個資料之間沒有任何關聯性,導致資料難以支撐企業實際業務。

也正是因為所使用的資料存在一系列的問題,且問題還在不斷湧現,所以企業有必要對資料進行治理,以此提升資料的價值,併為企業實現數字化戰略打好基礎。

既然資料治理如此重要,

下面我們就一起來看看到底什麼是資料治理?資料治理的範疇包含哪些?到底如何落地資料治理?

二、什麼是資料治理?治理範疇是什麼?

資料治理是一種帶有強烈目的的實踐活動,它以資料為核心物件,涉及政府、企業、個人等各類參與主體,覆蓋資料全生命週期中的各種過程和狀態,利用手段和活動釋放、保護資料的價值。

學習了資料治理的概念後,我透過一張資料治理“4W1H”模型圖說明資料治理的範疇,以幫助你快速理解。

透過上圖,我們已經很清晰地知道資料治理範疇包含了哪些。然而,隨著業務不斷生成海量資料,並將其轉移到雲中,資料管理動態的基本方式也在不斷髮生變化,因此,在提升大資料治理能力時,企業需要額外特別關注以下 5 個管理範疇:

(1)風險管理

人們擔心敏感資訊可能會暴露給未授權的個人/系統、安全漏洞、已未知人員在錯誤的情況下訪問資料,為此,各組織都在尋求將這種風險降到最低的方法。一旦系統遭遇破壞,就需要使用額外形式的保護方式(如加密)來混淆資料物件的嵌入資訊,以此保護資料。

此外,還需要其他工具支援訪問管理、識別敏感資料資產,並圍繞其保護建立策略。

(2)資料增值

隨著企業建立、更新和流化資料資產的速度不斷提高,雖然雲平臺能夠處理更高的資料速度、資料容量和資料多樣性,卻仍需要引入控制和機制以便快速驗證高速資料流的質量,這很有必要。

(3)資料管理

採用外部產生的資料來源和資料流(包括來自第三方的付費資料)的需求,意味著應該做好不相信所有外部資料來源的準備。可能需要引入記錄資料血緣、分類和元資料 的工具,以幫助員工(特別是資料消費者)根據他們對資料資產生成方式的瞭解確定資料可用性。

(4)資料發現

將資料移動到任何型別的資料湖(基於雲的或本地的)都有可能失去對已移動的資料資產、其內容的特徵和元資料的詳細資訊的跟蹤。因此,評估資料資產內容和敏感性(無論資料在哪裡)的能力變得非常重要。

(5)隱私和法規

法規遵從性要求可審計和可衡量的標準和程式,以確保符合內部資料政策和外部政府法規。將資料遷移到雲意味著組織需要工具來執行、監視和報告遵從性,並確保正確的人員和服務對正確的資料具有訪問和許可權。

掌握了資料治理的概念、管理範疇後,那麼企業如何落地資料治理呢?下面一一為你揭曉。

三、如何落地資料治理?

在落地資料治理過程中,企業往往需要經過如下三個階段:

1. 整體規劃階段

在這個階段,資料管理經常使用的兩大理論是 DCMM、DMBok,在國內,企業主要採用的是 DCMM 方法論體系。

在資料治理整體規劃階段,企業需要透過 6 步走策略進行落地:

現狀調研與需求分析:透過收集資料、現場採訪瞭解業務現狀、資訊化現狀等,再透過資料分析,形成現狀與差距評估報告。

藍圖規劃:透過問題盤點,制定願景使命與目標、治理路線、各類體系。

平臺建設:實施方案策劃、總體推進計劃輸出、資源規劃。

摸家底:需要輸出各類定準表標準文件。

落平臺:企業各類資料相關人員需要按照制定的相關標準進行執行。

抓運營:透過資料質檢平臺進行檢核,對不滿足的資料要求對應部門整改。

2. 調研、定框架、落標準階段:輸出標準階段產出物

在調研、定框架、落標準階段,就需要輸出各類標準階段產出物。這類標準產出物主要分為行業標準、國際標準、企業標準、業務標準等,如果涉及技術中、產品中的各個模組時,它們可以再進行具體劃分。

如下截圖是我給一家大型企業落地資料標準過程中梳理的各類標準文件,如果你想獲取對應資料,歡迎關注公眾號進行了解:

3. 標準落地階段

資料標準梳理完了,企業就需要落實到資料開發、資料運營的各個環節,只有這樣才能構成一個完整的資料生命週期管理。

(1)主資料開發

在主資料開發過程中,我們需要透過主資料平臺進行資料的模型開發、資料採集、收據分發與訂閱、主資料的申請、資料接入等。

(2)數倉建設

在數倉建設過程中,我們需要遵循如下標準:

資料開發:資料開發實現資料倉庫需要遵循資料標準、資料標準規範化文件(見產品人棲息地數倉課程)

資料模型架構原則:數倉分層原則、主題域劃分原則、資料模型設計原則。

數倉公共開發規範:層次呼叫規範、資料型別規範、資料冗餘規範、NULL欄位處理規範、指標口徑規範、資料表處理規範、表的生命週期管理。

數倉命名規範:詞根設計規範、表命名規範、指標命名規範。

數倉各層開發規範:ODS 層設計規範、公共維度層設計規範、DWD 明細層設計規範、DWS 公共彙總層設計規範。

(3)指標開發

在指標開發階段,我們需要遵循原子指標、派生指標、複合指標的落地標準。

全域性設計:用來劃分資料匯流排,這是資料標準,落地成資料匯流排文件。

原子指標:用來定義業務過程中的度量邏輯,比如:SUM、COUNT、MAX、MIN、AVERAGE、STDDEV、VAR 等。

派生指標:落地後屬於真正業務意義上的 DWS 層指標。

複合指標:基於指標之間的計算獲得。

在這個階段,我們需要清晰地知道原子指標、派生指標之間的關係,如下圖所示:

當然,我們也需要很清晰地知道指標與數倉之間的關係。指標是模型層的上層應用,在視覺化、規範化指標建設中,它反過來可落地成每個主題中的模型。

(4)標籤開發

標籤根據來源可以劃分為原子標籤、衍生標籤、組合標籤、自定義標籤、演算法標籤這幾種,如下說明:

原子標籤:體的原始資料維度,它可以是實體的基本屬性,如性別、年齡、性別等,也可以是經過加工的資料,如會員等級、年收入、年消費金額等。原子標籤一般來源於離線計算DWS層的一個結果表,讀入標籤系統中,衍生標籤和組合標籤基於此計算。

衍生標籤:可以透過實體的主表、輔表或關係表的基礎欄位來建立,支援配置規則或寫 SQL 兩種加工方式。

組合標籤:屬於規則類標籤,它是多個標籤的組合,由原子標籤、衍生標籤、自定義標籤組合而成。

自定義標籤:透過匯入標籤資料的方式建立的標籤。

演算法標籤:透過機器學習分類學習得到的標籤。

當然,標籤也可以根據內容側和場景主題進行劃分。

在實際落地過程中,我們需要清楚地知道標籤的分層邏輯:原子標籤 ——組合標籤—— 業務標籤,且要清楚標籤也需要遵循一定的規範。

然而,現實中很多企業在給實體打標籤時,因為沒有遵循一定的規範,使得標籤越來越不精準,業務人員也感覺越來越力不從心。久而久之,隨著標籤越來越多,業務人員也就更加不知所措,標籤的維護成本也越來越高……

比如,很多企業給一個實體(使用者/企業)打了很多標籤,在使用時卻並不清楚當初標籤是如何定義的,能用於什麼場景。此時,如果發生“標籤爆炸”,那麼這套系統就會被玩壞了。

(5)資料運營

在資料運營階段,我們需要對任何模型進行資料質檢,最終生成對應的資料報告,且報送對應業務線需要對發生問題的資料進行處理,這就形成了一套從標準、制定檢核任務、根據質檢結果進行 check、對資料進行梳理或者發現缺少的標準進行補充的完善 PDCA 資料治理閉環。

資料運營階段我們要做哪些事情呢 ?比如資料格式不規範、空值、資料趨勢波動趨勢、值域等問題,我們可以透過資料質檢平臺進行質檢。

資料質檢平臺主要包括兩方面的能力:技術側檢測規則、資料質量。指定檢核規則需要從資料的一致性、唯一性、準確性、有效性、及時性、完整性這 6 個維度進行梳理。

如下圖是資料的一致性、唯一性、準確性、有效性、及時性、完整性案例,建議收藏,在其他地方估計你很難再找到這麼詳細的資料檢核規則文件了:

然後,經過定時的任務排程,生成資料質量檢核報告。在報告中,我們就可以看到每個資料維度上存在的問題及存在問題的具體資料,再將對應的資料下發到對應的部門進行復盤,該調整的調整,該增加規範的增加。

四、小結

企業從關注技術到關注資料治理和運營,是對資料價值本身的迴歸。

因此,在大資料時代,企業必須盤活業務資料,並構建一套從資料展示、資料分析、資料探勘等多場景的高效應用,唯有如此才能在激烈的競爭中脫穎而出。這就要求企業不僅僅需要關注現在資料中臺化的能力,還需要基於資料中臺在落地資料治理過程中做統一的資料規劃。

未來,我相信,隨著大資料與人工智慧的發展,越來越多的智慧場景將被賦能自動化業務。

公眾號:產品人棲息地

本文由 @DataSir 原創釋出於人人都是產品經理。未經許可,禁止轉載

題圖來自Unsplash,基於CC0協議