摘 要:數據質量是所有數據處理和分析的前提,否則,基于一個不可靠數據的分析結果必將是南轅北轍。用友UAP數據質量管理方案,可幫企業探索識別隱藏在企業各個地方的數據質量問題,并匯總分析,直至清洗處理完成,使企業的數據保持清潔。
從2011年麥肯錫首次提出大數據的概念,到今天,已進入大數據盛行的時代。數據成為一種全新的資產類別,數據的有效管理和順暢分析成為企業與組織成功的關鍵。零售業可以利用大數據提高運營利潤,醫療業使用大數據,可保障醫療系統安全有效運行,服務業利用大數據機分析個人行為信息可以刺激消費。隨著大數據技術的成熟和應用的發展,企業開始真正重視如何有效利用這些數據來產生更大的智慧和價值。
大數據時代,數據不再是單純的存放在關系數據庫中的交易記錄,包括文檔、位置、社交等各種形式的外部信息都是數據,都可能對企業的發展產生影響。這一切對企業來說既是機遇,更是挑戰。機遇在于催生了更多的業務機會,將促進企業發展的跨越;挑戰則在于管理和運用大數據,企業IT部門積累的傳統數據管理和治理經驗將完全無法滿足需要。關于企業面臨的挑戰,大家都關注到了存儲管理、集成整合、分析計算,而且在這些方面,基本都已經有了一些相關的產品和技術。但是這一切的前提是——你的數據必須可靠、可信、可用,這就是說,首先要保證數據的質量。數據質量是所有數據處理和分析的前提,否則,基于一個不可靠數據的分析結果必將是南轅北轍。
企業需警惕的五大數據質量問題
目前市場大多數數據質量產品,都是在數據集成產品套件中,開發了一些數據清洗規則校驗的工具,并宣稱為數據質量產品。這在很大程度上誤導了大家對數據質量管理的認識,認為數據質量管理就是修改數據中的錯誤、并對錯誤數據和垃圾數據進行清理。這的確是數據質量要解決的問題,但跟全面數據質量管理還有相當大的差距。導致企業數據質量問題的原因是涉及企業信息技術和管理的多個方面,要想全面系統的解決企業數據質量問題,僅憑數據清洗和校驗處理是遠遠不夠的。實際上,數據質量管理,是指對數據從建模、采集、存儲、共享、管理、應用、歸檔整個生命周期的每個階段里的各類數據質量問題,進行綜合管理的活動。
對企業來說,數據質量問題主要反映在以下幾個方面。
一,數據缺失:這個問題典型的情形是在進行數據分析和挖掘時,突然發現某些重要的屬性,數據記錄值缺失,導致分析建模和分析結果誤差較大。比如對客戶購買預測分析其中年齡是一個重要的分析變量,但是原始客戶記錄數據的年齡字段絕大多數記錄為空。這類問題產生的由于業務系統數據模型設計或者應用校驗做的不到位導致,比如數據模型沒有對該字段進行強制約束或者數據采集應用未做校驗。
二,數據不完整:比如在戶購買分析中,發現有的客戶沒有產品購買記錄,有的客戶的購買記錄找不到對應的客戶信息。這類問題產生的原因在于業務系統數據模型沒有進行外建約束設計,或者應用校驗做的不到位導致。比如數據模型沒有對該字段進行強制約束或者數據采集應用未做校驗。
三,數據不合理:比如客戶年齡200歲,省份證號碼位數不正確,造成這類數據質量問題的主要原因是數據采集應用程序沒有進行合法性校驗。
四,數據冗余:同一數據有多個版本和入口。這既浪費了存儲同時產生了不一致。產生這個問題的主要原因是數據模型設計不合理。
五,數據沖突:同一數據有多個系統中有多個不同的內容,莫衷一是,產生混亂。造成這類數據質量問題的主要原因是沒有一個統一的規劃和沖突解決方案。
深究影響企業數據質量的兩大因素

上面的種種問題,都是企業數據質量問題的具體表現,究其原因,影響數據質量的因素概括來說有兩個方面:技術和管理。其中,技術又可分為定義、采集、和應用三個部分;管理又可分為標準、流程、機制。
首先來看技術因素:
定義因素:數據定義就是規劃建模,就是產生元數據,由于這部分因素導致的數據質量問題的原因主要有:元數據描述及理解錯誤、元數據的規格無法保證統一等。
采集因素:主要是指由于具體數據采集環節造成的數據質量問題。比如信息系統應用程序錄入校驗不完善導致的數據質量問題,數據錄入關系約束不當產生的數據質量問題,手工采集產生的數據質量問題等。
應用因素:主要是指由于數據應用過程中,由于處理的各技術環節的異常而產生的數據質量問題。比如數據獲取、傳輸、裝載、使用等方面的異常導致的數據質量問題。
然后再看管理因素:
標準因素:數據質量標準體系是企業數據質量管理的基礎。標準因素是指由于企業數據標準缺失或不當導致的數據質量問題。比如客戶信息,在企業中有多個產生渠道和方式,如果沒有統一標準,則會導致大量的數據質量問題。
流程因素:是指由于各種各樣產生數據的系統作業流程和人工操作流程設置不當造成的數據質量問題。比如數據交換流程,業務流程等。
機制因素:是指由于人員技能及管理機制 方面的原因造成的數據質量問題。如人員培訓 、人員管理 操作規范等。
因此,要持續改進企業的數據質量,必須按照一個循環的閉環數據質量管理過程推進工作,最終使企業通過可靠高質量的數據進行精準分析,為企業創造經濟效益。數據質量管理,不僅包含技術方面的因素,同時還包含管理方面的改進。從技術方面來說,主要包括探索、識別、評估、檢核、處理、監控、預警等;從管理方面來說,主要包括制定企業數據質量標準規范,確定數據質量改進 目標,制定數據質量評估組織流程 ,制定企業數據共享交換規則和流程,明確數據沖突處理方案,制定審核機制等多個方面。
數據質量管理是一套完整的解決方案
在一個組織中,數據質量管理不是一個孤立的系統和平臺,而是要和企業其他專業領域的技術和產品配合,共同完成企業數據質量的管理。比如有的公司有數據標準管理系統,數據質量標準及其規則放在數據標準管理系統進行管理。另外,數據質量管理的落地主要是基于元數據技術進行,所以企業數據質量管理需要元數據管理的支持,目前,一些信息化水平較高的企業也有專門的元數據管理系統,所以數據質量管理企業也要與企業元數據管理系統協同工作。
用友UAP結合其在企業數據處理和治理方面的經營積累,形成了一整套完善的數據質量管理解決方案,并形成了一套體系完備,行之有效的管理流程,為企業進一步的精準分析奠定基礎。
定義,指定義數據質量目標,以指導整個數據質量管理工作;檢核,指按照設定的規則檢查捕獲數據質量問題;評估,指按照評估的方案的評估指標,并對數據質量進行評估;分析,指詳細分析數據質量對業務產生的影響;定位,指確定引起數據質量問題的原因;整改,指對數據質量問題制定解決定方案,并從數據和管理兩方面進行整改;預防,指建立數據錯誤預防方案,并檢查執行;管理,指通過改進管理流程,全面管理數據質量問題;監控,指對數據和管理實施監控,維護已改善的效果。以上九個方面循環往復,反復執行,持續改進,形成一個良性循環。由于數據質量涉及企業的各個系統、各個業務和各級組織,上面的九個步驟必須在所有相關方面的有效溝通和充分協同的基礎上才能真正的發揮效用。
用友UAP為滿足企業數據質量管理需求,提供了一些列的產品和技術,解決企業數據從定義、產生到應用的全生命周期的數據質量管理能力。首先提供統一建模產品套件,從數據定義階段保證數據質量,一個產品涵蓋從業務模型創建到關系數據庫模型再到數據倉庫模型和分析模型,并可定義各種數據質量規則;另外用友UAP還可提供數據標準管理、元數據管理、數據清洗等產品和解決方案,滿足企業數據質量管理的全面需求。
用友UAP數據質量管理方案,可幫企業探索識別隱藏在企業各個地方的數據質量問題,并匯總分析,直至清洗處理完成,使企業的數據保持清潔;用友UAP數據質量管理方案可改進企業的業務工作,使企業中的每個人都可以完全信賴滿足各類業務用途的數據。
特別提醒:本網內容轉載自其他媒體,目的在于傳遞更多信息,并不代表本網贊同其觀點。其原創性以及文中陳述文字和內容未經本站證實,對本文以及其中全部或者部分內容、文字的真實性、完整性、及時性本站不作任何保證或承諾,并請自行核實相關內容。本站不承擔此類作品侵權行為的直接責任及連帶責任。如若本網有任何內容侵犯您的權益,請及時聯系我們,本站將會在24小時內處理完畢。