當前位置: 首頁 > 數據分析師 > 數據分析師學習教程 > 數據分析師課|成為數據分析師很困難?告訴你3個數據的質量檢查方法

數據分析師課|成為數據分析師很困難?告訴你3個數據的質量檢查方法

發布時間:2020年03月27日 10:55:17 來源:環球網校 點擊量:

【摘要】在茫茫的數據發展長河中,人們慢慢掌握了數據處理的方法,其中重要的處理方法之一就是對數據的分析,所以出現了數據分析師這一處理數據的職業,有很多剛入職成為數據分析師的新人都會有數據分析的問題,今天就來講講數據的質量檢查方法的問題。

一、數據的質量檢查方法——關注不同數據源在統計質量上的差異

不同的數據來源,因統計、管控、可共享程度等原因在數據粒度和數據質量的保障上都有天壤之別。根據數據來源的渠道主要可將它劃分為:內部數據和外部數據,下面逐個介紹它們之間的特點和差異。

1. 內部數據源

業務數據:主要指后端研發主動存儲的業務數據,一般是對公司運營非常核心的數據,如訂單數據、用戶信息等。這類數據的準確性一般是最高的,因為它往往關系到公司產品能否正常運轉,統計的正確性也就至關重要;

埋點數據:通過埋點技術采集的用戶訪問數據,不論是自建埋點還是采用第三方埋點工具,因為埋點實施、統計上傳機制等,都會造成埋點數據的準確性遠不如業務數據;

數據倉庫的數據:數據倉庫數據它是由生產庫數據經過一輪或者多輪次的數據轉換,中間可能發生的異常情況比生產庫的數據更多。諸如:無人維護、轉換邏輯與理解不一致等。

對于業務數據、埋點數據、數據倉庫數據三種類型的數據源我們檢查的側重點有所不同:

業務數據:業務數據的復雜度主要在于字段含義、表之間關聯關系以及字段與業務的實際對應關系,主要檢查的也是這三點;

埋點數據:埋點數據主要需要檢查埋點是否與你所期望的業務事件匹配,包括埋點采集的是頁面訪問還是按鈕點擊、埋點采集時機等;

數據倉庫數據:主要了解其中業務指標統計邏輯、計算轉換邏輯、腳本更新機制等。

2. 外部數據源

用戶調研數據:通過市場調研得到用戶反饋數據,存在的風險主要在于市場調研人員的敷衍執行自行捏造數據以及被調研對象自身對自身判斷的錯誤;

行業發展數據:通過百度指數、微信指數、阿里指數或者其它行業觀察機構統計的數據來觀察行業發展情況的數據;

合作方數據:合作方提供的數據,不同公司之間在指標定義和統計規范上都可能有明顯差異,需要重點關注。此外,兩家公司之間的用戶匹配也是一大難點,需要被重點關注。

外部數據源的數據粒度一般較粗糙,數據質量上也比較難以保證,需要做更多的觀察和驗證。我們可實施的檢查措施也相對較少,只能在使用保持更高的警惕性,慎之又慎才能更多地規避錯誤。

二、數據的質量檢查方法——關注取數過程,檢查取數代碼

我們通過各種方法獲取數據,SQL 查詢是數據類工作人員最常見的取數方式。SQL 語句的出錯將導致得到的數據集出錯,以下是進行 SQL 檢查時需要被重點關注的點:

關注 join 處理的邏輯關系,包括采用的 SQL 連接方式 inner、left 還是 outer、兩張表之間數據對應關系是 1:1、1:n 還是n:m 等;

關注 SQL 細節,包括是否采用 distinct 去重、采用 case 語句劃分類別時的分類區間邊界、group by 進行數據聚合的指標粒度是否正確;

多版本代碼檢查時關注選擇條件,對于 SQL 復用的場景,我們要重點關注數據選擇條件的更新替換是否完全;

聚合處理時,最好結合 if 條件排除極端值、異常值。

三、數據的質量檢查方法——關注處理數據集的空值和異常值

在對數據集是否正確的檢查中,最容易發現需要被處理的情況就是 空值和異常值 。空值出現在數據集中往往一眼便能識別;異常值則需要一定經驗性地判斷,例如:數值特別夸張、文本特別長、不匹配的數據類型。在后續步驟的數據認知中,對指標進行統計匯總、分布觀察等也能幫助識別異常值。

1. 空值處理

空值,如果在平時的匯總統計中可忽略則忽略,如果不可忽略則可采用以下方法來處理:

替換:使用平均值、眾數進行替換或者使用最接近的數據替換它,需要仔細對比尋找該行數據的其它值是否相近;

推斷:運用模型結合使用非空變量進行推斷、預測計算得到這個空值,如:時間序列、回歸模型等;

刪除:實在無法處理的空值,而且你已經確定它會影響到后續的計算、分析,那么你可以考慮將該行記錄刪除。如果不確定是否會影響,可考慮暫不處理。

2. 異常值處理

初步觀察尋找異常值:

在 Excel 中可以通過篩選功能或去除重復值對數據列進行觀察;

在 SQL 中可以通過 distinct 進行去重觀察;

在 Python 中,可以通過 pandas.drop_duplicates() 等方式進行去重觀察。

垃圾數據或者異常值能采取的處理手段較少,當數據記錄占比較大,我們首先應去尋找造成數據異常的原因,嘗試從源頭解決它;當數據記錄占比不多時,我們可以采取直接刪除的方式。

以上就是有關于數據的質量檢查方法的相關內容,以及相應的解析,不論你是已經入職數據分析師崗位的新人,還是打算進入數據分析崗位的小白,以上的內容都或多或少會對大家有所幫助,環球網校的小編在這里祝大家的數據分析師職業道路順利。

分享到: 編輯:吳晨輝

數據分析師相關文章推薦

|

數據分析師最新文章推薦

綁定手機號

應《中華人民共和國網絡安全法》加強實名認證機制要求,同時為更加全面的體驗產品服務,煩請您綁定手機號.

預約成功

本直播為付費學員的直播課節

請您購買課程后再預約

環球網校移動課堂APP 直播、聽課。職達未來!

安卓版

下載

iPhone版

下載
環球小過-環球網校官方微信服務平臺

刷題看課 APP下載

免費直播 一鍵購課

代報名等人工服務

返回頂部
波多野结衣高清无码中文字幕