數據分析師課|成為數據分析師很困難?告訴你2個處理數據集的不同數值
【摘要】在茫茫的數據發展長河中,人們慢慢掌握了數據處理的方法,其中重要的處理方法之一就是對數據的分析,所以出現了數據分析師這一處理數據的職業,有很多剛入職成為數據分析師的新人都會有數據分析的問題,今天就來講講處理數據集的不同數值的問題。
在對數據集是否正確的檢查中,最容易發現需要被處理的情況就是 空值和異常值 。空值出現在數據集中往往一眼便能識別;異常值則需要一定經驗性地判斷,例如:數值特別夸張、文本特別長、不匹配的數據類型。在后續步驟的數據認知中,對指標進行統計匯總、分布觀察等也能幫助識別異常值。
1、處理數據集的不同數值——空值處理
空值,如果在平時的匯總統計中可忽略則忽略,如果不可忽略則可采用以下方法來處理:
替換:使用平均值、眾數進行替換或者使用最接近的數據替換它,需要仔細對比尋找該行數據的其它值是否相近;
推斷:運用模型結合使用非空變量進行推斷、預測計算得到這個空值,如:時間序列、回歸模型等;
刪除:實在無法處理的空值,而且你已經確定它會影響到后續的計算、分析,那么你可以考慮將該行記錄刪除。如果不確定是否會影響,可考慮暫不處理。
2、處理數據集的不同數值——異常值處理
初步觀察尋找異常值:
在 Excel 中可以通過篩選功能或去除重復值對數據列進行觀察;
在 SQL 中可以通過 distinct 進行去重觀察;
在 Python 中,可以通過 pandas.drop_duplicates() 等方式進行去重觀察。
垃圾數據或者異常值能采取的處理手段較少,當數據記錄占比較大,我們首先應去尋找造成數據異常的原因,嘗試從源頭解決它;當數據記錄占比不多時,我們可以采取直接刪除的方式。
以上就是有關于處理數據集的不同數值的相關內容,以及相應的解析,不論你是已經入職數據分析師崗位的新人,還是打算進入數據分析崗位的小白,以上的內容都或多或少會對大家有所幫助,環球網校的小編在這里祝大家的數據分析師職業道路順利。
數據分析師相關文章推薦
|數據分析師最新文章推薦
- 數據科學家 level3 的考試分數占比
- 數據科學家 level3 的考試形式與試卷要求
- 大數據分析師LEVEL ll 復習大綱篇 | 第七章 大數據分析實戰
- 大數據分析師LEVEL ll 復習大綱篇 | 第六章 大數據分析之數據可視化方法
- 大數據分析師LEVEL ll 復習大綱篇 | 第五章 大數據分析之 Spark 工具及實戰(三)
- 大數據分析師LEVEL ll 復習大綱篇 | 第五章 大數據分析之 Spark 工具及實戰(二)
- 大數據分析師LEVEL ll 復習大綱篇 | 第五章 大數據分析之 Spark 工具及實戰(一)
- 大數據分析師LEVEL ll 復習大綱篇 | 第四章 大數據分析之數據挖掘理論基礎 
- 大數據分析師LEVEL ll 復習大綱篇 | 第三章 大數據分析之數據庫理論及工具(一)
- 大數據分析師LEVEL ll 復習大綱篇 | 第三章 大數據分析之數據庫理論及工具(一)


刷題看課 APP下載
免費直播 一鍵購課
代報名等人工服務
- 01 數據科學項目的步驟有哪些?這些步驟對數據分析師很重要
- 02 常見的獲取數據途徑有哪些?這些途徑才是數據分析師的路
- 03 有哪些常見的數據數學結構?這些數據分析師必須會的東西才是核心
- 04 云計算數據的四要素是什么?資深的數據分析師都在注意這些
- 05 干貨|7種常用數據分析方法,讓你輕松解決問題!
- 06 作為數據分析師,你竟然不知道數據分析四個步驟是什么
- 07 干貨|數據分析師的工作等級,看看你是哪一級
- 08 數據分析師行業|新公布的7個為預測分析做好準備的項目,這些內容你真的注意到了嗎
- 09 BI數據分析師是一個定位尷尬的崗位
- 10 數據的可視化趨勢有哪些?數據分析師最需要的趨勢變化在這里