當前位置: 首頁 > 數據分析師 > 數據分析師學習教程 > 數據分析師課|成為數據分析師很困難?告訴你2個處理數據集的不同數值

數據分析師課|成為數據分析師很困難?告訴你2個處理數據集的不同數值

發布時間:2020年03月27日 11:21:26 來源:環球網校 點擊量:

【摘要】在茫茫的數據發展長河中,人們慢慢掌握了數據處理的方法,其中重要的處理方法之一就是對數據的分析,所以出現了數據分析師這一處理數據的職業,有很多剛入職成為數據分析師的新人都會有數據分析的問題,今天就來講講處理數據集的不同數值的問題。

在對數據集是否正確的檢查中,最容易發現需要被處理的情況就是 空值和異常值 。空值出現在數據集中往往一眼便能識別;異常值則需要一定經驗性地判斷,例如:數值特別夸張、文本特別長、不匹配的數據類型。在后續步驟的數據認知中,對指標進行統計匯總、分布觀察等也能幫助識別異常值。

1、處理數據集的不同數值——空值處理

空值,如果在平時的匯總統計中可忽略則忽略,如果不可忽略則可采用以下方法來處理:

替換:使用平均值、眾數進行替換或者使用最接近的數據替換它,需要仔細對比尋找該行數據的其它值是否相近;

推斷:運用模型結合使用非空變量進行推斷、預測計算得到這個空值,如:時間序列、回歸模型等;

刪除:實在無法處理的空值,而且你已經確定它會影響到后續的計算、分析,那么你可以考慮將該行記錄刪除。如果不確定是否會影響,可考慮暫不處理。

2、處理數據集的不同數值——異常值處理

初步觀察尋找異常值:

在 Excel 中可以通過篩選功能或去除重復值對數據列進行觀察;

在 SQL 中可以通過 distinct 進行去重觀察;

在 Python 中,可以通過 pandas.drop_duplicates() 等方式進行去重觀察。

垃圾數據或者異常值能采取的處理手段較少,當數據記錄占比較大,我們首先應去尋找造成數據異常的原因,嘗試從源頭解決它;當數據記錄占比不多時,我們可以采取直接刪除的方式。

以上就是有關于處理數據集的不同數值的相關內容,以及相應的解析,不論你是已經入職數據分析師崗位的新人,還是打算進入數據分析崗位的小白,以上的內容都或多或少會對大家有所幫助,環球網校的小編在這里祝大家的數據分析師職業道路順利。

分享到: 編輯:吳晨輝

數據分析師相關文章推薦

|

數據分析師最新文章推薦

綁定手機號

應《中華人民共和國網絡安全法》加強實名認證機制要求,同時為更加全面的體驗產品服務,煩請您綁定手機號.

預約成功

本直播為付費學員的直播課節

請您購買課程后再預約

環球網校移動課堂APP 直播、聽課。職達未來!

安卓版

下載

iPhone版

下載
環球小過-環球網校官方微信服務平臺

刷題看課 APP下載

免費直播 一鍵購課

代報名等人工服務

返回頂部
波多野结衣高清无码中文字幕