當前位置: 首頁 > 數據分析師 > 數據分析師學習教程 > 數據分析師課|成為數據科學家一點都不難?告訴你7個數據科學閉環體系步驟

數據分析師課|成為數據科學家一點都不難?告訴你7個數據科學閉環體系步驟

發布時間:2020年03月27日 10:17:49 來源:環球網校 點擊量:

【摘要】在茫茫的數據發展長河中,人們慢慢掌握了數據處理的方法,其中重要的處理方法之一就是對數據的分析,所以出現了數據分析師這一處理數據的職業,有很多剛入職成為數據分析師的新人都會有數據分析的問題,今天就來講講數據科學閉環體系步驟的問題。

數據科學閉環體系步驟1——問題定義

根據我的經驗,80%以上的數據科學項目失敗在問題定義這個環節。我經常看到,客戶的問題是,“我有這么多數據,到底能怎么用?”、“這個業務問題數據模型能發揮作用嗎,還是靠人去解決更有效?”真正需要回答這些問題的數據科學家,需要具備抽象的能力,將那些看似零散的業務問題抽象為通用的數據科學問題。回答這些問題的數據科學家,還需要具備出色的溝通能力,能將復雜晦澀的機器邏輯轉化為簡單、清晰的通俗邏輯。

以銀行風控業務為例,不同的業務場景往往對風控模型的需求是截然不同的。對于大客戶信貸審批,數據模型沒有實際作用,因為大客戶審批的工作量完全可以由業務人員來承擔,并且大額審批一定是靠人決策。即使一個富翁請了10個保姆去打理花園和廚房,也仍會讓自己老婆去管理房產證。但是,在小微商戶的信貸業務的貸后管理中,數據模型便可以發揮舉足輕重的作用,銀行沒有大量人力去在貸后的每一個月都去派業務人員進行大量企業的貸后風險管理。

而在公安大數據應用中,數據模型的可解釋性遠大于預測的準確性。你不能因為安全模型給本拉登打分為99分就將他槍斃,總需要一些客觀的根據(數據)。公安數據模型最大價值就是從大量原始數據中縮小范圍,提供可解釋的關鍵數據。這些關鍵數據,正是公安中的證據。

數據科學閉環體系步驟2——數據準備

巧婦難為無米之炊。數據科學家需要非常關注數據源,而不是別人加工后的數據。只有通過原始數據的復雜加工處理,數據科學家才能獲得真正有價值的信息。

在電商網站中,成交量最多的關鍵字商品往往沒有什么特別價值,但是,一個關鍵字商品如果在最近幾天擁有大量瀏覽卻很少被購買,才正是說明了這里有市場需求未被滿足這一關鍵信息。一個貸款客戶最近半年交易流水數據的匯總信息往往意義不大,而是變化趨勢和支出/收入比例有更大信息價值。一部電影是否符合你的胃口,不僅取決于你長期的興趣,更取決于你最近的經歷變化。

有經驗的數據科學家可以憑借業務經驗、直覺和邏輯推理提煉出大量具有預測意義的“數據特征”,同時可以將數據特征的抽取方式總結成一套算法體系,讓計算機系統去自動提取特征。數據科學家負責設計特征抽取機制,借助經驗與算法的協作,來不斷豐富原始數據到關鍵數據的提煉機制。

數據科學閉環體系步驟3——算法調優

機器學習學術領域每天都有大量的算法被發明出來,然而大部分發明在實踐中是沒用的。學者坐在自己的辦公室里,守著那些有限的公開數據不斷調試算法,直到那些小小的可愛的公開數據向煉丹手屈服。有句話說的好,“Notoriously torture the data until it confessed”,不斷給數據上刑直到它屈服。許多算法無法應用,主要因為沒在真實數據中練兵。真實的數據往往極其復雜,需要簡單強壯的算法去征服它們。

所謂好算法,就是不浪費數據。能最大化數據價值的算法,是基于不同數據結構而發揮數據價值的。換句話說,不同的數據結構和不同的算法確實存在匹配關系,沒有最好的算法,只有最適合的算法。例如,決策樹算法效率非常高,也易于解釋,但卻不適合在高維度數據中做建模。而即使預測能力非常強的GBDT算法,在文本挖掘中也難顯示其威力。

最近興起的深度學習算法,也并不是萬能鑰匙。深度學習技術可以讓特征工程自動化,于是數據科學家再不用花大量時間去抽取特征。然而,深度學習算法一般都有許許多多參數。于是乎,深度學習算法表示,呵呵,我們不過是把你們用來抽特征的時間,拿來調參數了。(這只是個玩笑,你懂得。)

數據科學閉環體系步驟4——知識發現

知識發現是所有數據科學步驟中最關鍵也最容易被忽略的一個環節。所謂知識發現,是以最簡單的方式呈獻給數據專家以外的普通人,數據中有什么規律或細節可以影響我的決策。

《大數據時代》作者告訴我們,大數據的最大價值就是預測。然而,未來真的可以預測嗎?

許多人以為香港有名的風水大師可以未卜先知。如果你問他們預測風水的秘訣是什么?如果他們肯對你敞開心扉,他們會說,且只說一條——“我有許多房產中介的朋友”。

美國知名手機價格預測公司Decide.com最終被eBay高價收購。如果你問他們,價格預測的秘訣是什么?它們會告訴你,預測錯了,我們為消費者提供包銷服務。Decide.com的數據科學家也許會告訴你,有時候他們要故意把算法調笨一些,因為預測錯了,消費者買得會更多。這讓許多團購網站的營銷負責人都去向Decide.com投了簡歷。

在我看來,大數據的價值不是預測,是發現——發現那些宏觀的規律讓人獲取新的洞見,發現那些微觀的細節便于快速決策。在人最關注的問題上,人很難放手交給機器去做決策,人更希望機器是重大決策的輔助者。

1 2

分享到: 編輯:吳晨輝

數據分析師相關文章推薦

|

數據分析師最新文章推薦

綁定手機號

應《中華人民共和國網絡安全法》加強實名認證機制要求,同時為更加全面的體驗產品服務,煩請您綁定手機號.

預約成功

本直播為付費學員的直播課節

請您購買課程后再預約

環球網校移動課堂APP 直播、聽課。職達未來!

安卓版

下載

iPhone版

下載
環球小過-環球網校官方微信服務平臺

刷題看課 APP下載

免費直播 一鍵購課

代報名等人工服務

返回頂部
波多野结衣高清无码中文字幕