當前位置:
首頁 > 最新 > 2018年知識輸出的計劃

2018年知識輸出的計劃

2018年已經過去四分之一了,在口號喊出來了快一個月的時間點上,先對今年知識輸出的內容做一個簡單的規劃。

這些文章的輸出是有著兩個目的:一是自己的整理與總結,二是希望能藉此幫助到有緣人。

Python機器學習

這個就不用多介紹了。

老實說,純理論方面的推導我也覺得有些困難,這個領域的壁壘可以很高,也可以很淺。之所以說它很淺,是因為前人都造好了輪子,我們只是享前人種下的樹蔭。所以我只是比調包俠強了一些。

所謂強了一些,是我的業務經驗能幫助我更好的去理解ML模型和特徵工程。我寫機器學習還有一個私心,就是希望靠輸出鞏固自己相關的知識點。

各位不會通過文章成為演算法專家,也很難單靠它就轉行成數據挖掘工程師。我能寫的,是給業務分析師劃分出一條職場通道,是為學生黨帶入門,是幫更多的運營和產品經理們熟悉數據挖掘和機器學習技術。

隨著Google和Microsoft的在線機器學習工具的普及,是機器學習會更加平民化。隨著自調參和自編碼技術的發展普及,技術的上手難度會越來越低,我相信早晚有一天,業務人員也能在數據平台上通過拖拽完成模型的建立。

Python爬蟲

去年Alpha Go帶領起來的大數據爆發,某乎上有著各種各樣的爬蟲項目介紹,這就算是個湊熱鬧的點吧。

不過爬蟲入門門檻並不高,如果有Python基礎,並且不考慮分散式爬蟲、反爬蟲對抗等技術,一周的時間足夠入門,鼓搗出一些好玩的東西。

具體涉及的內容會包括前端知識、urllib和requests的請求、beautifulsoup的網頁解析,到最後Scrapy框架的使用。以大家能順利抓取幾個目標網站為結果。

掌握爬蟲後,可以做兩件具有性價比的事。競品分析和數據項目,競品分析包括但不限於對手內容的copy、活躍數據的統計,在工作中幫大家從複製黏貼的重複勞動中抽身出來。

而數據項目是新人最好的練習題,很多人問,我想轉行數據分析應該怎麼做?各種軟硬性技能的鍛煉是一方面,但是你總歸要證明自己能夠勝任,那麼用爬蟲抓一波數據作為分析練習,並以項目的形式展現出來,絕對事半功倍。

成果總是最好的證明。

你想要投電商公司,那麼抓取它對標的競爭對手,可以分析一下對手有多少SKU?售賣情況?商品評論怎麼樣?隨著時間趨勢是上升還是下降?這比簡歷上的踏實肯干、認真努力、學習能力強等評語要靠譜多了。你是面試官,你會不會更傾心?

抓取項目我會盡量選擇有意義的,比如各種內容平台的評論。而這些數據也能用在用戶畫像、機器學習等文章上。

資料庫與數據倉庫

有了分析工具,然後也有了數據,於是就是到使用資料庫的時候了。

可能數據倉庫的概念大家有些陌生,通常我們使用JAVA、C++寫CRUB的時候只知道一個資料庫。大數據到來了,ETL在後端也火了起來,很多公司都是找不到有經驗的ETL或者是招不到靠譜的ETL,於是在轉型的過程中因為數據質量的問題而耽擱了。

了解到資料庫與數據倉庫的區別之後,在這基礎之上會談一談OLAP、BI還有數據可視化,大概率是紙上談兵,畢竟這裡沒有多少實際工作經驗。

最後

除去以上三個必談的主題之外,不出意外也會觸及到TensorFlow、NLP和Opencv,這些都是後話了。

回頭一看,除了爬蟲,其他每個系列都會十來篇往上,這都是深坑啊。

雖然感覺今年有可能寫不完,能寫多少就盡量寫吧。

先推薦兩個SQL教程(這個跟寫作計劃沒有關係):SQLZOO有合適的教程,W3school也有。

還有Python教程,入門就看廖雪峰老師的課程吧,深入的就看書吧。

——不求多,只求精。

因為是個人發文,會在微信公眾號和簡書上同步更新。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 MineDataCraft 的精彩文章:

TAG:MineDataCraft |