2018年知識輸出的計劃

最新 03-27

2018年已經過去四分之一了，在口號喊出來了快一個月的時間點上，先對今年知識輸出的內容做一個簡單的規劃。

這些文章的輸出是有著兩個目的：一是自己的整理與總結，二是希望能藉此幫助到有緣人。

Python機器學習

這個就不用多介紹了。

老實說，純理論方面的推導我也覺得有些困難，這個領域的壁壘可以很高，也可以很淺。之所以說它很淺，是因為前人都造好了輪子，我們只是享前人種下的樹蔭。所以我只是比調包俠強了一些。

所謂強了一些，是我的業務經驗能幫助我更好的去理解ML模型和特徵工程。我寫機器學習還有一個私心，就是希望靠輸出鞏固自己相關的知識點。

各位不會通過文章成為演算法專家，也很難單靠它就轉行成數據挖掘工程師。我能寫的，是給業務分析師劃分出一條職場通道，是為學生黨帶入門，是幫更多的運營和產品經理們熟悉數據挖掘和機器學習技術。

隨著Google和Microsoft的在線機器學習工具的普及，是機器學習會更加平民化。隨著自調參和自編碼技術的發展普及，技術的上手難度會越來越低，我相信早晚有一天，業務人員也能在數據平台上通過拖拽完成模型的建立。

Python爬蟲

去年Alpha Go帶領起來的大數據爆發，某乎上有著各種各樣的爬蟲項目介紹，這就算是個湊熱鬧的點吧。

不過爬蟲入門門檻並不高，如果有Python基礎，並且不考慮分散式爬蟲、反爬蟲對抗等技術，一周的時間足夠入門，鼓搗出一些好玩的東西。

具體涉及的內容會包括前端知識、urllib和requests的請求、beautifulsoup的網頁解析，到最後Scrapy框架的使用。以大家能順利抓取幾個目標網站為結果。

掌握爬蟲後，可以做兩件具有性價比的事。競品分析和數據項目，競品分析包括但不限於對手內容的copy、活躍數據的統計，在工作中幫大家從複製黏貼的重複勞動中抽身出來。

而數據項目是新人最好的練習題，很多人問，我想轉行數據分析應該怎麼做？各種軟硬性技能的鍛煉是一方面，但是你總歸要證明自己能夠勝任，那麼用爬蟲抓一波數據作為分析練習，並以項目的形式展現出來，絕對事半功倍。

成果總是最好的證明。

你想要投電商公司，那麼抓取它對標的競爭對手，可以分析一下對手有多少SKU？售賣情況？商品評論怎麼樣？隨著時間趨勢是上升還是下降？這比簡歷上的踏實肯干、認真努力、學習能力強等評語要靠譜多了。你是面試官，你會不會更傾心？

抓取項目我會盡量選擇有意義的，比如各種內容平台的評論。而這些數據也能用在用戶畫像、機器學習等文章上。

資料庫與數據倉庫

有了分析工具，然後也有了數據，於是就是到使用資料庫的時候了。

可能數據倉庫的概念大家有些陌生，通常我們使用JAVA、C++寫CRUB的時候只知道一個資料庫。大數據到來了，ETL在後端也火了起來，很多公司都是找不到有經驗的ETL或者是招不到靠譜的ETL，於是在轉型的過程中因為數據質量的問題而耽擱了。

了解到資料庫與數據倉庫的區別之後，在這基礎之上會談一談OLAP、BI還有數據可視化，大概率是紙上談兵，畢竟這裡沒有多少實際工作經驗。

最後

除去以上三個必談的主題之外，不出意外也會觸及到TensorFlow、NLP和Opencv，這些都是後話了。

回頭一看，除了爬蟲，其他每個系列都會十來篇往上，這都是深坑啊。

雖然感覺今年有可能寫不完，能寫多少就盡量寫吧。

先推薦兩個SQL教程（這個跟寫作計劃沒有關係）：SQLZOO有合適的教程，W3school也有。

還有Python教程，入門就看廖雪峰老師的課程吧，深入的就看書吧。

——不求多，只求精。

因為是個人發文，會在微信公眾號和簡書上同步更新。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 MineDataCraft 的精彩文章: