不要擔心沒數據!史上最全數據集網站匯總
作者:蒙 康 來源:機器學習演算法工程師
編輯:祝鑫泉
前 言
如果用一個句子總結學習數據科學的本質,那就是:
學習數據科學的最佳方法就是應用數據科學。
如果你是一個初學者,你每完成一個新項目後自身能力都會有極大的提高,如果你是一個有經驗的數據科學專家,你已經知道這裡所蘊含的價值。
本文將為您提供一個網站/資源列表,從中你可以使用數據來完成你自己的數據項目,甚至創造你自己的產品。
一.如何使用這些資源?
如何使用這些數據源是沒有限制的,應用和使用只受到您的創造力和實際應用。使用它們最簡單的方法是進行數據項目並在網站上發布它們。這不僅能提高你的數據和可視化技能,還能改善你的結構化思維。另一方面,如果你正在考慮/處理基於數據的產品,這些數據集可以通過提供額外的/新的輸入數據來增加您的產品的功能。所以,繼續在這些項目上工作吧,與更大的世界分享它們,以展示你的數據能力!我們已經在不同的部分中劃分了這些數據源,以幫助你根據應用程序對數據源進行分類。我們從簡單、通用和易於處理數據集開始,然後轉向大型/行業相關數據集。然後,我們為特定的目的——文本挖掘、圖像分類、推薦引擎等提供數據集的鏈接。這將為您提供一個完整的數據資源列表。如果你能想到這些數據集的任何應用,或者知道我們漏掉了什麼流行的資源,請在下面的評論中與我們分享。(部分可能需要翻牆)
二.由簡單和通用的數據集開始
1.data.gov (https://www.data.gov/)
這是美國政府公開數據的所在地,該站點包含了超過19萬的數據點。這些數據集不同於氣候、教育、能源、金融和更多領域的數據。
2.data.gov.in (https://data.gov.in/)
這是印度政府公開數據的所在地,通過各種行業、氣候、醫療保健等來尋找數據,你可以在這裡找到一些靈感。根據你居住的國家的不同,你也可以從其他一些網站上瀏覽類似的網站。
世界銀行的開放數據。該平台提供 Open Data Catalog,世界發展指數,教育指數等幾個工具。
4.RBI (https://rbi.org.in/Scripts/Statistics.aspx)
印度儲備銀行提供的數據。這包括了貨幣市場操作、收支平衡、銀行使用和一些產品的幾個指標。
5.Five Thirty Eight Datasets (https://github.com/fivethirtyeight/data)
Five Thirty Eight,亦稱作 538,專註與民意調查分析,政治,經濟與體育的博客。該數據集為 Five Thirty Eight Datasets 使用的數據集。每個數據集包括數據,解釋數據的字典和Five Thirty Eight 文章的鏈接。如果你想學習如何創建數據故事,沒有比這個更好。
三.大型數據集
1.Amazon Web Services(AWS)datasets
(https://aws.amazon.com/cn/datasets/)
Amazon提供了一些大數據集,可以在他們的平台上使用,也可以在本地計算機上使用。您還可以通過EMR使用EC2和Hadoop來分析雲中的數據。在亞馬遜上流行的數據集包括完整的安然電子郵件數據集,Google Books n-gram,NASA NEX 數據集,百萬歌曲數據集等。
2.Google datasets
(https://cloud.google.com/bigquery/public-data/)
Google 提供了一些數據集作為其 Big Query 工具的一部分。包括 GitHub 公共資料庫的數據,Hacker News 的所有故事和評論。
3.Youtube labeled Video Dataset
(https://research.google.com/youtube8m/)
幾個月前,谷歌研究小組發布了YouTube上的「數據集」,它由800萬個YouTube視頻id和4800個視覺實體的相關標籤組成。它來自數十億幀的預先計算的,最先進的視覺特徵。
四.預測建模與機器學習數據集
1.UCI Machine Learning Repository
(https://archive.ics.uci.edu/ml/datasets.html)
UCI機器學習庫顯然是最著名的數據存儲庫。如果您正在尋找與機器學習存儲庫相關的數據集,通常是首選的地方。這些數據集包括了各種各樣的數據集,從像Iris和泰坦尼克這樣的流行數據集到最近的貢獻,比如空氣質量和GPS軌跡。存儲庫包含超過350個與域名類似的數據集(分類/回歸)。您可以使用這些過濾器來確定您需要的數據集。
2.Kaggle
(https://www.kaggle.com/datasets)
Kaggle提出了一個平台,人們可以貢獻數據集,其他社區成員可以投票並運行內核/腳本。他們總共有超過350個數據集——有超過200個特徵數據集。雖然一些最初的數據集通常出現在其他地方,但我在平台上看到了一些有趣的數據集,而不是在其他地方出現。與新的數據集一起,界面的另一個好處是,您可以在相同的界面上看到來自社區成員的腳本和問題。
3.Analytics Vidhya
(https://datahack.analyticsvidhya.com/contest/all/)
您可以從我們的實踐問題和黑客馬拉松問題中參與和下載數據集。問題數據集基於真實的行業問題,並且相對較小,因為它們意味著2 - 7天的黑客馬拉松。
4.Quandl
(https://www.quandl.com/)
Quandl 通過起網站、API 或一些工具的直接集成提供了不同來源的財務、經濟和替代數據。他們的數據集分為開放和付費。所有開放數據集為免費,但高級數據集需要付費。通過搜索仍然可以在平台上找到優質數據集。例如,來自印度的證券交易所數據是免費的。
KDD Cup 是 ACM Special Interest Group 組織的年度數據挖掘和知識發現競賽。
6.Driven Data
(https://www.drivendata.org/)
Driven Data 發現運用數據科學帶來積極社會影響的現實問題。然後,他們為數據科學家組織在線模擬競賽,從而開發出最好的模型來解決這些問題。
五.圖像分類數據集
1.The MNIST Database
(http://yann.lecun.com/exdb/mnist/)
最流行的圖像識別數據集,使用手寫數字。它包括6萬個示例和1萬個示例的測試集。這通常是第一個進行圖像識別的數據集。
2.Chars74K
(http://www.ee.surrey.ac.uk/CVSSP/demos/chars74k/)
這裡是下一階段的進化,如果你已經通過了手寫的數字。該數據集包括自然圖像中的字元識別。數據集包含74,000個圖像,因此數據集的名稱。
3.Frontal Face Images
(http://vasc.ri.cmu.edu//idb/html/face/frontal_images/index.html)
如果你已經完成了前兩個項目,並且能夠識別數字和字元,這是圖像識別中的下一個挑戰級別——正面人臉圖像。這些圖像是由CMU & MIT收集的,排列在四個文件夾中。
4.ImageNet
(//image-net.org/)
現在是時候構建一些通用的東西了。根據WordNet層次結構組織的圖像資料庫(目前僅為名詞)。層次結構的每個節點都由數百個圖像描述。目前,該集合平均每個節點有超過500個圖像(而且還在增加)。
六.文本分類數據集
1.Spam – Non Spam
(http://www.esp.uem.es/jmgomez/smsspamcorpus/)
區分簡訊是否為垃圾郵件是一個有趣的問題。你需要構建一個分類器將簡訊進行分類。
2.Twitter Sentiment Analysis
(http://thinknook.com/twitter-sentiment-analysis-training-corpus-dataset-2012-09-22/)
該數據集包含 1578627 個分類推文,每行被標記為1的積極情緒,0位負面情緒。數據依次基於 Kaggle 比賽和 Nick Sanders 的分析。
3.Movie Review Data
(http://www.cs.cornell.edu/People/pabo/movie-review-data/)
這個網站提供了一系列的電影評論文件,這些文件標註了他們的總體情緒極性(正面或負面)或主觀評價(例如,「兩個半明星」)和對其主觀性地位(主觀或客觀)或極性的標籤。
七.推薦引擎數據集
1.MovieLens
(https://grouplens.org/)
MovieLens 是一個幫助人們查找電影的網站。它有成千上萬的註冊用戶。他們進行自動內容推薦,推薦界面,基於標籤的推薦頁面等在線實驗。這些數據集可供下載,可用於創建自己的推薦系統。
2.Jester
(http://www.ieor.berkeley.edu/~goldberg/jester-data/)
在線笑話推薦系統。
八.各種來源的數據集網站
1.KDNuggets
(http://www.kdnuggets.com/datasets/index.html)
KDNuggets 的數據集頁面一直是人們搜索數據集的參考。列表全面,但是某些來源不再提供數據集。因此,需要謹慎選擇數據集和來源。
2.Awesome Public Datasets
(https://github.com/caesar0301/awesome-public-datasets)
一個GitHub存儲庫,它包含一個由域分類的完整的數據集列表。數據集被整齊地分類在不同的領域,這是非常有用的。但是,對於存儲庫本身的數據集沒有描述,這可能使它非常有用。
3.Reddit Datasets Subreddit
(https://www.reddit.com/r/datasets/)
由於這是一個社區驅動的論壇,它可能會遇到一些麻煩(與之前的兩個來源相比)。但是,您可以通過流行/投票來對數據集進行排序,以查看最流行的數據集。另外,它還有一些有趣的數據集和討論。
九.結尾的話
我們希望這一資源清單對於那些想項目的人來說是非常有用的。這絕對是一個金礦,好好加以利用吧!
文章來源:https://www.analyticsvidhya.com/blog/


※現代版「圍城」:互聯網大數據下的「洗腦」
※95後中國天才,發現石墨烯超能力!今年21歲的他,已是傳奇!
TAG:中國大數據 |