當前位置:
首頁 > 科技 > 這15個有趣的數據集,你可能聞所未聞

這15個有趣的數據集,你可能聞所未聞

全文共1768字,預計學習時長3分鐘

數據科學Dojo在其存儲庫中添加了30個數據集,可供數據科學愛好者和AI愛好者免費使用,並根據不同的難度級別進行了分類。它們能夠增加使用者的知識儲備並實踐練習,以提高在各個領域的技能,比如探索性數據分析、數據可視化、數據整理和機器學習。

為方便起見,下面的數據集已按照增加的難度級別進行排序(初級、中級、高級)。建議你使用提供的不同數據集來測試自己。在每個數據集中還提出了一個具有挑戰性的問題,你可以隨意使用。

1. 通過物理測量判斷鮑魚的年齡

水平:初級

推薦使用:回歸模型

領域:生物

這個初級水平數據集有4,177行,9列關於鮑魚的物理測量值和環數(代表年齡)。鮑魚的年齡通常由枯燥且耗時的任務決定。因此,這些易於獲得的物理測量可用於預測年齡。

鏈接:https://code.datasciencedojo.com/datasciencedojo/datasets/tree/master/Abalone

2. 預測學生的知識水平

水平:初級

推薦使用:分類/聚合

領域:教育/網頁

該數據集有403行和6列。它是關於學生對於電氣直流電機知識的真實數據集。

鏈接:

https://code.datasciencedojo.com/datasciencedojo/datasets/tree/master/User Knowledge Modeling

3. 預測房價

水平:初級

推薦使用:回歸模型

領域:房地產

該數據集有414行7列與房屋的各種屬性相關,提供了從台灣新北市新店區收集的房地產估價的市場歷史數據。

鏈接:

https://code.datasciencedojo.com/datasciencedojo/datasets/tree/master/Real Estate Valuation

4. 從WIFI信號的強弱預測位置

水平:初級

推薦使用:分類模型

領域:移動/定位

這個初學者級數據集有2,000行和8列。該數據是從在室內空間收集的智能手機上的7個wifi設備觀察到的wifi信號強度,其可用於估計位置。

鏈接:

https://code.datasciencedojo.com/datasciencedojo/datasets/tree/master/Wireless Indoor Localization

5. 預測汽車的可接受性

水平:初級

推薦使用:分類模型

領域:汽車

該數據集有1,728行和7列,其中汽車屬性,如價格和技術,在6個變數中描述為「購買價格」,「維護」和「安全」等。每個變數下有多個替代品。汽車的可接受性是第七個屬性,屬於結果變數。

鏈接:

https://code.datasciencedojo.com/datasciencedojo/datasets/tree/master/Car Evaluation

6. 預測精子的質量

水平:初級

推薦使用:回歸/分類模型

領域:醫療/人壽

該數據集有10個屬性。它包括100名志願者的精液樣本,根據WHO 2010標準進行分析。它可用於確定是否可以在沒有實驗室方法的情況下進行診斷,其中包括很昂貴的測試。使用問卷調查可以輕鬆獲取該數據集中顯示的屬性以估計精子濃度。

鏈接:

https://code.datasciencedojo.com/datasciencedojo/datasets/tree/master/Fertility

7. 從專家的定性參數評估破產的可能性

水平:初級

推薦使用:分類模型

領域:金融/銀行

該數據集有250行和7列。它包含專家認為的6個定性參數,可用於預測破產。

鏈接:

https://blog.datasciencedojo.com/30-datasets-to-uplift-your-skills-in-data-science/

8. 預測汽車的燃油效率

水平:中級

推薦使用:回歸模型

領域:汽車

該數據集有398行,9列,並提供汽車的里程數、馬力、車產時間和其他技術規格。

鏈接:

https://code.datasciencedojo.com/datasciencedojo/datasets/tree/master/Auto MPG

9. 胸痛是否是心臟病的一個指標?

水平:中級

推薦使用:分類模型

領域:健康

該數據集提供了303名患有胸痛且可能患有心臟病的患者的健康檢查數據。 該數據集具有14個屬性,以確定被診斷患者是否患有心臟病。

鏈接:

https://code.datasciencedojo.com/datasciencedojo/datasets/tree/master/Heart Disease

10. 預測訂單總需求量

水平:中級

推薦使用:回歸模型

領域:商業

該中級水平的數據集具有60行和13列。這些數據是在60天內收集的,是巴西物流公司的真實資料庫。有12個預測屬性和一個目標,即每日的總訂單。

鏈接:

https://code.datasciencedojo.com/datasciencedojo/datasets/tree/master/Daily Demand Forecasting Orders

11. 預測捐贈者是否會在2007年3月獻血

水平:中級

推薦使用:分類模型

領域:商業

該數據集有748個實例和5個屬性。這些數據來自台灣新竹市的輸血服務中心捐獻者資料庫。該中心將他們的輸血服務巴士開往新竹市的一所大學,每三個月收集一次捐獻的血液。

鏈接:

https://code.datasciencedojo.com/datasciencedojo/datasets/tree/master/Blood Transfusion Service Center

12. 預測城市的污染水平

水平:中級水平

推薦使用:回歸模型

領域:環保

該數據集有43,424行和13列。它包含來自美國駐北京大使館的PM2.5數據。北京首都國際機場的氣象資料也包括在內。該數據集可用於使用提供的空氣質量屬性進行污染水平預測。它還能實現多變數時間序列預測。

鏈接:

https://code.datasciencedojo.com/datasciencedojo/datasets/tree/master/Beijing PM2.5

13. 心臟病發後能否活過一年

水平:中級

推薦使用:分類模型

領域:汽車

該數據集有132行和12列。可用於辨別患者是否會在心臟病發作後存活至少一年。數據集中列出的所有患者在過去的某些時候都遭受了心臟病發作。有些人還活著,有些則沒有。

鏈接:

https://code.datasciencedojo.com/datasciencedojo/datasets/tree/master/Echocardiogram

14. 評估混凝土的抗壓強度

水平:中級

推薦使用:回歸模型

領域:土木工程

這個集合有1,030行和9列。混凝土是土木工程中最重要的材料。混凝土抗壓強度是年齡和成分的高度非線性函數。在特定年限(以「天」為單位)下給定混合物的實際混凝土抗壓強度(MPa)由實驗室確定。

鏈接:

https://code.datasciencedojo.com/datasciencedojo/datasets/tree/master/Concrete Compressive Strength

15. 肝臟疾病與飲酒的關係

水平:中級

推薦使用:分類/回歸/聚類模型

領域:醫療

該數據集有345行和7列。該數據集不包含表示存在或不存在肝臟疾病的變數。前五列代表各種血液測試的結果,這些測試可用於診斷酒精相關的肝臟疾病。第六個代表受試者每天消耗的酒精飲料數量(自我報告)。

鏈接:

https://code.datasciencedojo.com/datasciencedojo/datasets/tree/master/Liver Disorders


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 讀芯術 的精彩文章:

使用Triplet Networks學習
區分抑鬱和自殺行為,機器學習是怎麼做到的?

TAG:讀芯術 |