當前位置:
首頁 > 知識 > AWS 上可用的公用數據集,任何人都可以免費訪問

AWS 上可用的公用數據集,任何人都可以免費訪問

AWS 託管了各種公用數據集,且任何人都可以免費訪問。

過去,查找、下載、自定義和分析衛星圖像或基因組數據等大型數據集需要幾個小時或幾天的時間。當數據在 AWS 上公開提供後,任何人都可以分析任意數量的數據,而無需自行下載或存儲這些數據。您可以使用 AWS 計算和數據分析產品 (包括 Amazon EC2、Amazon Athena、AWS Lambda 和 Amazon EMR) 來分析這些數據集。


地理空間和環境數據集

在 AWS 上的地球頁面了解更多有關如何使用 AWS 上的地理空間數據的信息。

AWS 上的 Landsat:地球陸地衛星圖像集合,持續採集由 Landsat 8 衛星拍攝的衛星圖像。

http://amazonaws-china.com/public-data-sets/landsat/

AWS 上的 Sentinel-2:地球陸地衛星圖像集合,持續採集由 Sentinel-2 衛星拍攝的衛星圖像。

https://amazonaws-china.com/public-datasets/sentinel-2/

AWS 上的 GOES:GOES 可以持續提供北美的氣候影像並監控該地區的氣象和太空環境數據。

https://amazonaws-china.com/cn/public-datasets/goes/

AWS 上的 SpaceNet:包含商業衛星圖像和帶標籤的訓練數據的語料庫,用於促進計算機視覺演算法的創新發展。

http://amazonaws-china.com/public-data-sets/spacenet/

AWS 上的 OpenStreetMap:OSM 是一款免費的可編輯世界地圖服務,由志願者創建和維護。可定期在 Amazon S3 中對 OSM 數據進行存檔。

https://amazonaws-china.com/cn/public-datasets/osm/

AWS 上的 MODIS:從美國地質調查局和美國航空航天局管理的中等解析度成像光譜儀 (MODIS) 中選擇產品。

https://amazonaws-china.com/public-datasets/modis/

Terrain Tiles:一個全球數據集,提供裸地地形高度,平鋪顯示以便於使用,在 S3 上提供。

https://amazonaws-china.com/cn/public-datasets/terrain/

NAIP:在美國大陸農作物生長季節捕獲的 1 米航空圖像

https://amazonaws-china.com/cn/public-datasets/naip/

AWS 上的 NEXRAD:來自下一代氣象雷達 (NEXRAD) 網路的實時和存檔數據。

https://amazonaws-china.com/cn/public-datasets/nexrad/

NASA NEX:由美國航空航天局維護的地球科學數據集,包括氣候變化預測和地球表面的衛星圖像。

http://amazonaws-china.com/nasa/nex/

哥倫比亞特區激光雷達:華盛頓特區的激光雷達點雲數據。

https://amazonaws-china.com/public-datasets/dc-lidar/

EPA 風險篩選環境指標:從 EPA 風險篩選環境指標 (RSEI) 模型得出的詳細空氣模型結果。

https://amazonaws-china.com/public-datasets/epa-rsei/

HIRLAM 氣象模型:HIRLAM (高解析度有限區域模型) 是一個由芬蘭氣象研究所管理的實際天氣和中尺度氣象預測模型。

https://amazonaws-china.com/public-datasets/fmi-hirlam/


基因組和生命科學數據集

了解更多有關雲中基因組的信息。

1000 Genomes Project:人類遺傳變異詳圖。

https://amazonaws-china.com/1000genomes/

AWS 上的 TCGA:來自 The Cancer Genome Atlas (TCGA) 的原有的及處理過的基因組、轉錄組和表觀基因組數據,可供符合條件的研究人員通過癌症基因組雲進行訪問。

http://amazonaws-china.com/public-data-sets/tcga/

AWS 上的 ICGC:完整的基因組序列數據,可供符合條件的研究人員通過國際癌症基因組聯盟 (ICGC) 訪問。

http://amazonaws-china.com/public-data-sets/icgc/

3000 Rice Genome on AWS:3024 種大米的基因排序。

https://amazonaws-china.com/public-data-sets/3000-rice-genome/

Genome in a Bottle (GIAB):有助於將整個人類基因組序列投入醫學實踐的某些參考基因組。

https://amazonaws-china.com/cn/public-datasets/giab/


機器學習數據集

了解更多有關 AWS 上人工智慧和機器學習的信息。

Common Crawl:包含超過 50 億網頁的 Web 爬取數據語料庫。

https://amazonaws-china.com/public-data-sets/common-crawl/

Amazon Bin Image Dataset:擁有超過 500000 個 bin JPEG 圖像和對應的 JSON 元數據文件,描述了正在運營的亞馬遜運營中心中的產品。

https://amazonaws-china.com/public-datasets/amazon-bin-images/

GDELT:超過 2.5 億條記錄,可從幾乎每個國家/地區的每個角落監控全球的廣播、出版物和 Web 新聞,每天更新。

https://amazonaws-china.com/public-datasets/gdelt/

Multimedia Commons:約 100M 的圖像和視頻的集合,附帶影音功能和注釋。

http://amazonaws-china.com/public-data-sets/multimedia-commons/

Google Books Ngrams:包含 Google Books 的 n-gram 語料庫的數據集。

https://amazonaws-china.com/datasets/google-books-ngrams/

AWS 上的 SpaceNet:包含商業衛星圖像和帶標籤的訓練數據的語料庫,用於促進計算機視覺演算法的創新發展。

http://amazonaws-china.com/public-data-sets/spacenet/


金融數據

Deutsche B?rse 公開數據集:來自 Deutsche B?rse 市場交易系統的實時數據,免費向公眾提供。

https://amazonaws-china.com/public-datasets/deutsche-boerse-pds/


監管和統計數據

AWS 上的 IRS 990 Filings:從 2011 年至今提交 IRS 的部分 990 電子報表中可以由計算機讀取的數據。

https://amazonaws-china.com/public-datasets/irs-990/

AWS 上的 ACS PUMS:使用資源描述框架 (RDF) 數據模型以鏈接數據格式提供美國人口普查美國社區調查 (ACS) 公用微數據樣本 (PUMS)。

https://amazonaws-china.com/public-datasets/us-census-acs/

AWS 上的 USAspending.gov:USAspending.gov 資料庫包含聯邦政府的所有開支數據,包括合同、津貼、貸款、員工薪資等。

http://amazonaws-china.com/public-datasets/usaspending

算機視覺基礎(從演算法到實戰應用)班

限時拼團,最後一周

已有100+人參加了此拼團

最高每人優惠200元!

新人福利

關注 AI 研習社(okweiwu),回復1領取

【超過 1000G 神經網路 / AI / 大數據資料】

亞馬遜 Alexa Prize 比賽冠軍團隊專訪:聊天機器人的突破與創新

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 AI研習社 的精彩文章:

傳統演算法和深度學習的結合和實踐,解讀與優化 deepfake
比 TensorFlow 雲快 46 倍!IBM用Snap ML和Tesla V100 秀肌肉

TAG:AI研習社 |