科技改變生活 · 科技引領(lǐng)未來
機器學(xué)習(xí)中最重要的是數(shù)據(jù)集。哪里可以找到最好的機器學(xué)習(xí)數(shù)據(jù)集?我把我10年來壓箱底的東西都拿出來了,不看絕對后悔!!!在機器學(xué)習(xí)的過程中,優(yōu)秀的數(shù)據(jù)集能夠幫助我們應(yīng)用不同的算法模型,從而讓我們快速成長。但在自學(xué)機器學(xué)習(xí)的過程中,由于生活中很
機器學(xué)習(xí)中最重要的是數(shù)據(jù)集。哪里可以找到最好的機器學(xué)習(xí)數(shù)據(jù)集?我把我10年來壓箱底的東西都拿出來了,不看絕對后悔!!!
在機器學(xué)習(xí)的過程中,優(yōu)秀的數(shù)據(jù)集能夠幫助我們應(yīng)用不同的算法模型,從而讓我們快速成長。但在自學(xué)機器學(xué)習(xí)的過程中,由于生活中很難找到標(biāo)準(zhǔn)的測試數(shù)據(jù)集,學(xué)習(xí)者往往很難保持長久的積極性,從而影響學(xué)習(xí)進度。
但是這些又不能阻礙我們學(xué)習(xí)進步,那怎么辦?
今天給大家推薦3種解決方式:
先給大家看看我的主頁,里面有我日常在數(shù)據(jù)分析機器教學(xué)中使用過的導(dǎo)航網(wǎng)站。
普通人身邊的機器學(xué)習(xí)數(shù)據(jù)
其實在我們?nèi)粘I詈凸ぷ髦校瑹o時不刻不在產(chǎn)生數(shù)據(jù),但我們往往都忽略了它,有很多平臺利用這一點薅了我們的羊毛。對于我們個人來說,采集這些信息去進行機器建模學(xué)習(xí)效果并不是很好,所以我們還需要借助更廣闊的互聯(lián)網(wǎng)資源。
優(yōu)秀的通用機器學(xué)習(xí)數(shù)據(jù)集成平臺
數(shù)據(jù)集聚合平臺收集了數(shù)千個數(shù)據(jù)集合。國內(nèi)有很多這種平臺,比如 阿里天池、DC競賽、DF競賽等等,但是這些平臺對新手不是很友好,一方面是因為專業(yè)性比較強(很多新手不懂業(yè)務(wù)邏輯,沒有辦法做數(shù)據(jù)預(yù)處理 很多業(yè)務(wù)邏輯都不懂根本沒法做數(shù)據(jù)預(yù)處理),另一方面是因為個人感覺這些平臺在用一些低廉的獎金來騙方案、模型以及業(yè)務(wù)邏輯,這部分就不多解釋了。
對于初學(xué)者來說掌握科學(xué)上網(wǎng)是必備的,因為機器學(xué)習(xí)的內(nèi)容最早都來源于歐美,對于這些內(nèi)容的理解、對數(shù)據(jù)的應(yīng)用相較于國內(nèi)更成熟,同樣國內(nèi)很多論文也是在國外內(nèi)容的基礎(chǔ)上衍生出來的。
同時還要知道的是,對數(shù)據(jù)要求比較嚴格的是數(shù)據(jù)標(biāo)注,但國內(nèi)暫時還沒有一個平臺能夠完整提供這些領(lǐng)域的內(nèi)容,而且還有很多山寨的是聚合數(shù)據(jù)平臺,因為太多了就不一一列舉了。這些平臺基本上從國外網(wǎng)站、或者各種同行之間互相搬,沒有實際意義,而且有很多數(shù)據(jù)是殘缺的,完全就是在收智商稅。既然我們要學(xué)習(xí),那不如直接找到國外的原始根源數(shù)據(jù)集進行練手,避免被收智商稅。
而且你會發(fā)現(xiàn)很多很多在線的機器學(xué)習(xí)相關(guān)課程的數(shù)據(jù)集都不會脫離下面這些平臺。
整理不易,建議點贊收藏。
PS:如果打不開的話需要科學(xué)上網(wǎng)喲
既然要做這塊那我們不如直接找到國外的原始根源數(shù)據(jù)集進行練手,避免被收智商稅。
整理不容易,請收藏。所有網(wǎng)站打不開的都需要科學(xué)上網(wǎng)。
kaggle
Kaggle: Your Machine Learning and Data Science Community 是一個社區(qū)驅(qū)動的機器學(xué)習(xí)平臺,每天都有無數(shù)愛好者在平臺更新,是截至目前更新最頻繁的數(shù)據(jù)聚合集成平臺。是一個共有工具和資源的數(shù)學(xué)科學(xué)社區(qū),其中包括了各種外部貢獻的機器學(xué)習(xí)數(shù)據(jù)集,從健康到運動,再到食物、旅行、教育等等。
對于我們而言,平臺內(nèi)有大量教程科學(xué)系,覆蓋了數(shù)百個不同的現(xiàn)實ML問題。雖然說數(shù)據(jù)質(zhì)量參差不齊,但是所有數(shù)據(jù)都是免費的,而且還可以上傳自己數(shù)據(jù)集。
整體來看,kaggle訓(xùn)練數(shù)據(jù)的最佳場所之一,同時也是是擁有最大的在線數(shù)據(jù)集庫之一。
Google Dataset Search
Google Dataset Search 谷歌數(shù)據(jù)集搜索來自Google 的搜索引擎,擁有超過2500萬個數(shù)據(jù)集,工作原理類似于Google Scholar。可以幫助我們查找免費提供的在線數(shù)據(jù),在這里能夠找到經(jīng)濟、金融數(shù)據(jù),還有由WHO、Statista或哈佛等組織上傳的數(shù)據(jù)集。
Registry of Open Data on AWS
可以借助 Registry of Open Data on AWS 來自于亞馬遜,使用時可根據(jù)需求找到的數(shù)據(jù)進行研究。在數(shù)據(jù)庫創(chuàng)建者中會發(fā)現(xiàn) Facebook Data for Good、NASA Space Act Agreement 和 Space Telescope Science Institute。
Microsoft Azure Public Datasets
Public data sets for Azure analytics - Azure SQL公共數(shù)據(jù)集為應(yīng)用程序開發(fā)人員和研究人員定期更新數(shù)據(jù)庫。包含 Microsoft 收集的有關(guān)其用戶的美國政府?dāng)?shù)據(jù)、其他統(tǒng)計和科學(xué)數(shù)據(jù)以及在線服務(wù)信息。此外 Azure 提供了一系列工具,可幫助創(chuàng)建自己的云數(shù)據(jù)庫,將 SQL 工作負載遷移到 Azure,同時保持完整的 SQL Server 兼容性,以及構(gòu)建數(shù)據(jù)驅(qū)動的移動和 Web 應(yīng)用程序。
r/datasets
r/datasets 是一個集分享、查找和討論數(shù)據(jù)集的社區(qū),有點像帶有專業(yè)屬性類型的論壇。在這里所有人都可以發(fā)布自己的開源數(shù)據(jù)庫,有的時候還能得到意想不到的數(shù)據(jù)集,可以用它嘗試去做一些模型來學(xué)習(xí)。
CMU Libraries
Databases A-Z 是卡耐基梅隆大學(xué)自有的公共數(shù)據(jù)集集合,提供了很多其他聚合器沒有的美國文化、音樂、歷史方面的數(shù)據(jù)庫,學(xué)習(xí)者可以將其用于自己的研究。
UCI Machine Learning Repository
UCI Machine Learning Repository 可以說這個平臺以一己之力養(yǎng)活了國內(nèi)許多山寨平臺,國內(nèi)有很多山寨數(shù)據(jù)聚合平臺都是從這個平臺搬運內(nèi)容。這個平臺提供了507個數(shù)據(jù)集,包括了銀行營銷、汽車評估、肺癌診斷等主題。
除了一些山寨數(shù)據(jù)平臺,還有很多開發(fā)機器學(xué)習(xí)課程的數(shù)據(jù)也是從這里搬走的,比如傳說中的波士頓房價預(yù)測。
Awesome Public Datasets on Github
Awesome Public Datasets on Github 相對小眾,其實它是一個非常好的開源合集,里面有按行業(yè)劃分的在線可用的最佳數(shù)據(jù)集,有很多人都不知道這個數(shù)據(jù)集,因為在git上只知道搬運代碼。
Data World
Data World 與 Google 數(shù)據(jù)集搜索引擎非常相似,但是知道的人沒那么多,很少被提到。這個數(shù)據(jù)平臺的特點是,不同于其他平臺,Data World除了能夠顯示數(shù)據(jù)集本身的內(nèi)容以外,還顯示包含數(shù)據(jù)的子文件數(shù)據(jù),這個功能在查詢?nèi)丝诮y(tǒng)計或是地理位置信息上的優(yōu)勢就非常明顯了。
CERN Open Data Portal
CERN Open Data Portal 是日內(nèi)瓦的歐洲核研究組織的開放數(shù)據(jù)門戶。歐洲核研究組織是歐洲最負盛名的研究機構(gòu)之一,他們的粒子碰撞數(shù)據(jù)在全球無人能及。同樣,他們的開放數(shù)據(jù)門口也非常吸引人,收集并提供了超過 2 PB 的包含(粒子物理學(xué))的數(shù)據(jù),但對我們普通人來說,或許用不到這些內(nèi)容。
Lionbridge AI Datasets
Lionbridge AI Datasets 是一家提供數(shù)據(jù)收集、注釋和驗證服務(wù)的公司。這個平臺的數(shù)據(jù)集很全面,除了自定義標(biāo)簽環(huán)境外,我們?nèi)粘8信d趣的各種數(shù)據(jù)集都能找到。
EU Open Data Portal
data.europa.eu 是歐盟機構(gòu)和其他實體發(fā)布的公共數(shù)據(jù)的訪問點,包括了與經(jīng)濟、農(nóng)業(yè)、教育、就業(yè)、氣候、金融、科學(xué)等相關(guān)的數(shù)據(jù)。整體而言類型很多,但是其數(shù)據(jù)均來源于歐盟。
Datahub
Datahub 是 Datopian 和 Open Knowledge International 的一個項目,其目的是為數(shù)據(jù)創(chuàng)建工具和應(yīng)用程序。構(gòu)建的 CKAN 是世界領(lǐng)先的數(shù)據(jù)門戶平臺。是一個發(fā)現(xiàn)和分享高質(zhì)量數(shù)據(jù)集、與他人聯(lián)系和分享知識的社區(qū)。
那么以上差不多就是冷門熱門,比較齊全的數(shù)據(jù)集了,畢竟名氣大,用途廣的也就那么幾個;而且做數(shù)據(jù)分析久了以后會發(fā)現(xiàn)很多數(shù)據(jù)都是相同或是有相似地方的。
接下來按照不同類別說明一些優(yōu)秀的垂直領(lǐng)域的數(shù)據(jù)集。
機器學(xué)習(xí)和數(shù)據(jù)科學(xué)的最佳公共數(shù)據(jù)集
計算機視覺的圖像數(shù)據(jù)集(20)
現(xiàn)在有很多機器學(xué)習(xí)的項目理念和實驗室研究項目正是基于訓(xùn)練視覺數(shù)據(jù)的。計算機視覺能夠?qū)D像或視頻數(shù)據(jù)集用于圖像采集、圖像分類、圖像分析和語義分割等,對此進行一系列計算視覺任務(wù),在醫(yī)學(xué)成像、汽車自動駕駛、面部識別等領(lǐng)域都有運用。
只有大量且高質(zhì)量的訓(xùn)練數(shù)據(jù),才能為計算機視覺構(gòu)建強大的機器學(xué)習(xí)、深度學(xué)習(xí)模型。
1.Open Images V6 (谷歌的開放圖像數(shù)據(jù)集)
Open Images V6 儲存量非常多,已經(jīng)超過了900萬,包括了對象邊界框、對象分割和標(biāo)簽。它非常多樣化,不僅包含復(fù)雜樣本,并且每張圖像還包括多個對象。
2.VisualData(視覺數(shù)據(jù))
VisualData 是計算機視覺數(shù)據(jù)集的聚合器,學(xué)習(xí)者可以在其中找到用于機器學(xué)習(xí)的醫(yī)學(xué)數(shù)據(jù)集、圖像數(shù)據(jù)集和其他用于商業(yè)、教育和其他類型 ML 研究的機器學(xué)習(xí)數(shù)據(jù)樣本。
3.xView
xView 是最大的公開可用的高空圖像存儲之一,其中一個龐大的高空圖像公共數(shù)據(jù)集包含超過 100 萬張對象圖像,其中包含來自世界各地復(fù)雜場景的 60 個類別,并使用邊界框進行注釋。
4.Kinetics-700
Kinetics 內(nèi)包含高質(zhì)量的大規(guī)模深度學(xué)習(xí)數(shù)據(jù)集,包括了人與對象和人與人交互的視頻剪輯,非常適合訓(xùn)練人類動作識別模型。一個大型、高質(zhì)量的 URL 視頻數(shù)據(jù)集,會鏈接到大約 650000 個 Youtube 視頻剪輯,涵蓋 700 個人類行為類別。這些視頻包括人與物體的互動,以及人與人的互動。
5.ImageNet(圖片網(wǎng)絡(luò))
ImageNet 是計算機視覺中最受歡迎和最大的數(shù)據(jù)集之一,是根據(jù) WordNet 層次結(jié)構(gòu)組織的,主要用于深度計算機視覺的圖像。它目前在 1000 個類別中擁有 1281167 張用于訓(xùn)練的圖像和 50000 張用于驗證的圖像。
6.Visual QA(視覺問答)
Visual QA 包含關(guān)于超過 265016 張圖像的開放式問題,可用于更好地理解計算機視覺建模和語言處理。一個包含關(guān)于圖像的開放式問題的新數(shù)據(jù)集包括 265016 張圖像,每張圖像至少三個問題,每個問題十個答案。
7.MNIST
MNIST 數(shù)據(jù)庫是手寫數(shù)字識別的樣本集合,其中有一個包含 60000 多個示例的訓(xùn)練集以及一個 10000 個的測試集,它也是最早我們進行機器學(xué)習(xí)入門常用的一個數(shù)據(jù)集。在網(wǎng)站上還將找到一個表格,該表格比較了應(yīng)用于該數(shù)據(jù)集的不同類型分類器的有效性,對于初學(xué)者非常友好。
8.CIFAR-10
CIFAR-10 是用于訓(xùn)練深度學(xué)習(xí)計算機視覺算法的圖像集合。該數(shù)據(jù)庫由 10 類 60000 張 32x32 彩色圖像組成,每類有 6000 張圖像。
9.COCO
COCO 是一個定期更新的數(shù)據(jù)庫,用于在上下文中進行對象分割和識別,由 Microsoft、Facebook 和 Mighty AI 贊助。大規(guī)模對象檢測、分割、關(guān)鍵點檢測和字幕開源數(shù)據(jù)集,包含超過 200,000 個標(biāo)記圖像。
10.Labeled Faces in the Wild(標(biāo)記的面孔)
Labeled Faces in the Wild 是用于訓(xùn)練和測試人臉識別模型的數(shù)據(jù)集。一個包含 13000 張面部照片的高質(zhì)量數(shù)據(jù)庫,專為開發(fā)面部識別項目而設(shè)計,每張臉都標(biāo)有圖中人物的名字。
11.Labelme
Labelme 由 MIT 計算機科學(xué)與人工智能實驗室 (CSAIL) 創(chuàng)建的廣泛數(shù)據(jù)集。包含 187240 個圖像、62197 個帶注釋的圖像和 658992 個標(biāo)記的對象。
12.LSUN
LSUN ,包含 10 個場景類別(例如教堂、餐廳等)和 20 個對象類別(例如鳥、飛機等)中的每一個的大約一百萬個標(biāo)記圖像。旨在為大規(guī)模場景分類和理解提供不同的基準(zhǔn)。
13.COIL100
COIL100 包含 100 個對象的 7200 個彩色圖像(每個對象 72 個圖像)的數(shù)據(jù)集,以 360 度旋轉(zhuǎn)的每個角度成像。由哥倫比亞大學(xué)智能系統(tǒng)研究中心收集。
14.Visual Genome(視覺基因組)
Visual Genome 一個龐大而詳細的數(shù)據(jù)集和知識庫,帶有超過 100000 張圖像的字幕。
15.Google’s Open Images(谷歌開放圖像)
Google’s Open Images 是一個由超過 900 萬張帶有豐富注釋的不同圖像的集合。包含 6000 個類別的圖像級標(biāo)簽注釋、對象邊界框、對象分割和視覺關(guān)系。這個大型圖像數(shù)據(jù)庫是很多數(shù)據(jù)科學(xué)項目的重要數(shù)據(jù)來源。
16.Indoor Scene Recognition(室內(nèi)場景識別)
Indoor Scene Recognition 是一個識別包含 7 個室內(nèi)類別的 5620 張圖像的數(shù)據(jù)庫。每個類別至少有 100 張 jpg 格式的圖像。
17.CelebFaces(名人面孔)
CelebFaces 超過 20 萬張名人圖像的大規(guī)模數(shù)據(jù)集。每個圖像包含 40 個屬性注釋。這些圖像涵蓋了一系列姿勢變化和雜亂的。
18.Stanford Dogs Dataset(斯坦福犬?dāng)?shù)據(jù)集)
Stanford Dogs Dataset,是一個包括了自世界各地的 120 種狗的圖像的數(shù)據(jù)集。它包含 120 個類別的 20580 張圖像,通過類標(biāo)簽和邊界框進行注釋。想要對狗狗有研究的千萬不要錯過!!!
19.Places
Places 是麻省理工學(xué)院計算機科學(xué)與人工智能實驗室提供的數(shù)據(jù)集。在205 個場景類別中有超過 250 萬張圖像。每張圖片都帶有一個類別標(biāo)簽。學(xué)習(xí)者可以使用它來訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)以理解各種場景。
20.Cityscapes Dataset(城市景觀數(shù)據(jù)集)
Cityscapes Dataset 一個大規(guī)模數(shù)據(jù)集,包含在來自 50 個不同城市的街景中記錄的各種立體視頻序列。它帶有 5000 幀的像素級注釋和一組 20000 個弱注釋幀,可用于語義分割和訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)以了解城市場景。
自然語言處理數(shù)據(jù)集(17)
1.The NLP Index(NLP 指數(shù))
The NLP Index 是一個用于 NLP 相關(guān)任務(wù)的 841 個數(shù)據(jù)集的集合,包括文檔分類、自動圖像字幕、對話、聚類、意圖分類、語言建模或機器翻譯。
2.Enron Email Dataset(安然電子郵件數(shù)據(jù)集)
Enron Email Dataset 是由 CALO 項目(學(xué)習(xí)和組織的認知助手)收集和準(zhǔn)備的數(shù)據(jù)集。包括了由安然公司 158 名員工生成的超過 600000 封電子郵件。
3.Google Books Ngram Viewer(Google 圖書 Ngram 查看器)
Google Books Ngram Viewer 有從 Google 圖書語料庫中提取的大量單詞。“n”指定元組中元素的對應(yīng)的單詞或字符數(shù)量。
4.The Wikipedia Corpus(維基百科語料庫)
The Wikipedia Corpus 是一個龐大的數(shù)據(jù)集,包含超過 400 萬篇文章的 19 億字的數(shù)據(jù)集。使用時可以按單詞、短語、詞性、同義詞、術(shù)語比較等進行搜索。此外可以從語料庫中的 4400000 篇文章中的任何一篇中創(chuàng)建和使用特定主題的虛擬語料庫。
5.SMS Spam Collection in English(英文垃圾短信收集)
SMS Spam Collection in English 是一個小型數(shù)據(jù)集,包含 5574 條帶有 SMS 標(biāo)記的消息(英文),用于手機垃圾郵件研究,能夠被標(biāo)記為合法或垃圾郵件。
6.Multidomain Sentiment Analysis Dataset(多域情感分析數(shù)據(jù)集)
Multidomain Sentiment Analysis Dataset 是一個比較舊的數(shù)據(jù)集,包含了來自亞馬遜的正面和負面產(chǎn)品評論。評論包含從 1 到 5 星的評級。
7.Stanford Sentiment Treebank(斯坦福情緒樹庫)
Stanford Sentiment Treebank 以爛番茄評論為基礎(chǔ),是一個帶有情感注釋的大型電影評論數(shù)據(jù)集。它包含 10000 多條數(shù)據(jù)。這個標(biāo)準(zhǔn)情緒數(shù)據(jù)集的原始代碼由 Matlab 編寫。
8.Sentiment140
Sentiment140,包含使用 Twitter API 提取的 160 萬條推文的數(shù)據(jù)集(最初它不是開源的,但現(xiàn)在可以在 Kaggle 上免費獲得)。推文已經(jīng)過注釋(0 = 負面,2 = 中性,4 = 正面),可用于檢測情緒。此 Twitter 數(shù)據(jù)以 CSV 格式提供,已刪除表情符號。反正這種東西微信、微博估計打死也不會公布這些內(nèi)容。
9.Twitter US Airline Sentiment(Twitter 美國航空公司情感)
Twitter US Airline Sentiment 包含自 2015 年 2 月以來關(guān)于美國各大航空公司的推文的數(shù)據(jù)集。推文分為正面、負面或中性。它包括 Twitter ID、情緒信心評分、負面原因、航空公司名稱、轉(zhuǎn)發(fā)計數(shù)等功能。
10.OpinRank Review Dataset(OpinRank 審查數(shù)據(jù)集)
OpinRank Review Dataset 從 Tripadvisor 和 Edmunds 收集的大量關(guān)于汽車和酒店的評論。有近 260000 條酒店評論和 42230 條汽車評論。
11.Amazon Review Data (2018)(亞馬遜評論數(shù)據(jù) (2018))
Amazon Review Data (2018) 2014 年亞馬遜評論數(shù)據(jù)集的更新版本。它包含 1996 年 5 月至 2018 年 10 月期間收集的 2.331 億條評論。其他功能包括產(chǎn)品元數(shù)據(jù)(描述、類別信息、價格、品牌和圖像特征)和鏈接(也查看/還買了圖表)。
12.Sentiment Lexicons for 81 Languages(81 種語言的情感詞典)
Sentiment Lexicons for 81 Languages 在 Kaggle 上發(fā)布的數(shù)據(jù)集。包含 81 種語言的正面和負面情緒詞典。情感是基于英語情感詞典構(gòu)建的。
該數(shù)據(jù)集通常用于機器學(xué)習(xí)技術(shù)的文本應(yīng)用實驗,例如文本分類和文本聚類。
13.Legal Case Reports Dataset(法律案例報告數(shù)據(jù)集)
Legal Case Reports Dataset 一個小型數(shù)據(jù)集,包含 4000 個法律案例的文本摘要,可以從 UCI 機器學(xué)習(xí)存儲庫下載。用于訓(xùn)練自動文本摘要的極好數(shù)據(jù)源。
14.WordNet
WordNet 是一個詞匯數(shù)據(jù)庫,包含分組為同義詞集的所有詞性。這種結(jié)構(gòu)使其成為自然語言處理和語言研究的絕佳工具。
15.20 Newsgroups(20 個新聞組)
20 Newsgroups 來自 20 多個不同新聞組的 20,000 份文檔的集合。內(nèi)容涵蓋了各種主題,其中一些密切相關(guān),以供參考。提供三個版本:原始版本、按日期排序和刪除重復(fù)版本。 是一個數(shù)據(jù)集,包含來自 20 個不同新聞組的 18000 多個文本文檔,包括體育、技術(shù)、藝術(shù)、娛樂等。
16.IMDB Movie Reviews Dataset(IMDB 電影評論數(shù)據(jù)集)
IMDB Movie Reviews Dataset 來自 IMDB 的 50000 條電影評論的龐大集合(原始和預(yù)處理的電影評論,用于通過深度學(xué)習(xí)進行情感分析)。包含 25000 條高度兩極分化的電影評論用于訓(xùn)練和 25000 條用于測試。負面評論得分低于 4 分(滿分 10 分),正面評論得分超過 7 分(滿分 10 分)。
17.Yelp Reviews(Yelp 評論)
Yelp Reviews 是一個開放數(shù)據(jù)集,包含超過 860 萬條評論和 20 萬張圖片,可用于個人和學(xué)術(shù)目的的用戶評論、商業(yè)信息和圖像。還包含超過 120 萬個業(yè)務(wù)屬性,例如營業(yè)時間、停車位、可用性和氛圍。
音頻語音和音樂數(shù)據(jù)集(10)
1.Common Voice(共同的聲音)
Common Voice 用于訓(xùn)練語音技術(shù)的高質(zhì)量開源和多語言語音數(shù)據(jù)集。該項目由志愿者領(lǐng)導(dǎo),使用麥克風(fēng)錄制示例句子并查看其他用戶的錄音。
2.LibriSpeech(圖書館演講)
LibriSpeech 來自有聲讀物的大約 1000 小時閱讀英語語音的高質(zhì)量數(shù)據(jù)集。所有音頻數(shù)據(jù)都經(jīng)過仔細分割和對齊。
3.Spoken Wikipedia Corpora(口語維基百科語料庫)
Spoken Wikipedia Corpora 口語維基百科語料庫,包括來自英語、德語和荷蘭語維基百科的數(shù)百篇文章。該數(shù)據(jù)源的優(yōu)勢歸結(jié)為多樣化的讀者和主題。
4.VoxForge
VoxForge 一個開放的語音數(shù)據(jù)集,用于收集英語、德語、意大利語、葡萄牙語或西班牙語等語言的轉(zhuǎn)錄語音。
5.Free Music Archive (FMA)(免費音樂檔案 (FMA))
Free Music Archive (FMA) 用于音樂分析的數(shù)據(jù)集。包含完整長度和 HQ 音頻、預(yù)先計算的功能以及軌道和用戶級元數(shù)據(jù)。音頻數(shù)據(jù)來自 16341 位藝術(shù)家的 106574 首曲目和 14854 張專輯,按 161 種流派的分級分類排列。
6.Ballroom
Ballroom 包含交際舞信息的音樂數(shù)據(jù)集(在線課程等)。許多舞蹈風(fēng)格的一些特色摘錄以真實音頻格式提供。實例總數(shù)為 698,持續(xù)時間約為 30 秒。
7.YouTube 8M
YouTube 8M 擁有超過 600 萬個視頻、經(jīng)過人工驗證的標(biāo)簽以及大約 26 億個音頻和視頻功能。
8.AudioSet(音頻集)
AudioSet 具有手動注釋音頻事件的豐富數(shù)據(jù)集。它包含 632 個音頻事件類和從 YouTube 視頻中提取的 2,084,320 個人工標(biāo)記的 10 秒聲音片段的集合。
9.FSD
FSD 包含大量的聲音樣本,從人類和動物的聲音到音樂和機械噪音。
10.Free Music Archive
Free Music Archive 是用于音樂分析的數(shù)據(jù)集。
推薦系統(tǒng)應(yīng)用數(shù)據(jù)集(3)
1.Amazon review data(亞馬遜產(chǎn)品數(shù)據(jù))
Amazon review data 包含在亞馬遜上銷售的數(shù)百萬件商品的元數(shù)據(jù)和評論。對于任何對推薦系統(tǒng)感興趣的人來說,這個絕對比你用爬蟲去抓淘寶、京東、拼多多這些平臺數(shù)據(jù)要好用的多。
2.MovieLens
MovieLens 是一個為用戶提供個性化電影推薦的網(wǎng)站,還有一個開源數(shù)據(jù)集可以使用它來訓(xùn)練的模型。
3.Jester Collaborative Filtering Dataset (Jester 協(xié)同過濾數(shù)據(jù)集)
Jester Collaborative Filtering Dataset 擁有來自 7W+ 名用戶的百個笑話的超過 400 萬個評分。
金融和經(jīng)濟學(xué)的機器學(xué)習(xí)數(shù)據(jù)集(7)
收集的大量財務(wù)記錄可以使用易于訪問的豐富公共數(shù)據(jù)集來訓(xùn)練模型。機器學(xué)習(xí)已廣泛用于算法交易、股市預(yù)測、投資組合管理和欺詐檢測,這已經(jīng)不是什么秘密了.此外多年來深度學(xué)習(xí)的發(fā)展使測試經(jīng)濟模型、更輕松地收集新數(shù)據(jù)源以及預(yù)測行為以幫助制定政策。
1.Global Financial Development (GFD)(全球金融發(fā)展 (GFD))
Global Financial Development (GFD) 涵蓋全球 214 個經(jīng)濟體的金融系統(tǒng)特征的廣泛數(shù)據(jù)集。包含自 1960 年以來收集的年度數(shù)據(jù)。
2.Financial Times Markets Data(金融時報市場數(shù)據(jù))
Financial Times Markets Data 包含來自世界各地的金融市場的最新數(shù)據(jù)源,該數(shù)據(jù)集包含有關(guān)股票和股票價格、股票、貨幣、債券和商品表現(xiàn)的信息。
3.Quandl
Quandl 是一個擁有豐富的金融、經(jīng)濟和替代數(shù)據(jù)數(shù)據(jù)集的平臺。數(shù)據(jù)有兩種格式:時間序列(一段時間內(nèi)的數(shù)據(jù))和表格(數(shù)字和未排序的數(shù)據(jù)類型,如字符串等)。
4.IMF Data(國際貨幣基金組織數(shù)據(jù))
IMF Data 是國際貨幣基金組織發(fā)布與國際貨幣基金組織貸款、匯率以及其他經(jīng)濟和金融指標(biāo)相關(guān)的數(shù)據(jù)。
5.American Economic Association (AEA)(美國經(jīng)濟協(xié)會 (AEA))
American Economic Association (AEA) 一個鏈接到一些最有用和最流行的經(jīng)濟數(shù)據(jù)源的網(wǎng)站,包括美國宏觀經(jīng)濟數(shù)據(jù)以及個人層面的全球收入、就業(yè)和健康數(shù)據(jù)。
6.EOD(股票價格)
股票市場,量化交易數(shù)據(jù)起源于 EOD 股票價格 存儲有關(guān)美國股票當(dāng)日股票價格、股息和拆分的歷史數(shù)據(jù)。
7.World Bank (世界銀行)
World Bank Open Data 無需注冊即可訪問的來自世界銀行的開放數(shù)據(jù)。包含有關(guān)人口統(tǒng)計數(shù)據(jù)、宏觀經(jīng)濟數(shù)據(jù)和關(guān)鍵發(fā)展指標(biāo)的數(shù)據(jù)。進行大規(guī)模數(shù)據(jù)分析的重要數(shù)據(jù)來源。最重要的是支持中文!支持中文!支持中文!
健康醫(yī)療行業(yè)的數(shù)據(jù)集(3)
1.MIMIC-III
MIMIC-III 是一個開源匿名數(shù)據(jù)集,包含 40,000 多名重癥監(jiān)護患者的健康數(shù)據(jù)。涵蓋的參數(shù)包括人口統(tǒng)計、生命體征、實驗室測試和藥物攝入量,這種類型的東西在國內(nèi)太難找了。
2.Medical Imaging Annotation - V7 Darwin
Medical Imaging Annotation - V7 Darwin 是放射科醫(yī)生每天都對醫(yī)學(xué)圖像進行注釋(或標(biāo)記)。這可以在 DICOM 查看器中完成,其中包含基本注釋功能,例如邊界框、箭頭,有時還包含多邊形。機器學(xué)習(xí) (ML) 有時可能會利用這些標(biāo)簽,但它們的格式通常與 ML 研究的需求不一致,例如缺少實例 ID、屬性、標(biāo)簽隊列或 Pytorch 或 TensorFlow 等深度學(xué)習(xí)框架的正確格式。
3.US Healthcare Data(美國醫(yī)療保健數(shù)據(jù))
衛(wèi)生保健和公共衛(wèi)生的統(tǒng)計數(shù)據(jù)和數(shù)據(jù)集。可以找到從 FDA 和 USDA 食品成分數(shù)據(jù)庫收集的有關(guān)人口健康、疾病、藥物和健康計劃的數(shù)據(jù)。
房地產(chǎn)數(shù)據(jù)集(2)
1.The Boston Housing Dataset (波士頓住房數(shù)據(jù)集)
The Boston Housing Dataset 老掉牙用爛的有關(guān)波士頓馬薩諸塞州住房的數(shù)據(jù)。
2.Zillow (房地產(chǎn)研究網(wǎng)站 )
Housing Data - Zillow Research 是有關(guān)美國按大小、類型和等級劃分的房價和租金的信息。
教育行業(yè)數(shù)據(jù)集(2)
1. NEES(美國國家教育統(tǒng)計中心)
National Center for Education Statistics (NCES) Home Page, a part of the U.S. Department of Education,包含美國和國際教育機構(gòu)和教育人口統(tǒng)計數(shù)據(jù)的網(wǎng)站。
2.Data Catalog (世界銀行全球教育統(tǒng)計數(shù)據(jù)集 )
Data Catalog 包含有關(guān)教育的 4000 多個國際可比指標(biāo)的數(shù)據(jù)。
最后的總結(jié)
上面的數(shù)據(jù)集基本上能滿足個人起步學(xué)習(xí)用于機器學(xué)習(xí)、計算機視覺、數(shù)據(jù)分析、數(shù)據(jù)挖掘和數(shù)據(jù)可視化項目。
數(shù)據(jù)集在機器學(xué)習(xí)中非常重要,需要大量的數(shù)據(jù),但手頭可能缺少數(shù)據(jù)。但是互聯(lián)網(wǎng)上的公開數(shù)據(jù)種類繁多,從日本公開的數(shù)據(jù)到海外公開的數(shù)據(jù)都有。如果可以選擇適合要構(gòu)建的系統(tǒng)和目的的數(shù)據(jù)集,肯定會有所幫助。
趕緊下載其中一個數(shù)據(jù)集加入數(shù)據(jù)分析的行列吧。
丁熙一
版權(quán)所有 未經(jīng)許可不得轉(zhuǎn)載
增值電信業(yè)務(wù)經(jīng)營許可證備案號:遼ICP備14006349號
網(wǎng)站介紹 商務(wù)合作 免責(zé)聲明 - html - txt - xml