開源 23 個優秀的機器學習資料集

2022-01-21由高教幫發表于科技

Iris 資料集的那些示例你是不是已經用膩了呢？不要誤會我的意思，Iris 資料集作為入門用途來說是很不錯的，但其實網路上還有很多有趣的公共資料集可以用來練習機器學習和深度學習。在這篇文章中，我會分享 23 個優秀的公共資料集，除了介紹資料集和資料示例外，我還會介紹這些資料集各自可以解決哪些問題。

以下是這 23 個公共資料集：

帕爾默企鵝資料集

共享單車需求資料集

葡萄酒分類資料集

波士頓住房資料集

電離層資料集

Fashion MNIST 資料集

貓與狗資料集

威斯康星州乳腺癌（診斷）資料集

Twitter 情緒分析和 Sentiment140 資料集

BBC 新聞資料集

垃圾簡訊分類器資料集

CelebA 資料集

YouTube-8M 資料集

亞馬遜評論資料集

紙幣驗證資料集

LabelMe 資料集

聲納資料集

皮馬印第安人糖尿病資料集

小麥種子資料集

Jeopardy！資料集

鮑魚資料集

假新聞檢測資料集

ImageNet 資料集

1。帕爾默企鵝資料集

這是迄今為止我最喜歡的資料集。我在最近寫的書裡的大多數示例都來自於它。簡單來說，如果你在 Iris 資料集上做實驗做膩了就可以嘗試一下這一個。它由 Kristen Gorman 博士和南極洲 LTER 的帕爾默科考站共同建立。該資料集本質上是由兩個資料集組成的，每個資料集包含 344 只企鵝的資料。

就像 Iris 一樣，這個資料集裡有來自帕爾默群島 3 個島嶼的 3 種不同種類的企鵝，分別是 Adelie、Chinstrap 和 Gentoo。或許“Gentoo”聽起來很耳熟，那是因為 Gentoo Linux 就是以它命名的！此外，這些資料集包含每個物種的 culmen 維度。這裡 culmen 是鳥喙的上脊。在簡化的企鵝資料中，culmen 長度和深度被重新命名為變數 culmen_length_mm 和 culmen_depth_mm。

1。1 資料集樣本

我們載入資料，看看它是什麼樣的：

我們使用 Pandas 庫來做資料視覺化，並且載入的是一個更簡單的資料集。

1。2 這個公共資料集適合解決什麼問題？

它是練習解決分類和聚類問題的好幫手。在這裡，你可以嘗試各種分類演算法，如決策樹、隨機森林、SVM，或把它用於聚類問題並練習使用無監督學習。

1。3 有用的連結

在以下連結中可以獲得有關 PalmerPenguins 資料集的更多資訊：

介紹（https：//allisonhorst。github。io/palmerpenguins/articles/intro。html）

GitHub（https：//github。com/allisonhorst/palmerpenguins）

Kaggle（https：//www。kaggle。com/parulpandey/palmer-archipelago-antarctica-penguin-data）

2。共享單車需求資料集

這個資料集非常有趣。它對於初學者來說有點複雜，但也正因如此，它很適合拿來做練習。它包含了華盛頓特區“首都腳踏車共享計劃”中腳踏車租賃需求的資料，腳踏車共享和租賃系統通常是很好的資訊來源。這個資料集包含了有關騎行持續時間、出發地點、到達地點和經過時間的資訊，還包含了每一天每小時的天氣資訊。

2。1 資料集樣本

我們載入資料，看看它是什麼樣的。首先，我們使用資料集的每小時資料來執行操作：

每日資料是下面的樣子：

2。2 這個公共資料集適合解決什麼問題？

由於該資料集包含的資訊種類繁多，因此非常適合練習解決迴歸問題。你可以嘗試對其使用多元線性迴歸，或使用神經網路。

2。3 有用的連結

在以下連結中可以獲得關於該資料集的更多資訊：

UCI（https：//archive。ics。uci。edu/ml/datasets/bike+sharing+dataset）

Kaggle（https：//www。kaggle。com/c/bike-sharing-demand）

3。葡萄酒分類資料集

這是一個經典之作。如果你喜歡葡萄樹或計劃成為索馬利亞人，肯定會更中意它的。該資料集由兩個資料集組成。兩者都包含來自葡萄牙 Vinho Verde 地區的葡萄酒的化學指標，一種用於紅葡萄酒，另一種用於白葡萄酒。由於隱私限制，資料集裡沒有關於葡萄種類、葡萄酒品牌、葡萄酒售價的資料，但有關於葡萄酒質量的資訊。

3。1 資料集樣本

我們載入資料，看看它是什麼樣的：

3。2 這個公共資料集適合解決什麼問題？

這是一個多類分類問題，但也可以被定義為迴歸問題。它的分類資料是不均衡的（例如，正常葡萄酒的數量比優質或差的葡萄酒多得多），很適合針對不均衡資料集的分類練習。除此之外，資料集中所有特徵並不都是相關的，因此也可以拿來練習特徵工程和特徵選擇。

3。3 有用的連結

以下連結中可以找到關於這個資料集的更多資訊：

介紹（https：//www。vinhoverde。pt/en/about-vinho-verde）

UCI（https：//archive。ics。uci。edu/ml/datasets/Wine+Quality）

4。波士頓住房資料集

雖然我說過會盡量不推薦其他人都推薦的那種資料集，但這個資料集實在太經典了。許多教程、示例和書籍都使用過它。這個資料集由 14 個特徵組成，包含美國人口普查局收集的關於馬薩諸塞州波士頓地區住房的資訊。這是一個只有 506 個樣本的小資料集。

4。1 資料集樣本

我們載入資料，看看它是什麼樣的：

4。2 這個公共資料集適合解決什麼問題？

該資料集非常適合練習迴歸任務。請注意，因為這是一個小資料集，你可能會得到樂觀的結果。

4。3 有用的連結

從以下連結中可以找到關於這個資料集的更多資訊：

介紹（https：//www。cs。toronto。edu/\~delve/data/boston/bostonDetail。html）

Kaggle（https：//www。kaggle。com/c/boston-housing）

5。電離層資料集

這也是一個經典資料集。它實際上起源於 1989 年，但它確實很有趣。該資料集包含由拉布拉多鵝灣的雷達系統收集的資料。該系統由 16 個高頻天線的相控陣列組成，旨在檢測電離層中的自由電子。一般來說，電離層有兩種型別的結構：“好”和“壞”。這些雷達會檢測這些結構並傳遞訊號。資料集中有 34 個自變數和 1 個因變數，總共有 351 個觀測值。

5。1 資料集樣本

我們載入資料，看看它是什麼樣的：

5。2 這個公共資料集適合解決什麼問題？

這顯然是一個二元（2 類）分類問題。有趣的是，這是一個不均衡的資料集，所以你也可以用它做這種練習。在這個資料集上實現高精度也非易事，基線效能在 64% 左右，而最高精度在 94% 左右。

5。3 有用的連結

從以下連結中可以找到關於這個資料集的更多資訊：

UCI（https：//archive。ics。uci。edu/ml/datasets/Ionosphere）

6。Fashion MNIST 資料集

MNIST 資料集是用於練習影象分類和影象識別的著名資料集，然而它有點被濫用了。如果你想要一個簡單的資料集來練習影象分類，你可以試試 Fashion MNIST。它曾被《機器學習終極指南》拿來做影象分類示例。

本質上，這個資料集是 MNIST 資料集的變體，它與 MNIST 資料集具有相同的結構，也就是說它有一個 60，000 個樣本的訓練集和一個 10，000 個服裝影象的測試集。所有影象都經過尺寸歸一化和居中。影象的大小也固定為 28×28，這樣預處理的影象資料被減到了最小水平。它也可作為某些框架（如 TensorFlow 或 PyTorch）的一部分使用。

6。1 資料集樣本

我們載入資料，看看它是什麼樣的：

6。2 這個公共資料集適合解決什麼問題？

它最適合影象分類和影象生成任務。你可以使用簡單的卷積神經網路（CNN）來做嘗試，或者使用生成對抗網路（GAN）使用它來生成影象。

6。3 有用的連結

從以下連結中可以找到關於這個資料集的更多資訊：

GitHub（https：//github。com/zalandoresearch/fashion-mnist）

Kaggle（https：//www。kaggle。com/zalando-research/fashionmnist）

7。貓與狗資料集

這是一個包含貓狗影象的資料集。這個資料集包含 23，262 張貓和狗的影象，用於二值影象分類。在主資料夾中，你會找到兩個資料夾 train1 和 test。

train1 資料夾包含訓練影象，而 test 資料夾包含測試影象。請注意，影象名稱以 cat 或 dog 開頭。這些名稱本質上是我們的標籤，這意味著我們將使用這些名稱定義目標。

7。1 資料集樣本

我們載入資料，看看它是什麼樣的：

7。2 這個公共資料集適合解決什麼問題？

這個資料集有兩重目標。首先，它可用於練習影象分類以及物件檢測。其次，你可以在這裡面找到無窮無盡的可愛圖片。

7。3 有用的連結

以下連結中可以找到關於這個資料集的更多資訊：

介紹（https：//www。microsoft。com/en-us/download/details。aspx？id=54765）

Kaggle（https：//www。kaggle。com/c/dogs-vs-cats）

8。威斯康星州乳腺癌（診斷）資料集

機器學習和深度學習技術在醫療保健領域中的應用正在穩步增長。如果你想練習並瞭解使用此類資料的效果，這個資料集是一個不錯的選擇。在該資料集中，資料是透過處理乳房腫塊的細針穿刺（FNA）的數字化影象提取出來的。該資料集中的每個特徵都描述了上述數字化影象中發現的細胞核的特徵。

該資料集由 569 個樣本組成，其中包括 357 個良性樣本和 212 個惡性樣本。這個資料集中有三類特徵，其中實值特徵最有趣。它們是從數字化影象中計算出來的，包含有關區域、細胞半徑、紋理等資訊。

8。1 資料集樣本

我們載入資料，看看它是什麼樣的：

8。2 這個公共資料集適合解決什麼問題？

這個醫療保健資料集適合練習分類和隨機森林、SVM 等演算法。

8。3 有用的連結

從以下連結中可以找到關於這個資料集的更多資訊：

Kaggle（https：//www。kaggle。com/uciml/breast-cancer-wisconsin-data）

UCI（https：//archive。ics。uci。edu/ml/datasets/Breast+Cancer+Wisconsin+（Diagnostic）

9。Twitter 情緒分析和

Sentiment140 資料集

在過去幾年中，情緒分析成為了一種監控和了解客戶反饋的重要工具。這種對訊息和響應所攜帶的潛在情緒基調的檢測過程是完全自動化的，這意味著企業可以更好更快地瞭解客戶的需求並提供更好的產品和服務。

這一過程是透過應用各種 NLP（自然語言處理）技術來完成的。這些資料集可以幫助你練習此類技術，實際上非常適合該領域的初學者。Sentiment140 包含了使用 Twitter API 提取的 1，600，000 條推文。它們的結構略有不同。

9。1 資料集樣本

我們載入資料，看看它是什麼樣的：

9。2 這個公共資料集適合解決什麼問題？

如前所述，這是一個用於情緒分析的資料集。情緒分析是最常見的文字分類工具。該過程會分析文字片段以確定其中包含的情緒是積極的、消極的還是中性的。瞭解品牌和產品引發的社會情緒是現代企業必不可少的工具之一。

9。3 有用的連結

從以下連結中可以找到關於這個資料集的更多資訊：

Kaggle（https：//www。kaggle。com/c/twitter-sentiment-analysis2）

Kaggle（https：//www。kaggle。com/kazanova/sentiment140）

10。BBC 新聞資料集

我們再來看這個類別中另一個有趣的文字資料集。該資料集來自 BBC 新聞。它由 2225 篇文章組成，每篇文章都有標籤。所有文章分成 5 個類別：科技、商業、政治、娛樂和體育。這個資料集沒有失衡，每個類別中的文章數量都是差不多的。

10。1 資料集樣本

我們載入資料，看看它是什麼樣的：

10。2 這個公共資料集適合解決什麼問題？

自然，這個資料集最適合用於文字分類練習。你也可以更進一步，練習分析每篇文章的情緒。總的來說，它適用於各種 NLP 任務和實踐。

10。3 有用的連結

從以下連結中可以找到關於這個資料集的更多資訊：

Kaggle（https：//www。kaggle。com/c/learn-ai-bbc）

11。垃圾簡訊分類器資料集

垃圾訊息檢測是網際網路中最早投入實踐的機器學習任務之一。這種任務也屬於 NLP 和文字分類工作。所以，如果你想練習解決這類問題，Spam SMS 資料集是一個不錯的選擇。它在實踐中用得非常多，非常適合初學者。

這個資料集最棒的一點是，它是從網際網路的多個來源構建的。例如，它從 Grumbletext 網站上提取了 425 條垃圾簡訊，從新加坡國立大學的 NUS SMS Corpus（NSC）隨機選擇了 3，375 條簡訊，還有 450 條簡訊來自 Caroline Tag 的博士論文等。資料集本身由兩列組成：標籤（ham 或 spam）和原始文字。

11。1 資料集樣本

我們載入資料，看看它是什麼樣的：

11。2 這個公共資料集適合解決什麼問題？

顧名思義，該資料集最適合用於垃圾郵件檢測和文字分類。它也經常用在工作面試中，所以大家最好練習一下。

11。3 有用的連結

從以下連結中可以找到關於這個資料集的更多資訊：

UCI（https：//archive。ics。uci。edu/ml/datasets/sms+spam+collection）

Kaggle（https：//www。kaggle。com/uciml/sms-spam-collection-dataset）

12。CelebA 資料集

如果你想研究人臉檢測解決方案、構建自己的人臉生成器或建立深度人臉偽造模型，那麼這個資料集就是你的最佳選擇。該資料集擁有超過 20 萬張名人影象，每張影象有 40 個屬性註釋，為你的研究專案提供了一個很好的起點。此外，它還涵蓋了主要的姿勢和背景類別。

12。1 資料集樣本

我們載入資料，看看它是什麼樣的：

12。2 這個公共資料集適合解決什麼問題？

我們可以用這個資料集解決多種問題。比如，我們可以解決各種人臉識別和計算機視覺問題，它可用來使用不同的生成演算法生成影象。此外，你可以使用它來開發新穎的深度人臉偽造模型或深度偽造檢測模型。

12。3 有用的連結

從以下連結中可以找到關於這個資料集的更多資訊：

介紹（http：//mmlab。ie。cuhk。edu。hk/projects/CelebA。html）

13。YouTube-8M 資料集

這是最大的多標籤影片分類資料集。它來自谷歌，擁有 800 萬個帶有註釋和 ID 的 YouTube 分類影片。這些影片的註釋由 YouTube 影片註釋系統使用 48000 個視覺實體的詞彙表建立。該詞彙表也可供下載。

請注意，此資料集可用作 TensorFlow 記錄檔案。除此之外，你還可以使用這個資料集的擴充套件——YouTube-8M Segments 資料集。它包含了人工驗證的分段註釋。

13。1 資料集樣本

你可以使用以下命令下載它們：

13。2 這個公共資料集適合解決什麼問題？

你可以使用這個資料集執行多種操作。比如可以使用它跟進谷歌的競賽，並開發準確分配影片級標籤的分類演算法。你還可以用它來建立影片分類模型，也可以用它練習所謂的時間概念定位，也就是找到並分享特定的影片瞬間。

13。3 有用的連結

從以下連結中可以找到關於這個資料集的更多資訊：

介紹（https：//arxiv。org/abs/1609。08675）

下載（http：//research。google。com/youtube8m/）

14。亞馬遜評論資料集

情緒分析是最常見的文字分類工具。這個過程會分析文字片段以確定情緒傾向是積極的、消極的還是中性的。在監控線上會話時瞭解你的品牌、產品或服務引發的社會情緒是現代商業活動的基本工具之一，而情緒分析是實現這一目標的第一步。該資料集包含了來自亞馬遜的產品評論和元資料，包括 1996 年 5 月至 2018 年 10 月的 2。331 億條評論。

14。1 這個公共資料集適合解決什麼問題？

這個資料集可以為任何產品建立情緒分析的入門模型，你可以使用它來快速建立可用於生產的模型。

14。2 有用的連結

從以下連結中可以找到關於這個資料集的更多資訊：

介紹和下載（https：//jmcauley。ucsd。edu/data/amazon/）

15。紙幣驗證資料集

這是一個有趣的資料集。你可以使用它來建立可以檢測真鈔和偽造鈔票的解決方案。該資料集包含了從數字化影象中提取的許多指標。資料集的影象是使用通常用於印刷檢查的工業相機建立的，影象尺寸為 400x400 畫素。這是一個乾淨的資料集，包含 1372 個示例且沒有缺失值。

15。1 資料集樣本

我們載入資料，看看它是什麼樣的：

15。2 這個公共資料集適合解決什麼問題？

它是練習二元分類和應用各種演算法的絕佳資料集。此外，你可以修改它並將其用於聚類，並提出將透過無監督學習對這些資料進行聚類的演算法。

15。3 有用的連結

從以下連結中可以找到關於這個資料集的更多資訊：

UCI（https：//archive。ics。uci。edu/ml/datasets/banknote+authentication#）

Kaggle（https：//www。kaggle。com/ritesaluja/bank-note-authentication-uci-data）

16。LabelMe 資料集

LabelMe 是另一個計算機視覺資料集。LabelMe 是一個帶有真實標籤的大型影象資料庫，用於物體檢測和識別。它的註釋來自兩個不同的來源，其中就有 LabelMe 線上註釋工具。

簡而言之，有兩種方法可以利用這個資料集。你可以透過 LabelMe Matlab 工具箱下載所有影象，也可以透過 LabelMe Matlab 工具箱線上使用影象。

16。1 資料集樣本

標記好的資料如下所示：

16。2 這個公共資料集適合解決什麼問題？

它是用於物件檢測和物件識別解決方案的絕佳資料集。

16。3 有用的連結

從以下連結中可以找到關於這個資料集的更多資訊：

介紹和下載（http：//labelme。csail。mit。edu/Release3。0/index。php）

17。聲納資料集

如果你對地質學感興趣，會發現這個資料集非常有趣。它是利用聲納訊號製成的，由兩部分組成。第一部分名為“sonar。mines”，包含 111 個模式，這些模式是使用在不同角度和不同條件下從金屬圓柱體反射的聲納訊號製成的。

第二部分名為“sonar。rocks”，由 97 個模式組成，同樣是透過反射聲納訊號製成，但這次反射的是岩石上的訊號。它是一個不均衡資料集，包含 208 個示例、60 個輸入特徵和一個輸出特徵。

17。1 資料集樣本

我們載入資料，看看它是什麼樣的：

17。2 這個公共資料集適合解決什麼問題？

該資料集非常適合練習二元分類。它的製作目標是檢測輸入是地雷還是岩石，這是一個有趣的問題，因為最高的輸出結果達到了 88% 的準確率。

17。3 有用的連結

從以下連結中可以找到關於這個資料集的更多資訊：

介紹（https：//www。is。umk。pl/projects/datasets。html#Sonar）

UCI（https：//archive。ics。uci。edu/ml/datasets/Connectionist+Bench+（Sonar，+Mines+vs。+Rocks））

18。皮馬印第安人糖尿病資料集

這是另一個用於分類練習的醫療保健資料集。它來自美國國家糖尿病、消化和腎臟疾病研究所，其目的是根據某些診斷指標來預測患者是否患有糖尿病。

該資料集包含 768 個觀測值，具有 8 個輸入特徵和 1 個輸出特徵。它不是一個均衡的資料集，並且假設缺失值被替換為 0。

18。1 資料集樣本

我們載入資料，看看它是什麼樣的：

18。2 這個公共資料集適合解決什麼問題？

它是另一個適合練習二元分類的資料集。

18。3 有用的連結

從以下連結中可以找到關於這個資料集的更多資訊：

介紹（https：//raw。githubusercontent。com/jbrownlee/Datasets/master/pima-indians-diabetes。names）

Kaggle（https：//www。kaggle。com/uciml/pima-indians-diabetes-database）

19。小麥種子資料集

這個資料集非常有趣和簡單。它特別適合初學者，可以代替 Iris 資料集。該資料集包含屬於三種不同小麥品種的種子資訊：Kama、Rosa 和 Canadian。它是一個均衡的資料集，每個類別有 70 個例項。種子內部核心結構的測量值是使用軟 X 射線技術檢測的。

19。1 資料集樣本

我們載入資料，看看它是什麼樣的：

19。2 這個公共資料集適合解決什麼問題？

這個資料集有利於提升分類技能。

19。3 有用的連結

從以下連結中可以找到關於這個資料集的更多資訊：

UCI（https：//archive。ics。uci。edu/ml/datasets/seeds）

Kaggle（https：//www。kaggle。com/jmcaro/wheat-seedsuci）

20。Jeopardy！問題資料集

這個資料集很不錯，包含 216，930 個 Jeopardy 問題、答案和其他資料。它是可用於你 NLP 專案的絕佳資料集。除了問題和答案，該資料集還包含有關問題類別和價值的資訊。

20。1 資料集樣本

我們載入資料，看看它是什麼樣的：

20。2 這個公共資料集適合解決什麼問題？

這是一個豐富的資料集，可用於多種用途。你可以執行分類演算法並預測問題的類別或問題的價值。不過你可以用它做的最酷的事情可能是用它來訓練 BERT 模型。

20。3 有用的連結

從以下連結中可以找到關於這個資料集的更多資訊：

Kaggle（https：//www。kaggle。com/tunguz/200000-jeopardy-questions）

21。鮑魚資料集

從本質上講這是一個多分類問題，然而，這個資料集也可以被視為一個迴歸問題。它的目標是使用提供的指標來預測鮑魚的年齡。這個資料集不均衡，4，177 個例項有 8 個輸入變數和 1 個輸出變數。

21。1 資料集樣本

我們載入資料，看看它是什麼樣的：

21。2 這個公共資料集適合解決什麼問題？

該資料集可以同時構建為迴歸和分類任務。這是一個很好的機會，可以使用多元線性迴歸、SVM、隨機森林等演算法，或者構建一個可以解決這個問題的神經網路。

21。3 有用的連結

從以下連結中可以找到關於這個資料集的更多資訊：

UCI（https：//archive。ics。uci。edu/ml/datasets/abalone）

Kaggle（https：//www。kaggle。com/rodolfomendes/abalone-dataset）

22。假新聞資料集

我們生活在一個狂野的時代。假新聞、深度造假和其他型別的欺騙技術都成了我們日常生活的一部分，無論我們喜歡與否。這個資料集提供了另一個非常適合練習的 NLP 任務。它包含標記過的真實和虛假新聞，以及它們的文字和作者。

22。1 資料集樣本

我們載入資料，看看它是什麼樣的：

22。2 這個公共資料集適合解決什麼問題？

這是另一個 NLP 文字分類任務。

22。3 有用的連結

從以下連結中可以找到關於這個資料集的更多資訊：

Kaggle（https：//www。kaggle。com/c/fake-news/overview）

23。ImageNet 資料集

最後這個資料集是計算機視覺資料集中的王者——ImageNet。該資料集是用來衡量所有新的深度學習和計算機視覺技術創新的基準。沒有它，深度學習的世界就不會變成今天這樣的狀態。ImageNet 是一個按照 WordNet 層次結構組織的大型影象資料庫。這意味著每個實體都用一組稱為 -synset 的詞和短語來描述。每個同義詞集分配了大約 1000 個影象。基本上，層次結構的每個節點都由成百上千的影象描述。

版權歸原作者所有，如有侵權，請聯絡刪除。

TAG：資料 https 連結公共資料這個

開源 23 個優秀的機器學習資料集

相關推薦