訓練自然語言處理(NLP)的7個優(yōu)秀數據集

本文首發(fā)于網站 機器翻譯學堂
轉載事宜請后臺詢問哦
作者 | Kevin Vu
譯者 | 唐歡、劉曉倩


NLP現在是熱門領域,但想要掌握它卻很難。在剛開始學習NLP時的主要問題是缺乏適當的指導和領域的過度寬廣,很容易迷失在各種論文和代碼中,試圖接受所有信息。
需要意識到的是,NLP作為一個廣闊的領域,學習者不可能學到所有東西,但可以嘗試著循序漸進。如果能夠堅持到最后,就會發(fā)現自己比其他人了解得更多。也就是說,學習NLP需要采取漸進式步驟。
首先第一步是在數據集上訓練NLP模型,在剛起步時無需創(chuàng)建自己的數據集,因為這需要做大量的工作。
每天都會有大量的開源數據集被發(fā)布,集中在單詞、文本、語音、句子、俚語以及其他能想到的任何內容。請記住,開源數據集并非沒有問題,在獲取任何舊數據集進行測試時,學習者必須先處理好偏差、數據不完整等一系列其他問題。
但是,網上有些地方在整理數據集方面做得很好,可以更容易找到想要查找的內容:
Papers With Code?(opens new window)——近5000個機器學習數據集已分類且易于查找。
Hugging Face?(opens new window)——一個很棒的網站,可以找到專注于音頻、文本、語音和其他專門針對NLP的數據集。
除此之外,我們還推薦以下列表作為開始學習NLP的一些最佳開源數據集,或者也可以嘗試各種模型并按照這些步驟進行操作。
Quora Question Incincerity數據集
這個數據集相當有趣。Quora 是國外的問答網站,Kaggle曾經舉辦過相關比賽,主辦方會提供一個不真誠問題(這里對不真誠問題的定義是在發(fā)表聲明而不是尋找有用答案的問題,包括但不僅限于非中性語氣、貶低或煽動、不立足于現實、通過性來獲得震撼等內容)的分類數據集,即Quora Question Incincerity數據集,要求參賽者根據問題的內容去預測這個問題是否真誠,簡而言之就是解決文本分類問題。其目的是通過比賽開發(fā)出更具擴展性的方法來檢測有毒和誤導性內容。
除此之外,學習者還可以參考該數據集上NLP 文本分類系列的文章以更深入地學習NLP。
《Text Preprocessing Methods for Deep Learning》一文討論了適用于深度學習模型和提高【Word2Vec】嵌入覆蓋率的文本預處理方法。
在第二篇文章《Conventional Methods for Text Classification》中,我們將帶你了解一些應用于文本分類的常規(guī)模型,如TFIDF、CountVectorizer、Hashing等,并嘗試訪問它們的性能以創(chuàng)建基線。
第三篇文章深入研究了Attention、CNN以及不用于文本分類的深度學習模型,重點介紹了解決文本分類問題的不同架構。
最后一篇講的是如何使用BERT和ULMFit進行遷移學習。
斯坦福問答數據集(SQuAD)
斯坦福問答數據集(SQuAD)?源自維基百科文章中的問答對集合,包含10萬組帶注釋的三元組(passage,question,answer),通過給定一篇來自英文維基百科文章(passage)及準備相應的問題(question),需要算法給出截取自文章片段的答案(answer)。
簡單來說,這就是一個閱讀理解數據集,它會給我們一個問題和該問題答案所在的一個文本,然后接下來的任務是找出答案所在的文本范圍。此任務通常被稱為問答任務。
倘若你想對其進行更深入的研究,請參閱《Understanging BERT with Hugging Face》,該文章分享了如何使用此數據集和Hugging Face庫的BERT模型來預測問題的答案,實現一個問答神經網絡。
UCI ML藥物審查數據集

UCI ML藥物審查數據集提供了患者對特定藥物的評論以及相關情況和一個反映患者總體滿意度的10星患者評級系統(tǒng),以方便用戶根據藥物審查預測病情。
該數據集大致有7列,其中數據字段的說明如下:
(1)uniqueID:患者唯一ID
(2)drugName:藥品名
(3)condition:患者情況
(4)review:患者用藥反饋
(5)rating:患者滿意度評分(1-10分)
(6)date:反饋日期
(7)usefulCount:“贊同”數量(若其他人認為該條信息有幫助,會點擊“useful”按鈕,則該條信息獲得1個“贊同”)
學習者可以根據以下思路來處理數據:
(1)分類:你能根據評論預測病人的病情嗎?
(2)回歸:你能根據評論預測藥物的評級嗎?
(3)情感分析:評論的哪些元素使其對其他人更有幫助?哪些患者往往有更多的負面評價?你能確定評論是正面的、中性的還是負面的?
(4)數據可視化:有哪些藥物?這些患者有哪些情況?
有意思的是UCI ML藥物審查數據集還可用于多類分類,如《Using Deep Learning for End Multiclass Text Classification》中所發(fā)表的,也可以嘗試通過各種文本和數字特征來使用該數據集以解決多類文本分類問題。
如果有人想要親身體驗NLP,那么這個小型數據集就是一個不錯的選擇。
Yelp評論數據集
Yelp本是美國著名商戶點評網站,囊括各地餐館、購物中心、酒店、旅游等領域的商戶,用戶可以在Yelp網站中給商戶打分,提交評論,交流購物體驗等,類似于國內的大眾點評。而Yelp 評論數據集是用戶評論數據的子集,以 JSON 文件的形式提供。
在此數據集?(opens new window)中可獲得 Yelp 餐廳評論及營業(yè)時間和關閉時間等其他信息。學習者可以通過創(chuàng)建一個系統(tǒng)來對菜肴進行分類,或者利用命名實體識別 (NER) 的方法來找出評論中的菜肴,總之最好能夠找出或創(chuàng)建一個系統(tǒng)來了解 Yelp 并獲取餐廳的評論亮點。
并且通過Yelp評論數據集還能夠很好地了解到 Yelp 業(yè)務和搜索功能,用戶想怎么使用這個數據集都是沒有限制的。

IMDB電影數據集

IMDB(Internet Movie Databas)是互聯(lián)網電影資料庫,里面包括了幾乎所有的電影以及1982 年以后的電視劇集。它還有一個由影迷自己來打分的評分系統(tǒng),平均每月有高達2000萬電影愛好者進行訪問,因此被認為是權威的影片評分平臺。
而該數據集的創(chuàng)建者在IMDB上爬取了電影數據,包含來自IMDB的5萬部電影的簡介、平均評分、票數、類型和演員等信息。
除了方便訓練NLP模型,這個數據集還可以通過多種方式使用。使用此數據集的最常見方法是構建推薦引擎、類型分類和查找相似電影。
20個新聞組
20個新聞組數據集是用于文本分類的國際標準數據集之一,其中包含有20個不同主題的新聞組集合(共收集了1.8萬左右的新聞組文檔),主要分為兩個子集:一個用于訓練(或開發(fā)),另一個用于測試(或性能評估)。主題多種多樣,涵蓋體育,無神論,政治等各個領域。
在獲取該數據集的網站上,還詳細地介紹了使用方法、如何將文本轉換為矢量以及如何過濾文本以獲得更真實的訓練,你將使用樸素貝葉斯算法進行文本分類。
這是一個多類文本分類數據集,你也可以使用它來學習主題建模(從大量文本中提取隱藏主題的技術,含有關于文本信息的概率模型),如在Python中使用Gensim-LDA進行主題建模。
IWSLT(國際口語翻譯討論會)數據集
該機器翻譯數據集符合翻譯任務的事實標準,涉及了 TED 和 TEDx 演講的德語、英語、意大利語、荷蘭語和羅馬尼亞語等不同主題的翻譯。值得高興的是,學習者可以在任何一對語言之間訓練這些翻譯,同時也能夠通過 PyTorch 使用 torchtext.datasets 訪問。
如果有人想深入了解如何使用此數據集來創(chuàng)建自己的transformer,請閱讀這篇介紹了BERT Transformers及其工作原理的《BERT Transformers – How Do They Work?》文章,又或者參考《Understanding Transformers, the Programming Way》一文,有助于學習者理解怎樣基于BERT從頭創(chuàng)建翻譯器。
最后,你可以通過以上數據集去尋找解決問題的方法,以及獲得更多關于NLP的信息以解決各種任務。
原文鏈接:
https://www.kdnuggets.com/2021/11/top-open-source-datasets-nlp.html

hi,這里是小牛翻譯~
想要看到更多我們的文章,可以關注下
機器翻譯學堂(公號或網站)
筆芯~?

往期精彩文章

