NLP經(jīng)典論文推薦:baseline paper(文本分類)

Word2Vec詞向量扛鼎之作
期刊日期
ICLR2013
論文名稱
Efficient Estimation of Word Representation in Vector Space
描述
提出兩個(gè)新穎的模型來計(jì)算詞的連續(xù)向量表示,這些表示的質(zhì)量用詞的相似度來計(jì)算,結(jié)果和其他表現(xiàn)最好的技術(shù)進(jìn)行比較。我們發(fā)現(xiàn)有很大的提高而且計(jì)算量低,比如1.6百萬的詞只需要不到一天的計(jì)算,而且這些向量對(duì)于語義和語法的相似度的計(jì)算獲得最好的成績(jī)。
論文鏈接
https://arxiv.org/pdf/1301.3781v3.pdf
關(guān)注公眾號(hào)后臺(tái)回復(fù)“Word2Vec”,領(lǐng)取資料。
Glove最出名的詞向量訓(xùn)練方法之一
期刊日期
EMNLP2014
論文名稱
GloVe: Global Vectors for Word Representation
描述
學(xué)習(xí)詞的向量空間表示可以很好捕獲語法和語義規(guī)則信息,但是這些規(guī)則的起源并不透明。我們分析和闡明模型需要的這些規(guī)則。這是logbilinear regression模型,集合了全局矩陣分解和本地窗口大小的方法。模型訓(xùn)練在詞和詞的共現(xiàn)矩陣中,而不是整個(gè)語料庫的稀疏矩陣。
論文鏈接
http://emnlp2014.org/papers/pdf/EMNLP2014162.pdf
Char Embedding第一篇介紹字符嵌入的論文
期刊日期
EMNLP2015
論文名稱
Compositional character models for open vocabulary word representation
描述
我們引入了一種通過使用雙向 LSTM 組合字符來構(gòu)建單詞向量表示的模型。相對(duì)于每個(gè)詞類型都有獨(dú)立向量的傳統(tǒng)詞表示模型,我們的模型只需要每個(gè)字符類型一個(gè)向量和一組固定的組合模型參數(shù)。盡管這個(gè)模型很緊湊,更重要的是,語言中形式-功能關(guān)系的任意性,我們的“組合”詞表示在語言建模和詞性標(biāo)注方面產(chǎn)生了最先進(jìn)的結(jié)果。在形態(tài)豐富的語言(例如土耳其語)中,優(yōu)于傳統(tǒng)基線的優(yōu)勢(shì)尤為明顯。
論文鏈接
https://arxiv.org/pdf/1508.02096.pdf
代碼:
https://github.com/wlin12/JNN
TextCNN第一篇CNN用于文本分類的文章
期刊日期
EMNLP2014
論文名稱
Convolutional Neural Network for Sentence Classification
描述
本文報(bào)告了在預(yù)訓(xùn)練詞向量之上訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò) (CNN) 的一系列實(shí)驗(yàn),用于句子級(jí)分類任務(wù)。我們表明,具有很少超參數(shù)調(diào)整和靜態(tài)向量的簡(jiǎn)單 CNN 在多個(gè)基準(zhǔn)測(cè)試中取得了出色的結(jié)果。通過微調(diào)學(xué)習(xí)特定于任務(wù)的向量可進(jìn)一步提高性能。我們還建議對(duì)架構(gòu)進(jìn)行簡(jiǎn)單的修改,以允許使用特定于任務(wù)的向量和靜態(tài)向量。此處討論的 CNN 模型在 7 個(gè)任務(wù)中的 4 個(gè)任務(wù)上改進(jìn)了現(xiàn)有技術(shù),其中包括情感分析和問題分類。
論文鏈接
https://arxiv.org/pdf/1408.5882.pdf
CharTextCNN第一篇字符級(jí)別文本分類模型
期刊日期
NIPS2015
論文名稱
Character-level Convolutional Networks for Text Classification
描述
一方面目前文本分類技術(shù)主要考慮詞或詞的組合;另一方面,研究表明,卷積神經(jīng)網(wǎng)絡(luò)在從原始信號(hào)中抽取信息的方面,非常有用。在這篇論文中,作者將字符級(jí)的文本當(dāng)做原始信號(hào),并且使用一維的卷積神經(jīng)網(wǎng)絡(luò)來處理它。研究表明,單詞嵌入表示可以直接用于卷積神經(jīng)網(wǎng)絡(luò),而無需考慮語言的語法或語義結(jié)構(gòu)。
這篇論文,僅僅使用字符,運(yùn)用在卷積神經(jīng)網(wǎng)絡(luò)上。作者發(fā)現(xiàn),當(dāng)訓(xùn)練大規(guī)模數(shù)據(jù)集的時(shí)候,深度卷積神經(jīng)網(wǎng)絡(luò)并不需要單詞層面的意義(包括語言的語法和語義)。這是非常激動(dòng)人心的工程簡(jiǎn)化,因?yàn)椴还苁裁凑Z言,它都是由字符組成的,因此這對(duì)于構(gòu)建跨語言的系統(tǒng)至關(guān)重要。還有一個(gè)好處,對(duì)于異常的字符組成(比如拼寫錯(cuò)誤)和表情符,該模型依然能夠應(yīng)付。
論文鏈接
https://proceedings.neurips.cc/paper/2015/file/250cf8b51c773f3f8dc8b4be867a9a02-Paper.pdf
FastText細(xì)粒度的文本分類
期刊日期
EACL2017
論文名稱
Bag of Tricks for Efficient Text Classification
描述
本文提出了一種簡(jiǎn)單而有效的文本分類和表示學(xué)習(xí)方法。我們的實(shí)驗(yàn)表明,我們的快速文本分類器fastText在準(zhǔn)確性方面通常與深度學(xué)習(xí)分類器保持一致,并且在訓(xùn)練和評(píng)估中速度快很多。我們可以在不到10分鐘的時(shí)間內(nèi)使用標(biāo)準(zhǔn)的多核CPU對(duì)超過10億個(gè)單詞進(jìn)行快速文本訓(xùn)練,并在不到一分鐘的時(shí)間內(nèi)對(duì)312K類中的50萬個(gè)句子進(jìn)行分類。
論文鏈接
https://arxiv.org/pdf/1607.01759v2.pdf
代碼:
https://github.com/facebookresearch/fastText
Deep_NMT使用LSTM解決機(jī)器翻譯問題
期刊日期
NLPS 2014
論文名稱
Sequence to Sequence Learning with Neural Networks
描述
DNN可以在有大量標(biāo)記訓(xùn)練集下表現(xiàn)很好,但是無法處理用于序列映射到序列。在本文中,我們提出了一種端到端的序列訓(xùn)練方法,可以對(duì)序列結(jié)構(gòu)做最小的假設(shè)。我們的方法使用了多層LSTM將輸入序列映射成一個(gè)固定維度的向量,然后用另一個(gè)深度LSTM從向量中解碼出目標(biāo)序列。
論文鏈接
https://arxiv.org/pdf/1409.3215.pdf
公眾號(hào)【學(xué)姐帶你玩AI】回復(fù)LSTM 領(lǐng)取論文資料
Bahdanau_NMT第一篇介紹attention的論文
期刊日期
ICLR2015
論文名稱
Neural Machine Translation by Jointly Learning to Align and Translate
描述
近年來,基于神經(jīng)網(wǎng)絡(luò)的機(jī)器翻譯模型經(jīng)常被用來處理機(jī)器翻譯任務(wù)。與傳統(tǒng)基于統(tǒng)計(jì)的翻譯方法相比,神經(jīng)機(jī)器翻譯模型意在構(gòu)建單個(gè)神經(jīng)網(wǎng)絡(luò)模型來提升整體翻譯準(zhǔn)確率,主要的模型架構(gòu)基本都是seq2seq家族的。在本論文中,作者認(rèn)為該模型的瓶頸主要在于中間轉(zhuǎn)換的固定緯度大小的向量。
因此,作者提出了一種新的解碼方式,其解碼的源頭并不僅僅包括該向量,他們希望構(gòu)建一種為當(dāng)前預(yù)測(cè)詞從輸入序列中自動(dòng)搜尋相關(guān)部分的機(jī)制(soft-search,也就是注意力機(jī)制)。作者運(yùn)用這種新的機(jī)制來搭建升級(jí)版的神經(jīng)機(jī)器翻譯模型,取得了卓越的效果,并且也通過定量分析來證明這種注意力機(jī)制的合理性。
論文鏈接
https://arxiv.org/abs/1409.0473
Han_Attention attention用于文本分類
期刊日期
NAACL2016
論文名稱
hierarchical attention networks for document classification
描述
文本分類問題一直是自然語言處理(NLP)中一個(gè)廣受人們關(guān)注的問題??赡芎枚鄤偨佑|深度學(xué)習(xí)做NLP的項(xiàng)目就是使用循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)對(duì)IMDB影評(píng)進(jìn)行分類。但使用循環(huán)神經(jīng)網(wǎng)絡(luò)時(shí)一般會(huì)遇到一個(gè)問題,那就是當(dāng)所要處理的序列較長(zhǎng)時(shí),就會(huì)導(dǎo)致網(wǎng)絡(luò)容易忘記之前的東西,這在機(jī)器翻譯、對(duì)話系統(tǒng)中會(huì)經(jīng)常出現(xiàn),為解決這一問題,大佬們就根據(jù)心理學(xué)原理提出了“注意力”機(jī)制,使得網(wǎng)絡(luò)工作過程中可以像人一樣將注意力放在不同部位。那么對(duì)于文本分類能否使用“注意力”機(jī)制呢?答案是肯定的,這篇論文就針對(duì)文本分類問題提出了層級(jí)注意力模型結(jié)合雙向RNN實(shí)現(xiàn)對(duì)文本的分類,其效果明顯好于其他方法。
論文鏈接
https://www.cc.gatech.edu/~dyang888/research.html
(代碼就自己發(fā)消息問作者要吧)
SGM第一篇使用序列生成做多標(biāo)簽文本分類
期刊日期
Coling2018
論文名稱
SGM: Sequence Generation Model for Multi-label Classification
描述
多標(biāo)簽分類是自然語言處理中一項(xiàng)重要但具有挑戰(zhàn)性的任務(wù)。它比單標(biāo)簽分類更復(fù)雜,因?yàn)闃?biāo)簽往往是相關(guān)的?,F(xiàn)有方法傾向于忽略標(biāo)簽之間的相關(guān)性。此外,文本的不同部分對(duì)預(yù)測(cè)不同標(biāo)簽的貢獻(xiàn)不同,這是現(xiàn)有模型沒有考慮的。在本文中,我們建議將多標(biāo)簽分類任務(wù)視為序列生成問題,并應(yīng)用具有新穎解碼器結(jié)構(gòu)的序列生成模型來解決該問題。大量的實(shí)驗(yàn)結(jié)果表明,我們提出的方法大大優(yōu)于以前的工作。
論文鏈接
https://arxiv.org/abs/1806.04822
參考代碼:
https://github.com/lancopku/SGM

覺得有用就點(diǎn)贊吧!
每天18:30分更新
關(guān)注【學(xué)姐帶你玩AI】+星標(biāo)+在看
不迷路看好文