手機(jī)站首頁散文詩歌雜文隨筆日記小小說

散文網(wǎng) » 生活 »日常 » NLP經(jīng)典論文推薦：baseline paper（文本分類）

NLP經(jīng)典論文推薦：baseline paper（文本分類）

2022-01-20 18:56 作者:深度之眼官方賬號(hào) 0人讀過 | 我要投稿

Word2Vec詞向量扛鼎之作

期刊日期

ICLR2013

論文名稱

Efficient Estimation of Word Representation in Vector Space

描述

提出兩個(gè)新穎的模型來計(jì)算詞的連續(xù)向量表示，這些表示的質(zhì)量用詞的相似度來計(jì)算，結(jié)果和其他表現(xiàn)最好的技術(shù)進(jìn)行比較。我們發(fā)現(xiàn)有很大的提高而且計(jì)算量低，比如1.6百萬的詞只需要不到一天的計(jì)算，而且這些向量對(duì)于語義和語法的相似度的計(jì)算獲得最好的成績(jī)。

論文鏈接

https://arxiv.org/pdf/1301.3781v3.pdf

關(guān)注公眾號(hào)后臺(tái)回復(fù)“Word2Vec”，領(lǐng)取資料。

Glove最出名的詞向量訓(xùn)練方法之一

期刊日期

EMNLP2014

論文名稱

GloVe: Global Vectors for Word Representation

描述

學(xué)習(xí)詞的向量空間表示可以很好捕獲語法和語義規(guī)則信息，但是這些規(guī)則的起源并不透明。我們分析和闡明模型需要的這些規(guī)則。這是logbilinear regression模型，集合了全局矩陣分解和本地窗口大小的方法。模型訓(xùn)練在詞和詞的共現(xiàn)矩陣中，而不是整個(gè)語料庫的稀疏矩陣。

論文鏈接

http://emnlp2014.org/papers/pdf/EMNLP2014162.pdf

Char Embedding第一篇介紹字符嵌入的論文

期刊日期

EMNLP2015

論文名稱

Compositional character models for open vocabulary word representation

描述

我們引入了一種通過使用雙向 LSTM 組合字符來構(gòu)建單詞向量表示的模型。相對(duì)于每個(gè)詞類型都有獨(dú)立向量的傳統(tǒng)詞表示模型，我們的模型只需要每個(gè)字符類型一個(gè)向量和一組固定的組合模型參數(shù)。盡管這個(gè)模型很緊湊，更重要的是，語言中形式-功能關(guān)系的任意性，我們的“組合”詞表示在語言建模和詞性標(biāo)注方面產(chǎn)生了最先進(jìn)的結(jié)果。在形態(tài)豐富的語言（例如土耳其語）中，優(yōu)于傳統(tǒng)基線的優(yōu)勢(shì)尤為明顯。

論文鏈接

https://arxiv.org/pdf/1508.02096.pdf

代碼：

https://github.com/wlin12/JNN

TextCNN第一篇CNN用于文本分類的文章

期刊日期

EMNLP2014

論文名稱

Convolutional Neural Network for Sentence Classification

描述

本文報(bào)告了在預(yù)訓(xùn)練詞向量之上訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò) (CNN) 的一系列實(shí)驗(yàn)，用于句子級(jí)分類任務(wù)。我們表明，具有很少超參數(shù)調(diào)整和靜態(tài)向量的簡(jiǎn)單 CNN 在多個(gè)基準(zhǔn)測(cè)試中取得了出色的結(jié)果。通過微調(diào)學(xué)習(xí)特定于任務(wù)的向量可進(jìn)一步提高性能。我們還建議對(duì)架構(gòu)進(jìn)行簡(jiǎn)單的修改，以允許使用特定于任務(wù)的向量和靜態(tài)向量。此處討論的 CNN 模型在 7 個(gè)任務(wù)中的 4 個(gè)任務(wù)上改進(jìn)了現(xiàn)有技術(shù)，其中包括情感分析和問題分類。

論文鏈接

https://arxiv.org/pdf/1408.5882.pdf

CharTextCNN第一篇字符級(jí)別文本分類模型

期刊日期

NIPS2015

論文名稱

Character-level Convolutional Networks for Text Classification

描述

一方面目前文本分類技術(shù)主要考慮詞或詞的組合；另一方面，研究表明，卷積神經(jīng)網(wǎng)絡(luò)在從原始信號(hào)中抽取信息的方面，非常有用。在這篇論文中，作者將字符級(jí)的文本當(dāng)做原始信號(hào)，并且使用一維的卷積神經(jīng)網(wǎng)絡(luò)來處理它。研究表明，單詞嵌入表示可以直接用于卷積神經(jīng)網(wǎng)絡(luò)，而無需考慮語言的語法或語義結(jié)構(gòu)。

這篇論文，僅僅使用字符，運(yùn)用在卷積神經(jīng)網(wǎng)絡(luò)上。作者發(fā)現(xiàn)，當(dāng)訓(xùn)練大規(guī)模數(shù)據(jù)集的時(shí)候，深度卷積神經(jīng)網(wǎng)絡(luò)并不需要單詞層面的意義（包括語言的語法和語義）。這是非常激動(dòng)人心的工程簡(jiǎn)化，因?yàn)椴还苁裁凑Z言，它都是由字符組成的，因此這對(duì)于構(gòu)建跨語言的系統(tǒng)至關(guān)重要。還有一個(gè)好處，對(duì)于異常的字符組成（比如拼寫錯(cuò)誤）和表情符，該模型依然能夠應(yīng)付。

論文鏈接

https://proceedings.neurips.cc/paper/2015/file/250cf8b51c773f3f8dc8b4be867a9a02-Paper.pdf

FastText細(xì)粒度的文本分類

期刊日期

EACL2017

論文名稱

Bag of Tricks for Efficient Text Classification

描述

本文提出了一種簡(jiǎn)單而有效的文本分類和表示學(xué)習(xí)方法。我們的實(shí)驗(yàn)表明，我們的快速文本分類器fastText在準(zhǔn)確性方面通常與深度學(xué)習(xí)分類器保持一致，并且在訓(xùn)練和評(píng)估中速度快很多。我們可以在不到10分鐘的時(shí)間內(nèi)使用標(biāo)準(zhǔn)的多核CPU對(duì)超過10億個(gè)單詞進(jìn)行快速文本訓(xùn)練，并在不到一分鐘的時(shí)間內(nèi)對(duì)312K類中的50萬個(gè)句子進(jìn)行分類。

論文鏈接

https://arxiv.org/pdf/1607.01759v2.pdf

代碼：

https://github.com/facebookresearch/fastText

Deep_NMT使用LSTM解決機(jī)器翻譯問題

期刊日期

NLPS 2014

論文名稱

Sequence to Sequence Learning with Neural Networks

描述

DNN可以在有大量標(biāo)記訓(xùn)練集下表現(xiàn)很好，但是無法處理用于序列映射到序列。在本文中，我們提出了一種端到端的序列訓(xùn)練方法，可以對(duì)序列結(jié)構(gòu)做最小的假設(shè)。我們的方法使用了多層LSTM將輸入序列映射成一個(gè)固定維度的向量，然后用另一個(gè)深度LSTM從向量中解碼出目標(biāo)序列。

論文鏈接

https://arxiv.org/pdf/1409.3215.pdf

公眾號(hào)【學(xué)姐帶你玩AI】回復(fù)LSTM 領(lǐng)取論文資料

Bahdanau_NMT第一篇介紹attention的論文

期刊日期

ICLR2015

論文名稱

Neural Machine Translation by Jointly Learning to Align and Translate

描述

近年來，基于神經(jīng)網(wǎng)絡(luò)的機(jī)器翻譯模型經(jīng)常被用來處理機(jī)器翻譯任務(wù)。與傳統(tǒng)基于統(tǒng)計(jì)的翻譯方法相比，神經(jīng)機(jī)器翻譯模型意在構(gòu)建單個(gè)神經(jīng)網(wǎng)絡(luò)模型來提升整體翻譯準(zhǔn)確率，主要的模型架構(gòu)基本都是seq2seq家族的。在本論文中，作者認(rèn)為該模型的瓶頸主要在于中間轉(zhuǎn)換的固定緯度大小的向量。

因此，作者提出了一種新的解碼方式，其解碼的源頭并不僅僅包括該向量，他們希望構(gòu)建一種為當(dāng)前預(yù)測(cè)詞從輸入序列中自動(dòng)搜尋相關(guān)部分的機(jī)制（soft-search，也就是注意力機(jī)制）。作者運(yùn)用這種新的機(jī)制來搭建升級(jí)版的神經(jīng)機(jī)器翻譯模型，取得了卓越的效果，并且也通過定量分析來證明這種注意力機(jī)制的合理性。

論文鏈接

https://arxiv.org/abs/1409.0473

Han_Attention attention用于文本分類

期刊日期

NAACL2016

論文名稱

hierarchical attention networks for document classification

描述

文本分類問題一直是自然語言處理（NLP）中一個(gè)廣受人們關(guān)注的問題?？赡芎枚鄤偨佑|深度學(xué)習(xí)做NLP的項(xiàng)目就是使用循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）對(duì)IMDB影評(píng)進(jìn)行分類。但使用循環(huán)神經(jīng)網(wǎng)絡(luò)時(shí)一般會(huì)遇到一個(gè)問題，那就是當(dāng)所要處理的序列較長(zhǎng)時(shí)，就會(huì)導(dǎo)致網(wǎng)絡(luò)容易忘記之前的東西，這在機(jī)器翻譯、對(duì)話系統(tǒng)中會(huì)經(jīng)常出現(xiàn)，為解決這一問題，大佬們就根據(jù)心理學(xué)原理提出了“注意力”機(jī)制，使得網(wǎng)絡(luò)工作過程中可以像人一樣將注意力放在不同部位。那么對(duì)于文本分類能否使用“注意力”機(jī)制呢？答案是肯定的，這篇論文就針對(duì)文本分類問題提出了層級(jí)注意力模型結(jié)合雙向RNN實(shí)現(xiàn)對(duì)文本的分類，其效果明顯好于其他方法。

論文鏈接

https://www.cc.gatech.edu/~dyang888/research.html

（代碼就自己發(fā)消息問作者要吧）

SGM第一篇使用序列生成做多標(biāo)簽文本分類

期刊日期

Coling2018

論文名稱

SGM: Sequence Generation Model for Multi-label Classification

描述

多標(biāo)簽分類是自然語言處理中一項(xiàng)重要但具有挑戰(zhàn)性的任務(wù)。它比單標(biāo)簽分類更復(fù)雜，因?yàn)闃?biāo)簽往往是相關(guān)的?，F(xiàn)有方法傾向于忽略標(biāo)簽之間的相關(guān)性。此外，文本的不同部分對(duì)預(yù)測(cè)不同標(biāo)簽的貢獻(xiàn)不同，這是現(xiàn)有模型沒有考慮的。在本文中，我們建議將多標(biāo)簽分類任務(wù)視為序列生成問題，并應(yīng)用具有新穎解碼器結(jié)構(gòu)的序列生成模型來解決該問題。大量的實(shí)驗(yàn)結(jié)果表明，我們提出的方法大大優(yōu)于以前的工作。

論文鏈接

https://arxiv.org/abs/1806.04822

參考代碼：

https://github.com/lancopku/SGM

覺得有用就點(diǎn)贊吧！

每天18：30分更新

關(guān)注【學(xué)姐帶你玩AI】+星標(biāo)+在看

不迷路看好文

標(biāo)簽：