基于NLP的內(nèi)容理解
鏈接:https://pan.baidu.com/s/1KibZPkTkkMuPYBmm_1ZyIA?pwd=aro8?
提取碼:aro8

編輯推薦
適讀人群 :(1)人工智能相關(guān)專業(yè)研究員以及信息科學(xué)和計(jì)算機(jī)科學(xué)的愛好者(2)自然語言處理和機(jī)器學(xué)習(xí)中級(jí)讀者和愛好者(3)統(tǒng)計(jì)學(xué)或相關(guān)IT專業(yè)學(xué)生
(1)作者背景資深:作者是資深A(yù)I技術(shù)專家,BAT高級(jí)算法工程師。
(2)作者經(jīng)驗(yàn)豐富:作者在NLP、內(nèi)容理解等領(lǐng)域有多年實(shí)踐經(jīng)驗(yàn)。
(3)揭秘大模型:揭秘大模型的底層技術(shù)原理,詳解文本內(nèi)容理解和生產(chǎn)的技術(shù)細(xì)節(jié)。
(4)解決6大難題:為內(nèi)容重復(fù)理解、內(nèi)容通順度識(shí)別及糾正、內(nèi)容質(zhì)量、標(biāo)簽體系構(gòu)建、文本摘要生成、文本糾錯(cuò)6大內(nèi)容理解難題提供基于NLP的解決方案。
(5)結(jié)合業(yè)務(wù)場景:所有內(nèi)容、技術(shù)、算法均從實(shí)際業(yè)務(wù)場景出發(fā),從問題的角度拆解問題。
(6)大量NLP算法:書中系統(tǒng)講解了可用于內(nèi)容理解的各種NLP算法的原理和使用。
(7)包含大量案例:以實(shí)戰(zhàn)為導(dǎo)向,用案例貫穿全書。
內(nèi)容簡介
這是一本講述如何用NLP技術(shù)進(jìn)行文本內(nèi)容理解的著作,也是一本系統(tǒng)講解NLP算法的著作,是作者在NLP和內(nèi)容理解領(lǐng)域多年經(jīng)驗(yàn)的總結(jié)。
本書結(jié)合內(nèi)容理解的實(shí)際業(yè)務(wù)場景,系統(tǒng)全面、循序漸進(jìn)地講解了各種NLP算法以及如何用這些算法高效地解決內(nèi)容理解方面的難題,主要包括如下幾個(gè)方面的內(nèi)容:
(1)文本特征表示
文本特征表示是NLP的基石,也是內(nèi)容理解的基礎(chǔ)環(huán)節(jié),本書詳細(xì)講解了離散型表示方法和分布型表示方法等特征表示方法及其應(yīng)用場景,還講解了詞向量的評(píng)判標(biāo)準(zhǔn)。
(2)內(nèi)容重復(fù)理解
詳細(xì)講解了標(biāo)題重復(fù)、段落重復(fù)、文章重復(fù)的識(shí)別方法和去重算法。
(3)內(nèi)容通順度識(shí)別及糾正
詳細(xì)講解了內(nèi)容通順度的識(shí)別方法以及糾正不通順內(nèi)容的方法。
(4)內(nèi)容質(zhì)量
詳細(xì)講解了多種內(nèi)容質(zhì)量相關(guān)的算法,以及如何搭建高質(zhì)量的知識(shí)問答體系的流程。
(5)標(biāo)簽體系構(gòu)建
詳細(xì)講解了針對(duì)內(nèi)容理解的標(biāo)簽體系的建設(shè)流程和方法,以及多種相關(guān)算法。
(6)文本摘要生成
詳細(xì)講解了抽取式文本摘要和生成式文本摘要兩種流行的文本摘要生成方法,以及文本摘要的常用數(shù)據(jù)集和文本摘要評(píng)價(jià)方法。
(7)文本糾錯(cuò)
詳細(xì)講解了文本糾錯(cuò)的傳統(tǒng)方法、深度學(xué)習(xí)方法、工業(yè)界解決方案,以及常用的文本糾錯(cuò)工具的安裝和使用。
作者簡介
李明琦
資深A(yù)I技術(shù)專家,現(xiàn)就職于BAT,擔(dān)任高級(jí)算法工程師。長期致力于機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、NLP等技術(shù)在實(shí)際業(yè)務(wù)場景中的落地,在內(nèi)容理解方面有豐富的經(jīng)驗(yàn),主導(dǎo)的內(nèi)容質(zhì)量項(xiàng)目曾獲得最佳項(xiàng)目獎(jiǎng)。
先后發(fā)表人工智能相關(guān)的學(xué)術(shù)論文2篇,申請(qǐng)人工智能領(lǐng)域的發(fā)明專利5項(xiàng)。在GitHub上貢獻(xiàn)了大量內(nèi)容質(zhì)量、問答系統(tǒng)、NLP等方面的代碼,在CSDN撰寫了一些與算法、機(jī)器學(xué)習(xí)、內(nèi)容理解相關(guān)的文章,深受歡迎。
谷 雪
現(xiàn)為葡萄牙米尼奧大學(xué)博士生,涉及的研究領(lǐng)域?yàn)樯窠?jīng)架構(gòu)搜索、自然語言處理、情感分析,博士期間著力于細(xì)粒度情感原因提取。先后發(fā)表過學(xué)術(shù)論文2篇,其中一篇是神經(jīng)架構(gòu)搜索的綜述,另一篇是基于進(jìn)化策略的神經(jīng)架構(gòu)演化方法。在GitHub上貢獻(xiàn)了大量深度學(xué)習(xí)、機(jī)器學(xué)習(xí)代碼,在CSDN上分享了服務(wù)器配置、數(shù)據(jù)分析、圖像去噪、情感分析等方向的多篇文章。
孟子堯
在人工智能技術(shù)領(lǐng)域有非常深厚的積累,擅長機(jī)器學(xué)習(xí)和深度學(xué)習(xí),尤其是深度學(xué)習(xí)中的圖像分類和自然語言處理等技術(shù)。熱衷于開源的應(yīng)用和推廣,在GitHub和CSDN上貢獻(xiàn)了許多代碼和文章。在《計(jì)算機(jī)研究與發(fā)展》上發(fā)表過1篇人工智能相關(guān)論文。
精彩書評(píng)
內(nèi)容理解在業(yè)務(wù)場景中的應(yīng)用非常廣泛,從解決問題的角度闡述內(nèi)容理解是一種比較新穎的嘗試,書中獨(dú)特的解決問題的視角讓人深受啟發(fā),讓很多人不由自主地愛上技術(shù)。一個(gè)優(yōu)秀的工程師不僅要精通算法和代碼,更要清晰地運(yùn)用匹配的技術(shù)產(chǎn)生巨大的價(jià)值。
—— 薛朝陽 熙瀚科技公司董事長
基于NLP的內(nèi)容理解是目前很多業(yè)務(wù)場景中廣泛使用的技術(shù)。本書內(nèi)容全面且系統(tǒng),覆蓋算法的基礎(chǔ)原理和具體的應(yīng)用場景;實(shí)戰(zhàn)案例豐富、具體,可操作性很強(qiáng),理論與實(shí)踐緊密結(jié)合;風(fēng)格幽默風(fēng)趣,帶領(lǐng)讀者循序漸進(jìn)地掌握具體技術(shù),推薦閱讀。
—— 鄧云芬 職范獵頭CEO
通讀完內(nèi)容理解這本書,真是受益匪淺。市面上已經(jīng)有一些內(nèi)容理解相關(guān)的圖書,但是鮮有能夠?qū)⑺惴ɑA(chǔ)理論和內(nèi)容理解結(jié)合得這么好,覆蓋得這么全面。這本書使用嚴(yán)謹(jǐn)?shù)奈淖?,深入淺出地闡述了作者的理論感悟與實(shí)踐心得,是一本值得收藏的好書。
—— 黃一鵬 北京好欣晴移動(dòng)醫(yī)療科技有限公司CEO
目錄
CONTENTS
目 錄
前言
第1章 文本特征表示 1
1.1 語料與語料預(yù)處理 1
1.1.1 語料和語料庫 1
1.1.2 語料預(yù)處理 2
1.2 文本特征表示方法 6
1.2.1 離散型特征表示方法 6
1.2.2 分布型特征表示方法 13
1.3 詞向量的評(píng)判標(biāo)準(zhǔn) 29
1.3.1 內(nèi)部評(píng)估 29
1.3.2 外在評(píng)估 31
1.4 本章小結(jié) 34
第2章 內(nèi)容重復(fù)理解 35
2.1 標(biāo)題重復(fù) 35
2.1.1 標(biāo)題符號(hào)規(guī)整化處理 36
2.1.2 Jieba分詞 39
2.1.3 LAC分詞 43
2.1.4 基于分詞及字符串等
方式進(jìn)行重復(fù)識(shí)別 45
2.2 段落重復(fù)識(shí)別實(shí)例 47
2.2.1 段落重復(fù)識(shí)別 47
2.2.2 基于N-gram算法進(jìn)行
內(nèi)容去重 48
2.2.3 平滑處理技術(shù) 54
2.3 基于相似度計(jì)算的文章判重 57
2.3.1 文本相似度計(jì)算任務(wù)
的分析 57
2.3.2 距離度量方式 58
2.3.3 基于SimHash算法進(jìn)行
文本重復(fù)檢測 62
2.4 本章小結(jié) 66
第3章 內(nèi)容通順度識(shí)別及糾正 67
3.1 數(shù)據(jù)增強(qiáng) 67
3.2 基于FastText算法的句子
通順度識(shí)別 73
3.2.1 CBOW模型 74
3.2.2 FastText算法原理 75
3.2.3 FastText算法實(shí)戰(zhàn) 81
3.3 基于TextCNN算法的分類
任務(wù)實(shí)現(xiàn) 93
3.3.1 專有名詞簡介 93
3.3.2 算法介紹 94
3.3.3 參數(shù)調(diào)優(yōu)經(jīng)驗(yàn)總結(jié) 96
3.3.4 基于Keras工具實(shí)現(xiàn)TextCNN算法 96
3.4 基于TextRNN算法的分類
任務(wù)實(shí)現(xiàn) 98
3.4.1 LSTM和BiLSTM 98
3.4.2 TextCNN和TextRNN
識(shí)別效果對(duì)比 105
3.5 基于Seq2Seq模型的
糾正策略 106
3.5.1 Seq2Seq模型原理 106
3.5.2 糾正不通順句子的方法 108
3.6 本章小結(jié) 114
第4章 內(nèi)容質(zhì)量 116
4.1 GBDT算法 116
4.1.1 GBDT算法概述 117
4.1.2 負(fù)梯度擬合 117
4.1.3 GBDT回歸算法 118
4.1.4 GBDT分類算法 119
4.2 XGBoost算法 121
4.2.1 從GBDT到XGBoost 121
4.2.2 XGBoost損失函數(shù) 122
4.2.3 XGBoost損失函數(shù)的
優(yōu)化求解 124
4.2.4 XGBoost算法流程 125
4.2.5 XGBoost算法參數(shù)
及調(diào)優(yōu) 127
4.3 知識(shí)問答質(zhì)量體系的搭建 129
4.3.1 知識(shí)問答質(zhì)量體系
建立的意義 130
4.3.2 整體的項(xiàng)目實(shí)施方案 130
4.3.3 知識(shí)問答質(zhì)量體系
搭建流程 133
4.4 本章小結(jié) 142
第5章 標(biāo)簽體系構(gòu)建 143
5.1 標(biāo)簽體系 143
5.1.1 標(biāo)簽體系的重要性 143
5.1.2 標(biāo)簽體系的分類 144
5.1.3 構(gòu)建標(biāo)簽體系 146
5.2 TF-IDF算法 151
5.2.1 TF-IDF算法介紹 151
5.2.2 TF-IDF算法實(shí)現(xiàn) 152
5.3 PageRank算法 155
5.4 TextRank算法 163
5.4.1 TextRank算法的使用
場景 164
5.4.2 TextRank算法的
優(yōu)缺點(diǎn) 168
5.5 本章小結(jié) 168
第6章 文本摘要生成 169
6.1 文本摘要相關(guān)介紹 169
6.1.1 文本摘要問題定義 169
6.1.2 文本摘要分類 170
6.1.3 文本摘要的技術(shù)和方法 170
6.2 基于無監(jiān)督的抽取式文本摘要 172
6.2.1 基于經(jīng)驗(yàn)的文本摘要 173
6.2.2 基于主題模型的
文本摘要 175
6.2.3 基于圖的文本摘要 182
6.2.4 基于特征評(píng)分的
文本摘要 185
6.2.5 基于聚類的文本摘要 188
6.3 基于有監(jiān)督的抽取式文本摘要 191
6.4 基于深度神經(jīng)網(wǎng)絡(luò)的生成式
文本摘要 201
6.5 文本摘要常用數(shù)據(jù)集 210
6.6 文本摘要評(píng)價(jià)方法 211
6.6.1 自動(dòng)評(píng)價(jià)方法 211
6.6.2 人工評(píng)價(jià)方法 213
6.7 本章小結(jié) 213
第7章 文本糾錯(cuò) 214
7.1 錯(cuò)誤來源及類型 214
7.2 文本糾錯(cuò)的3種傳統(tǒng)方法 215
7.2.1 模板匹配 215
7.2.2 編輯距離匹配 216
7.2.3 HANSpeller++框架 217
7.3 文本糾錯(cuò)深度學(xué)習(xí)方法 220
7.3.1 英文文本糾錯(cuò)方法 220
7.3.2 中文文本糾錯(cuò)方法 224
7.4 工業(yè)界解決方法 233
7.4.1 3階段級(jí)聯(lián)的糾錯(cuò)方案 234
7.4.2 符合多種場景的通用
糾錯(cuò)方案 236
7.4.3 保險(xiǎn)文本的糾錯(cuò)方案 237
7.5 文本糾錯(cuò)工具 239
7.5.1 pycorrector 239
7.5.2 xmnlp 240
7.6 本章小結(jié) 242
查看全部↓
前言/序言
Preface
前 言
為何寫作本書
隨著人工智能的蓬勃發(fā)展,大量應(yīng)用場景中都會(huì)涉及文本的內(nèi)容理解技術(shù)。由于場景不同,目前文本內(nèi)容理解沒有統(tǒng)一的模板,解決起來并不容易。市場上有各種各樣的機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、自然語言處理等資料,但是都沒有與業(yè)務(wù)場景緊密地聯(lián)系起來,即使有聯(lián)系也很籠統(tǒng),并沒有涉及實(shí)際業(yè)務(wù)場景中非?,嵥榈募?xì)節(jié)問題。而只有把這些細(xì)節(jié)問題解決好,才能更好地發(fā)展業(yè)務(wù)。同時(shí),市面上從問題的角度講解算法等相關(guān)知識(shí)的書很少,而在業(yè)務(wù)場景中更多的是通過簡單且匹配的技術(shù)解決業(yè)務(wù)問題。所以,我想把如何從問題的角度拆解問題,然后通過匹配的技術(shù)解決業(yè)務(wù)問題的方法分享給大家。
在很多人眼里,寫書是一件很困難的事情。不過我很想挑戰(zhàn)一下,想在這種痛苦的“煎熬”之后,“榨干”自己的思想,交上一份滿意的答卷。而且我一直堅(jiān)信寫書是一件非常有意義的事情,不僅能將自己積淀的知識(shí)固化下來,還能在回顧技術(shù)的過程中閃現(xiàn)更多新的想法。最最重要的是,我覺得把自己的技術(shù)經(jīng)驗(yàn)、業(yè)務(wù)經(jīng)驗(yàn)、深度思考等分享給更多的人,讓更多的人可以站在前人的經(jīng)驗(yàn)上繼續(xù)前行,是一件無私且偉大的事情。
這本書是我和自己讀研時(shí)期的摯友共同完成的。寫書不僅加深了我們之間的友誼,還讓我們更加堅(jiān)信,科技可以改變世界。