技術(shù)與工具|AntConc:實用的本地語料庫檢索工具
2022-09-13 21:02 作者:翻譯技術(shù)點津 | 我要投稿
01
寫在前面
讀者朋友們大家好??上期推文中小編向大家推薦了一款簡單易上手的語料庫檢索工具AntConc,大家是否仍意猶未盡?
本期推文小編將詳細介紹AntConc每一個工具的功能和具體操作方法,快打開電腦下載軟件跟小編一起學(xué)習(xí)操作吧!
本期推文小編將詳細介紹AntConc每一個工具的功能和具體操作方法,快打開電腦下載軟件跟小編一起學(xué)習(xí)操作吧!
官網(wǎng)鏈接:http://www.laurenceanthony.net/software/antconc/
小編使用的是AntConc 4.1.0版本,推薦大家下載最新版本,另外本期推文中用到的材料小編一并呈送給大家!

▲AntConc 4.1.0
02
功能展示
A.導(dǎo)入文件
AntConc是單語語料庫分析工具,因此只能導(dǎo)入單語文件。AntConc支持導(dǎo)入.doc、.txt和.pdf等多種格式文件,小編推薦大家導(dǎo)入txt格式文件,編碼為UTF-8。準(zhǔn)備好文件之后,點擊File??Open File(s)as 'Quick Corpus...'??找到對應(yīng)文件導(dǎo)入即可。

導(dǎo)入后的文件信息:

AntConc支持同時選中多個文件導(dǎo)入。使用快捷鍵Ctrl+O,點擊Save即可將導(dǎo)入的文件保存為.db格式文件,相當(dāng)于創(chuàng)建了一個基于導(dǎo)入文件的語料庫,可供下次使用。此外,AntConc內(nèi)置了英式英語和美式英語語料庫,用戶可選擇使用。

▲將臨時語料庫保存為個人語料庫
B.檢索顯示及高級檢索
(1)上下文關(guān)鍵詞上下文關(guān)鍵詞(KWIC)是一種常用的語料庫檢索顯示方式,關(guān)鍵詞居中,其前后的語句同時顯示。
小編導(dǎo)入了2022年GWR部分文本,一起來檢索work這個單詞試試。

查看索引條數(shù):5個

(2)文件(File)
雙擊藍色部分,即可跳轉(zhuǎn)到File工具中查看原文件對應(yīng)語境。

在此頁面,大家可進行如下操作:
(1)在搜索框輸入自己想要的檢索詞如CPC,再按開始(Start),檢索詞便會突出顯示(默認藍色),并一覽檢索詞在原文出現(xiàn)的位置。
(2)下方的 Hit Location 按鈕,便可檢索詞快速定位查找,輕松跳到上一個或下一個檢索詞上。其中Case為大小寫敏感、Regex為正則表達式。
(3)關(guān)于正則表達式的學(xué)習(xí),小編推薦一個網(wǎng)站https://www.runoob.com/regexp/regexptutorial.html

(3)定位(Plot)
點擊Plot可以根據(jù)索引定位查看該文本中單詞出現(xiàn)的頻率和分布的位置,點擊藍條可直達文本。

(4)高級檢索
在KWIC檢索界面下方點擊Adv Search可進行高級檢索。
① 同時檢索多個單詞

高級檢索②:使用通配符檢索從Global Settings-->Search中的Wildcards可以看到通配符使用方法。

示例:用“*ing”查找所有帶ing的單詞

高級檢索③:根據(jù)語境檢索,如限制范圍,檢索搭配。比如限制從work左邊5個單詞到work右邊5個單詞內(nèi),出現(xiàn)with的句段:






C.詞叢
詞叢工具可生成目標(biāo)文件中檢索詞周圍排列成序的詞叢列單。在此頁面,我們可以進行的操作如:1) 既可按照頻率、詞頭、詞尾排序,也可以按照詞叢第一個單詞的出現(xiàn)概率排序。所有的排列順序還可以一鍵反向?。c擊Invert Order就好啦)2)用戶也可以選擇每個詞叢的最大或最小長度(指單詞數(shù)哦),以及列出詞叢的最小頻率。也可以選擇檢索詞在詞叢中的分布位置,詞叢左邊或右邊。
D.N元模式
N元模式也就是部分詞叢,它與Cluster功能操作起來很像,那么為何會將其又單獨列為一個功能呢?我們先來了解一下此處何為N元呢?其實小編覺得在該模式下,語料所進行的工作像極了咱們N年前所學(xué)的排列組合。假如你只需要3個單詞,那么你的N元范圍就是3,如目標(biāo)文檔中一句“The Covid-19 pandemic is still ongoing. ”,該句中的3元就是“The Covid-19 pandemic”“Covid-19 pandemic is”“pandemic is still”“is still ongoing”。
E.搭配

相信在COCA語料庫中,搭配這一功能你已爛熟于心。(沒有?那面壁去……)此處,小編為你亮出新鮮知識點,語料庫在判斷幾個單詞組成的詞組能否構(gòu)成搭配會取決于以下三個重要參數(shù):對數(shù)似然值,交互信息值(MI)和T值(T-Score)。
對數(shù)似然值:是反映真實性的一種指標(biāo),一般數(shù)值越高,相關(guān)性越高。在同一方框內(nèi)還有其他選項,如卡方檢驗(Chi-Squared):值越大,偏差越小,相關(guān)性越低。
交互信息值( Mutual Information Score):MI值表示的是互相共現(xiàn)的兩個詞中,一個詞對另一個詞的影響程度或者說一個詞在語料庫中出現(xiàn)的頻數(shù)所能提供的關(guān)于另一個詞出現(xiàn)的概率信息。MI值測量的是搭配強度,它有助于識別科技術(shù)語和固定詞組。
T值(T-Score):T值是根據(jù)假設(shè)檢驗中的t檢驗計算得來的。T值反映的是對顯著搭配詞的把握性,能使研究者有把握地確定與節(jié)點詞共現(xiàn)頻數(shù)較高的顯著搭配詞。
F.詞單
詞單工具對語料中所有的單詞進行計數(shù),并按照詞頻、詞性、單詞的字母順序等規(guī)則排序。點擊窗口最下方的“Sort by”下拉選項,可以選擇排序規(guī)則來顯示結(jié)果。
G.關(guān)鍵詞單
關(guān)鍵詞單可以比較兩個語料庫中的關(guān)鍵詞。使用快捷鍵Ctrl+O打開語料庫管理工具,在目標(biāo)語料庫和參考語料庫中分別打開2022年政府工作報告和2017年政府工作報告,Sort by后選擇type,然后點擊“Star”進行搜索,可以得到如下結(jié)果:
根據(jù)列表可以看出,相較于2017年的政府工作報告,2022年政府工作報告中的關(guān)鍵名詞是“carbon”和“covid”,與2022年國家的碳排放政策和防疫政策恰好吻合。

在語料庫管理工具中交換目標(biāo)語料庫和參考語料庫(即目標(biāo)語料庫改為17年政府工作報告),僅得到“progress”這一個關(guān)鍵詞,可見相較于22年政府工作報告,17年政府工作報告更多地提到了“發(fā)展”。

(3)點擊Star即可生成詞云。如有需要可設(shè)置詞云的顏色、形狀、圖片大小等參數(shù)。
H.詞云
用戶借助Antconc可以將語料庫檢索結(jié)果可視化。生成一個語料庫的基本操作如下:(1)使用KWIC、Plot、File等工具生成數(shù)據(jù)(2)點擊source下拉選項,根據(jù)需求選擇需要生成詞云的工具,也可以點擊ScratchPad輸入自定義文本生成詞云。
(3)點擊Star即可生成詞云。如有需要可設(shè)置詞云的顏色、形狀、圖片大小等參數(shù)。
03 總結(jié)
AntConc作為一款語料庫檢索工具,相比于WordSmith等專業(yè)工具,工具欄布局合理,操作簡便,上手容易,對新人極為友好,只要有語料就能迅速搭建一個簡易的原料庫。當(dāng)然,其缺點也很明顯,缺少一些詳細的功能,在做翻譯研究時很受限。主要參考資料
1. Larence Anthony,AntConc 4.0 使用教程,
https://www.bilibili.com/video/BV15T411V7Us?spm_id_from=333.337.search-card.all.click&vd_source=05abec20c6423945bd3aca52f1b4880a
2. 劉世界,AntConc語料庫檢索及分析軟件_全系列完整版教程,
https://www.bilibili.com/video/BV1z5411t7FN?share_source=copy_web&vd_source=d4744805a3e716c7d611be8c989392d9
3. 免費的AntConc:強大好用的本地語料檢索工具,
https://www.jianshu.com/p/3c7c178ddfcc
審核:朱華 李丹平 張啟雯
關(guān)注VX公眾號“翻譯技術(shù)教育與研究”、“語言服務(wù)行業(yè)”,了解更多語言服務(wù)行業(yè)與翻譯技術(shù)相關(guān)的資訊和洞察~
標(biāo)簽: