Active Retrieval Augmented Generation (主動(dòng)檢索增強(qiáng)生成)
Affiliation: Language Technologies Institute, Carnegie Mellon University (卡內(nèi)基梅隆大學(xué)語言技術(shù)研究所)
Keywords: retrieval-augmented generation, language models, long-form generation, active retrieval, forward-looking, natural language processing
URLs: paper:?https://arxiv.org/abs/2305.06983v1,
方法:
a. 理論背景:
本文討論了大型語言模型(LMs)生成的幻覺和想象內(nèi)容的問題。作者提出了一種解決方案,即通過增加檢索組件來增強(qiáng)LMs,以從外部知識(shí)資源中查找相關(guān)信息。然而,大多數(shù)現(xiàn)有的檢索增強(qiáng)LMs僅采用基于輸入的一次檢索和生成設(shè)置,限制了它們?cè)谏婕伴L篇生成的場景中的適用性,其中在整個(gè)生成過程中持續(xù)收集信息是必要的。
b. 技術(shù)路線:
作者提出了一種名為Forward-Looking Active Retrieval augmented generation (FLARE)的通用檢索增強(qiáng)生成方法,它可以在生成過程中主動(dòng)決定何時(shí)以及何時(shí)檢索。作者通過生成一個(gè)臨時(shí)的下一個(gè)句子,將其用作查詢以檢索相關(guān)文檔,然后在檢索到的文檔的條件下重新生成下一個(gè)句子。作者在4個(gè)長篇知識(shí)密集型生成任務(wù)/數(shù)據(jù)集上測試了FLARE,并與其他檢索增強(qiáng)LMs進(jìn)行了比較,取得了優(yōu)越或具有競爭力的性能。FLARE適用于推理時(shí)的任何現(xiàn)有LMs,無需額外的訓(xùn)練。作者得出結(jié)論,LMs中使用主動(dòng)檢索可以獲得更好的性能,特別是對(duì)于信息需求復(fù)雜且不總是從輸入中明顯的長篇生成任務(wù)。
這篇論文的方法是這樣的:
首先,根據(jù)用戶的輸入,調(diào)用預(yù)定義工具之一,
search_web(query: str) -> str
,來在網(wǎng)上搜索相關(guān)的信息。這個(gè)工具會(huì)返回一個(gè)包含網(wǎng)頁搜索結(jié)果、圖片搜索結(jié)果、新聞搜索結(jié)果和問答搜索結(jié)果的JSON字符串。然后,根據(jù)用戶的任務(wù),選擇合適的搜索結(jié)果作為外部知識(shí)資源,與用戶的輸入一起作為語言模型(LM)的輸入,生成一個(gè)臨時(shí)的下一句話(s^t)。
接著,檢查st中是否有低概率的詞(即LM不確定或缺乏知識(shí)的詞),如果有,則使用st作為查詢?cè)俅握{(diào)用
search_web(query: str) -> str
,獲取更多相關(guān)的信息,并重新生成s^t。最后,如果s^t中沒有低概率的詞,則接受它作為最終的輸出,并繼續(xù)生成下一句話,直到達(dá)到預(yù)定的長度或結(jié)束符。
舉個(gè)例子,假設(shè)用戶的輸入是“Generate a summary about Joe Biden.”,那么這個(gè)方法可能會(huì)執(zhí)行如下步驟:
調(diào)用
search_web("Joe Biden")
,得到一些關(guān)于喬·拜登的網(wǎng)頁、圖片、新聞和問答。選擇網(wǎng)頁搜索結(jié)果中排名最高的兩篇文章作為外部知識(shí)資源,并與用戶的輸入一起作為LM的輸入,生成一個(gè)臨時(shí)的下一句話:“Joe Biden (born November 20, 1942) is the 46th president of the United States.”。
檢查s^t中是否有低概率的詞,發(fā)現(xiàn)沒有,因此接受它作為最終的輸出,并將其添加到之前的輸出中。
重復(fù)上述過程,生成下一句話:“He graduated from the University of Delaware in 1965 with a Bachelor of Arts in history and political science.”。
檢查s^t中是否有低概率的詞,發(fā)現(xiàn)有一個(gè)“political science”,因此使用s^t作為查詢?cè)俅握{(diào)用
search_web("He graduated from the University of Delaware in 1965 with a Bachelor of Arts in history and political science.")
,得到更多相關(guān)的信息,并重新生成s^t:“He graduated from the University of Delaware in 1965 with a Bachelor of Arts in history and political science, and then attended Syracuse University College of Law, where he earned his Juris Doctor in 1968.”。檢查s^t中是否有低概率的詞,發(fā)現(xiàn)沒有,因此接受它作為最終的輸出,并將其添加到之前的輸出中。
以此類推,直到生成一個(gè)完整和準(zhǔn)確的摘要。
結(jié)果:
a. 詳細(xì)的實(shí)驗(yàn)設(shè)置:
本文描述了一種檢索增強(qiáng)的LM,其目標(biāo)是通過利用文檔語料庫中的信息生成答案。LM與一個(gè)檢索器配對(duì),可以檢索到一系列文檔。本文提出了一種主動(dòng)檢索增強(qiáng)生成框架,其中檢索和生成交替進(jìn)行。該框架使用兩種前瞻性主動(dòng)檢索增強(qiáng)方法,F(xiàn)LAREinstruct和FLAREdirect,以鼓勵(lì)或生成查詢指令。這些方法在生成答案時(shí)提示LM生成檢索查詢。本文還提出了兩種簡單的方法,基于置信度的主動(dòng)檢索和基于置信度的查詢構(gòu)建,以解決使用FLAREdirect時(shí)出現(xiàn)的問題。所提出的方法在檢索增強(qiáng)方面顯示出改進(jìn),與現(xiàn)有方法相比。
b. 詳細(xì)的實(shí)驗(yàn)結(jié)果:
本文討論了一種用于輔助長篇生成的主動(dòng)檢索增強(qiáng)生成框架,該框架在生成過程中決定何時(shí)以及何時(shí)檢索。該框架采用前瞻性主動(dòng)檢索,如果下一個(gè)句子包含低置信度標(biāo)記,則迭代使用即將到來的句子檢索相關(guān)信息,并重新生成后續(xù)句子。研究在四個(gè)不同的任務(wù)/數(shù)據(jù)集上提供了實(shí)驗(yàn)結(jié)果,證明了所提方法的有效性,其優(yōu)于先前的基線方法。研究得出結(jié)論,所提出的方法在需要檢索增強(qiáng)的長篇生成情況下非常有用,但在短輸出情況下可能不是必要的。此外,該方法的實(shí)施增加了開銷和生成成本,但可以通過特殊的架構(gòu)設(shè)計(jì)來減輕這個(gè)問題,該架構(gòu)將檢索到的文檔和輸入/生成獨(dú)立編碼。未來的研究方向包括開發(fā)更好的主動(dòng)檢索替代方案和改進(jìn)LM架構(gòu)以實(shí)現(xiàn)高效的主動(dòng)檢索增強(qiáng)。