金融監(jiān)管科技業(yè)務(wù)中的AI應(yīng)用:上市公司公告信息風(fēng)險(xiǎn)識別
? ? ? ??面對日益嚴(yán)格的監(jiān)管,證券公司自身需要提高融資融券業(yè)務(wù)的風(fēng)險(xiǎn)管控能力,從而擴(kuò)大業(yè)務(wù)規(guī)模、降低風(fēng)險(xiǎn)。因此,證券公司需要了解可能影響證券價格較大變化的重要事件,從而進(jìn)行管理和風(fēng)險(xiǎn)控制等工作。根據(jù)監(jiān)管要求,企業(yè)定期或不定期地發(fā)布公告信息。作為公司信息披露的主要載體,公告信息可能包含事件描述、深度分析、信息傳遞等各種價值信息和重要風(fēng)險(xiǎn)信息。

? ? ? ?目前該業(yè)務(wù)是由專人人工解讀上市公司公告,撰寫每日風(fēng)險(xiǎn)總結(jié)報(bào)告,然而這項(xiàng)工作不僅工作量繁重,且準(zhǔn)確率與覆蓋率不足,難以滿足日益增長的數(shù)據(jù)量以及快節(jié)奏的需求變動:
資料版面布局多樣
公告文本的版面格式涵蓋了段落、目錄樹、表格、圖像等多種樣式。
公告內(nèi)容差異大
不同種類公告內(nèi)容差異大,不同行業(yè)披露信息差異大,不同公司撰文風(fēng)格差異大。
標(biāo)注樣本稀少
因標(biāo)注標(biāo)準(zhǔn)復(fù)雜、專業(yè)性強(qiáng)導(dǎo)致的標(biāo)注成本高,不同類別公告數(shù)量差異大,因監(jiān)管和公司運(yùn)營情況調(diào)整導(dǎo)致的標(biāo)注時效性難以保證。
? ? ? ? ?金仕達(dá)軟件科技有限公司利用自然語言處理技術(shù)中的信息抽取技術(shù)ERNIE-UIE,打造了上市公司公告信息抽取系統(tǒng),從上市公司常見的公告文本數(shù)據(jù)中,提取引起證券價格較大變化的重要事件及關(guān)鍵信息,實(shí)現(xiàn)自動提取影響證券價格較大變化的重要事件,為金融業(yè)務(wù)的開展提供風(fēng)險(xiǎn)管控的依據(jù),并將此過程中積累的技術(shù)與經(jīng)驗(yàn)推廣到證券交易業(yè)務(wù)、風(fēng)險(xiǎn)管理業(yè)務(wù)以及客戶服務(wù)等應(yīng)用場景。在PaddleOCR和PaddleNLP的前沿模型的加持下,金融文件文字提取和信息抽取的效果顯著:文檔頁面導(dǎo)航準(zhǔn)確率100% ,信息抽取準(zhǔn)確率達(dá)到95%,單篇抽取可在1秒內(nèi)完成。上市公司公告信息抽取系統(tǒng)節(jié)約了80%的人工解讀時間,極大提升了融資融券、反洗錢、操作風(fēng)險(xiǎn)管理業(yè)務(wù)的效率。?

解決思路
? ? ? ?本項(xiàng)目中使用了提示學(xué)習(xí)來解決小樣本問題,在項(xiàng)目中引入PaddleNLP中的ERNIE-UIE,通過大規(guī)模多任務(wù)預(yù)訓(xùn)練學(xué)習(xí)的通用抽取能力,配合基于Prompt的信息抽取多任務(wù)統(tǒng)一建模方式,可以實(shí)現(xiàn)標(biāo)注少量數(shù)據(jù)進(jìn)行微調(diào),即可完成在公告文本信息抽取任務(wù)中的任務(wù)適配,大大降低標(biāo)注門檻和成本。
? ? ? ? ?PaddleNLP中的ERNIE-UIE是一個大一統(tǒng)諸多任務(wù)的開放域信息抽取技術(shù)方案:通過構(gòu)建結(jié)構(gòu)化模式提示器(SSI,Structural Schema Instructor),ERNIE-UIE能夠?qū)Σ煌男畔⒊槿∧繕?biāo)進(jìn)行統(tǒng)一編碼,從而實(shí)現(xiàn)多任務(wù)的統(tǒng)一建模。
? ? ? ? ?ERNIE-UIE開創(chuàng)了基于Prompt的信息抽取多任務(wù)統(tǒng)一建模方式,通過大規(guī)模多任務(wù)預(yù)訓(xùn)練學(xué)習(xí)的通用抽取能力,可以實(shí)現(xiàn)不限定行業(yè)領(lǐng)域和抽取目標(biāo),零樣本快速冷啟動。簡單場景,無需訓(xùn)練數(shù)據(jù),即可全部抽取正確。針對復(fù)雜抽取需求,標(biāo)注少量數(shù)據(jù)微調(diào)即完成任務(wù)適配,大大降低標(biāo)注門檻和成本。
? ? ? ??除實(shí)體抽取任務(wù)外,在金融、醫(yī)療、互聯(lián)網(wǎng)三大自建測試集的關(guān)系、事件抽取任務(wù)上進(jìn)行實(shí)驗(yàn),標(biāo)注少樣本也可帶來顯著的效果提升,即使模型在某些場景下表現(xiàn)欠佳,人工標(biāo)幾個樣本,交給模型后就會有大幅的效果提升。

? ? ? ??ERNIE-UIE對于數(shù)據(jù)量更大的類別有更好的預(yù)測結(jié)果,即使對于少樣本,諸如APER、EPER和TPER等類別,模型仍具有一定程度的預(yù)測能力,體現(xiàn)了ERNIE-UIE在小樣本學(xué)習(xí)上的優(yōu)勢。

? ? ? ??模型訓(xùn)練完成后,轉(zhuǎn)為推理模型,之后,利用飛槳服務(wù)化部署框架Paddle Serving方便集成的特性,將公告信息抽取服務(wù)快速部署為線上服務(wù)。用戶通過WEB端訪問業(yè)務(wù)框架后臺時,即可直接調(diào)用智能文檔解析服務(wù)展示結(jié)果。
相關(guān)項(xiàng)目
PaddleNLP GitHub地址
https://github.com/PaddlePaddle/PaddleNLP
PaddleNLP Gitee地址
https://gitee.com/paddlepaddle/PaddleNLP
? ? ? ? ?微信掃描二維碼,加入PaddleNLP官方社群,獲取直播提醒、社區(qū)開放交流、學(xué)習(xí)大禮包等超多福利!

技術(shù)拓展——文心大模型
? ? ? ??隨著數(shù)據(jù)井噴、算法進(jìn)步和算力突破,效果好、泛化能力強(qiáng)、通用性強(qiáng)的預(yù)訓(xùn)練大模型(以下簡稱“大模型”),成為人工智能發(fā)展的關(guān)鍵方向與人工智能產(chǎn)業(yè)應(yīng)用的基礎(chǔ)底座。
? ? ? ? ?文心大模型源于產(chǎn)業(yè)、服務(wù)于產(chǎn)業(yè),是產(chǎn)業(yè)級知識增強(qiáng)大模型,涵蓋基礎(chǔ)大模型、任務(wù)大模型、行業(yè)大模型,大模型總量達(dá)36個,并構(gòu)建了業(yè)界規(guī)模最大的產(chǎn)業(yè)大模型體系。文心大模型配套了豐富的工具與平臺層,包括大模型開發(fā)套件、API 以及內(nèi)置文心大模型能力的 EasyDL 和 BML 開發(fā)平臺。百度通過大模型與國產(chǎn)深度學(xué)習(xí)框架融合發(fā)展,打造了自主創(chuàng)新的 AI 底座,大幅降低了 AI 開發(fā)和應(yīng)用的門檻,滿足真實(shí)場景中的應(yīng)用需求,真正發(fā)揮大模型驅(qū)動 AI 規(guī)?;瘧?yīng)用的產(chǎn)業(yè)價值。

從技術(shù)研發(fā)到落地應(yīng)用,大模型的發(fā)展已經(jīng)進(jìn)入產(chǎn)業(yè)落地的關(guān)鍵期。歡迎點(diǎn)擊「閱讀原文」前往文心大模型官網(wǎng)了解詳情!
https://wenxin.baidu.com/