語音直播系統(tǒng),做好敏感詞屏蔽打造綠色社交環(huán)境
隨著語音直播系統(tǒng)的發(fā)展,覆蓋的用戶群體越來越廣泛,魚龍混雜的用戶所帶來的負(fù)面影響就是語音直播系統(tǒng)中信息內(nèi)容的不規(guī)范,為了降低這種情況對用戶使用體驗(yàn)的影響,則需要做好敏感詞屏蔽工作,以打造綠色的社交環(huán)境。

在語音直播系統(tǒng)中需要屏蔽的內(nèi)容通常包含廣告、非法詞匯、謠言等,在不同的場景下所實(shí)現(xiàn)的屏蔽級別也會有所不同,常用的屏蔽方式通常有同步過濾和異步召回兩種。在語音直播系統(tǒng)開發(fā)時(shí),針對敏感詞的具體的屏蔽流程是怎么樣的呢?
一、敏感詞的發(fā)現(xiàn)
1、用戶舉報(bào)
語音直播系統(tǒng)在開發(fā)時(shí)實(shí)現(xiàn)了舉報(bào)功能,并且將其設(shè)置在了多個(gè)模塊中,只要用戶在使用過程中看到了不良的信息,都可以進(jìn)行舉報(bào),系統(tǒng)就會對該舉報(bào)內(nèi)容進(jìn)行處理。
2、內(nèi)容聚合
所謂的內(nèi)容聚合其實(shí)就是根據(jù)內(nèi)容的相似性進(jìn)行不良信息的判斷,通常內(nèi)容的相似性計(jì)算方式有兩種,一種是可用于評論、標(biāo)題等短文本的基于編輯距離的文本相似度計(jì)算方式,一種是在原始長文本中切分出有意義的Term,然后根據(jù)Term集合進(jìn)行文本相似度計(jì)算。
二、敏感詞的識別
1、特征識別
根據(jù)語音直播系統(tǒng)中后臺設(shè)置的敏感詞特征進(jìn)行匹配。

2、模型匹配
在沒有可以供參考的敏感詞特征樣本時(shí),就可以通過模型匹配方式進(jìn)行識別,該識別方式主要是基于機(jī)器學(xué)習(xí)。
3、規(guī)則匹配
在語音直播系統(tǒng)中,可使用的規(guī)則包含正則表達(dá)式、多模式匹配算法等。
三、敏感詞的處理
1、基礎(chǔ)處理
也是語音直播系統(tǒng)開發(fā)中比較常規(guī)的敏感詞處理方式,包含封禁用戶、刪除用戶、刪除內(nèi)容、封禁內(nèi)容、封禁IP或設(shè)備等。
2、隱蔽操作
比較常見的隱蔽操作就是將敏感詞內(nèi)容設(shè)定為僅用戶自己可見。
3、后續(xù)操作
將語音直播系統(tǒng)日常運(yùn)營中發(fā)現(xiàn)的不良信息進(jìn)行匯總,然后不斷完善系統(tǒng)內(nèi)的模型和規(guī)則,提升敏感詞屏蔽效果。

在語音直播系統(tǒng)開發(fā)時(shí),有很多不起眼的功能卻有著不容忽視的作用,像敏感詞屏蔽就是如此。其實(shí)無論是什么功能的實(shí)現(xiàn),都是為了提升用戶的使用體驗(yàn),滿足用戶的使用需求,只有這樣才能保證開發(fā)的語音直播系統(tǒng)能夠吸引到更多用戶。
聲明:本文由云豹科技原創(chuàng),轉(zhuǎn)載請注明作者名及原文鏈接,否則視為侵權(quán)