散文網(wǎng) » 生活 »日常 » 發(fā)布一個(gè)知識(shí)總結(jié)能力超越gpt3.5的微調(diào)模型

發(fā)布一個(gè)知識(shí)總結(jié)能力超越gpt3.5的微調(diào)模型

2023-07-16 07:00 作者:帛凡 0人讀過 | 我要投稿

剛發(fā)布了個(gè)模型歡迎體驗(yàn) https://huggingface.co/fb700/chatglm-fitness-RLHF 本次訓(xùn)練使用的方法首先，用40萬條優(yōu)質(zhì)數(shù)據(jù)進(jìn)行強(qiáng)化訓(xùn)練，以提高模型的基礎(chǔ)能力；第二，使用30萬條人類反饋數(shù)據(jù)，構(gòu)建一個(gè)表達(dá)方式規(guī)范優(yōu)雅的語言模式（RM模型）；第三，在保留SFT階段三分之一訓(xùn)練數(shù)據(jù)的同時(shí)，增加了30萬條fitness數(shù)據(jù)，疊加RM模型，對(duì)ChatGLM-6B進(jìn)行強(qiáng)化訓(xùn)練。成果，訓(xùn)練后在健康咨詢，文檔總結(jié)能力上不但強(qiáng)于glm，而且部分能力上更是強(qiáng)于glm2，配合“聞達(dá)”和“l(fā)angchain-chatglm”等知識(shí)庫項(xiàng)目，應(yīng)用體驗(yàn)上對(duì)比glm和glm2均勻顯著提升。性能，fp16運(yùn)行時(shí)速度上比原模型提升20%.可以代替原有官方模型，大家可以fp16、int4、int8使用。問下類似問題你們就知道他有多強(qiáng)了系統(tǒng)性紅斑狼瘡的危害和治療方法是什么？早期激素和免疫抑制劑用藥建議是什么？本模型可以無限制多輪會(huì)話。網(wǎng)友反饋