發(fā)布一個(gè)知識(shí)總結(jié)能力超越gpt3.5的微調(diào)模型
剛發(fā)布了個(gè)模型 歡迎體驗(yàn) https://huggingface.co/fb700/chatglm-fitness-RLHF 本次訓(xùn)練使用的方法 首先,用40萬條優(yōu)質(zhì)數(shù)據(jù)進(jìn)行強(qiáng)化訓(xùn)練,以提高模型的基礎(chǔ)能力; 第二,使用30萬條人類反饋數(shù)據(jù),構(gòu)建一個(gè)表達(dá)方式規(guī)范優(yōu)雅的語言模式(RM模型); 第三,在保留SFT階段三分之一訓(xùn)練數(shù)據(jù)的同時(shí),增加了30萬條fitness數(shù)據(jù),疊加RM模型,對(duì)ChatGLM-6B進(jìn)行強(qiáng)化訓(xùn)練。 成果,訓(xùn)練后在健康咨詢,文檔總結(jié)能力上不但強(qiáng)于glm,而且部分能力上更是強(qiáng)于glm2,配合“聞達(dá)”和“l(fā)angchain-chatglm”等知識(shí)庫項(xiàng)目,應(yīng)用體驗(yàn)上對(duì)比glm和glm2均勻顯著提升。 性能,fp16運(yùn)行時(shí)速度上比原模型提升20%.可以代替原有官方模型,大家可以fp16、int4、int8使用。 問下類似問題你們就知道他有多強(qiáng)了 系統(tǒng)性紅斑狼瘡的危害和治療方法是什么? 早期激素和免疫抑制劑用藥建議是什么? 本模型可以無限制多輪會(huì)話。 網(wǎng)友反饋
第一例為本模型知識(shí)庫召回結(jié)果
給大家截個(gè)圖,這個(gè)是同一份文件,分別調(diào)用chatgpt3.5,chatglm2,本模型召回結(jié)果。