五月天青色头像情侣网名,国产亚洲av片在线观看18女人,黑人巨茎大战俄罗斯美女,扒下她的小内裤打屁股

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

國內(nèi)最大Llama開源社區(qū)發(fā)布首個預訓練中文版Llama2

2023-08-02 17:44 作者:一起學chatGPT一起學ai  | 我要投稿


"
7月31日,Llama中文社區(qū)率先完成了國內(nèi)首個真正意義上的中文版Llama2-13B大模型,從模型底層實現(xiàn)了Llama2中文能力的大幅優(yōu)化和提升。毋庸置疑,中文版Llama2一經(jīng)發(fā)布將開啟國內(nèi)大模型新時代!


| 全球最強,但中文短板

Llama2是當前全球范圍內(nèi)最強的開源大模型,但其中文能力亟待提升Meta不負眾望,于7月19日凌晨開源了第一代LLaMA的升級版:Llama2,7B、13B和70B三種大小的模型全開放并且可免費商用。作為AI領域最強大的開源大模型,Llama2基于2萬億token數(shù)據(jù)預訓練,并在100萬人類標記數(shù)據(jù)上微調(diào)得到對話模型。在包括推理、編程、對話和知識測試等許多基準測試中效果顯著優(yōu)于MPT、Falcon以及第一代LLaMA等開源大語言模型,也第一次媲美商用GPT-3.5,在一眾開源模型中獨樹一幟。



雖然Llama2的預訓練數(shù)據(jù)相對于第一代擴大了一倍,但是中文預訓練數(shù)據(jù)的比例依然非常少,僅占0.13%,這也導致了原版Llama2的中文能力較弱。我們對于一些中文問題進行提問,發(fā)現(xiàn)大多數(shù)情況下Llama2都不能以中文回答,或者以中英文混雜的形式回答問題。因此,需要基于大規(guī)模中文數(shù)據(jù)對Llama2進行優(yōu)化,使Llama2具備更好的中文能力。


為此國內(nèi)頂尖高校大模型博士團隊創(chuàng)辦了Llama中文社區(qū),開啟了Llama2中文大模型訓練征程。

| 最領先的Llama中文社區(qū)

Llama中文社區(qū)是國內(nèi)最領先的開源大模型中文社區(qū),Github在兩周內(nèi)即達到 2.4k star,由清華、交大以及浙大博士團隊領銜,匯聚了60+AI領域高級工程師以及各行業(yè)2000+頂級人才。


社區(qū)鏈接
https://github.com/FlagAlpha/Llama2-Chinese


社區(qū)歷程:




| 首個預訓練中文版Llama2模型發(fā)布!

不是微調(diào)!而是基于200B中文語料預訓練!

7月31日,Llama中文社區(qū)率先完成了國內(nèi)首個真正意義上的中文版13B Llama2模型:Llama2-Chinese-13B,從模型底層實現(xiàn)了Llama2中文能力的大幅優(yōu)化和提升。Llama2的中文化可以采用大致兩種路線:1. 基于已有的中文指令數(shù)據(jù)集,對預訓練模型進行指令微調(diào),使得基座模型能夠?qū)R中文問答能力。這種路線的優(yōu)勢在于成本較低,指令微調(diào)數(shù)據(jù)量小,需要的算力資源少,能夠快速實現(xiàn)一個中文Llama的雛形。但缺點也顯而易見,微調(diào)只能激發(fā)基座模型已有的中文能力,但由于Llama2的中文訓練數(shù)據(jù)本身較少,所以能夠激發(fā)的能力也有限,治標不治本,從根本上增強Llama2模型的中文能力還是需要從預訓練做起。2. 基于大規(guī)模中文語料進行預訓練。這種路線的缺點在于成本高不僅需要大規(guī)模高質(zhì)量的中文數(shù)據(jù),也需要大規(guī)模的算力資源。但是優(yōu)點也顯而易見,就是能從模型底層優(yōu)化中文能力,真正達到治本的效果,從內(nèi)核為大模型注入強大的中文能力為了從內(nèi)核實現(xiàn)一個徹底的中文大模型,我們選擇了第二條路線!我們匯集了一批高質(zhì)量的中文語料數(shù)據(jù)集,從預訓練開始優(yōu)化Llama2大模型。部分預訓練數(shù)據(jù)數(shù)據(jù)如下:類型描述網(wǎng)絡數(shù)據(jù)互聯(lián)網(wǎng)上公開的網(wǎng)絡數(shù)據(jù),挑選出去重后的高質(zhì)量中文數(shù)據(jù),涉及到百科、書籍、博客、新聞、公告、小說等高質(zhì)量長文本數(shù)據(jù)Wikipedia中文Wikipedia的數(shù)據(jù)悟道中文悟道開源的200G數(shù)據(jù)ClueClue開放的中文預訓練數(shù)據(jù),進行清洗后的高質(zhì)量中文長文本數(shù)據(jù)競賽數(shù)據(jù)集近年來中文自然語言處理多任務競賽數(shù)據(jù)集,約150個MNBVCMNBVC 中清洗出來的部分數(shù)據(jù)集首期 Llama2-Chinese-13B 模型的預訓練數(shù)據(jù)包含 200B token,未來,我們將持續(xù)不斷地迭代更新 Llama2-Chinese,逐步將預訓練數(shù)據(jù)提升到1T token。除此以外,我們也將逐步開放70B模型的中文預訓練版本,敬請期待!


我們從通用知識、語言理解、創(chuàng)作能力、邏輯推理、代碼編程、工作技能等不同方面提問大模型,得到了令人滿意的效果! 部分效果展示如下:
  • 通用知識


  • 語言理解


  • 創(chuàng)作能力


  • 邏輯推理


  • 代碼編程


  • 工作技能




國內(nèi)最大Llama開源社區(qū)發(fā)布首個預訓練中文版Llama2的評論 (共 條)

分享到微博請遵守國家法律
将乐县| 淳化县| 额济纳旗| 和静县| 乌苏市| 武定县| 凤翔县| 新营市| 方正县| 赞皇县| 佳木斯市| 二连浩特市| 晋州市| 屏东县| 施甸县| 肇庆市| 怀化市| 利津县| 东港市| 英超| 榆林市| 卢氏县| 神池县| 昌都县| 中卫市| 茌平县| 固安县| 金秀| 汶上县| 西青区| 洪雅县| 漯河市| 宜宾市| 孝昌县| 中宁县| 乌拉特后旗| 手游| 合山市| 论坛| 新余市| 会理县|