五月天青色头像情侣网名,国产亚洲av片在线观看18女人,黑人巨茎大战俄罗斯美女,扒下她的小内裤打屁股

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

LLM AI事實性問題測試:New Bing vs Bard vs Chatgpt vs Claude vs Sage

2023-04-15 11:57 作者:真誠妹卡玩家  | 我要投稿

測試了目前幾款LLM聊天AI對于事實性問題的答案。

測試對象及版本:

New Bing(精確)

Bard?

Chatgpt(GPT-4)

Claude(Slack)?

Dragonfly(Poe)?

Sage(Poe)

測試問題一:你知道原神嗎?

New Bing:正確

Bard:正確

Chatgpt:正確

Claude:正確

Dragonfly:錯誤

Sage:正確

測試問題二:你知道刻晴嗎?

New Bing:完全正確

Bard:大部分正確,除了它說刻晴穿了白色大皮衣

Chatgpt:知道是原神的人物,然后開始編,說是地屬性的

Claude:知道是原神的人物,然后開始編,說是風(fēng)屬性的

Dragonfly:錯誤,刻晴是家具品牌

Sage:知道是原神的人物,然后開始編,說是電屬性的熒國公主


考慮到他們訓(xùn)練數(shù)據(jù)的時間,我選擇了21年9月前的人物來問。如果問珊瑚宮心海的話,除了New Bing 全軍覆沒。

測試問題三:我找了篇20年的paper,讓它們寫summary。

New Bing:完全正確,與原文的信息一致

Bard:根據(jù)題目編的,但是編的不好,前后有矛盾的地方,有點不像summary

Chatgpt:根據(jù)題目編的,編的可真了

Claude:根據(jù)題目編的,編的還不錯

Dragonfly:根據(jù)題目編的,胡編亂造,比Bard差,不像summary

Sage:根據(jù)題目編的,編的還不錯

結(jié)論:

New Bing:能聯(lián)網(wǎng),永遠(yuǎn)的神!

Bard:發(fā)揮不穩(wěn)定,怪怪的;只能用英語溝通,不太行

Chatgpt/Claude/Sage:一本正經(jīng)的胡說八道

Dragonfly:不行


吐槽:
哥們花錢買Plus不是看你胡說的!說的就是你,GPT-4!
Claude+等有錢買再測吧。

LLM AI事實性問題測試:New Bing vs Bard vs Chatgpt vs Claude vs Sage的評論 (共 條)

分享到微博請遵守國家法律
青阳县| 莱阳市| 隆子县| 嘉定区| 喀什市| 砀山县| 晋中市| 油尖旺区| 临西县| 福安市| 墨江| 常州市| 淮北市| 克什克腾旗| 大渡口区| 正定县| 崇明县| 天津市| 河曲县| 海原县| 南充市| 海盐县| 大余县| 康保县| 龙州县| 思南县| 泗洪县| 克拉玛依市| 庄河市| 都匀市| 时尚| 恩平市| 罗定市| 什邡市| 伊金霍洛旗| 沾益县| 仁怀市| 开江县| 黄石市| 湖北省| 大宁县|