世界焦点!300美元平替ChatGPT,斯坦福130亿参数「小羊驼」诞生,暴杀「草泥马」
继草泥马(Alpaca)后,斯坦福联手CMU、UC伯克利等机构的学者再次发布了130亿参数模型骆马(Vicuna),仅需300美元就能实现ChatGPT 90%的性能。
继Meta的LLaMA模型开源后,AI界研究人员就在这个模型基础上衍生出许多版本。
前段时间,斯坦福发布了Alpaca,是由Meta的LLaMA 7B微调而来,仅用了52k数据,性能可以与GPT-3.5匹敌。
(资料图片)
今天,斯坦福学者联手CMU、UC伯克利等,再次推出一个全新模型——130亿参数的Vicuna,俗称「小羊驼」(骆马)。
Vicuna是通过在ShareGPT收集的用户共享对话上对LLaMA进行微调训练而来,训练成本近300美元。
研究人员设计了8个问题类别,包括数学、写作、编码,对Vicuna-13B与其他四个模型进行了性能测试。
测试过程使用GPT-4作为评判标准,结果显示Vicuna-13B在超过90%的情况下实现了与ChatGPT和Bard相匹敌的能力。
同时,在在超过90%的情况下胜过了其他模型,如LLaMA和斯坦福的Alpaca。
团队成员来自加州大学伯克利分校、卡内基梅隆大学、斯坦福大学、加州大学圣地亚哥分校和穆罕默德·本·扎耶德人工智能大学。
90%匹敌ChatGPT
研究人员让斯坦福的Alpaca和Vicuna来了一轮大比拼,分别对基准问题回答进行了演示。
在使用70K用户共享的ChatGPT对话数据对Vicuna进行微调后,研究发现Vicuna能够生成比Alpaca更详细、结构更合理的答案。
问:写一篇关于最近去夏威夷旅行的有趣的旅游博客文章,强调文化体验和必看景点。
Alpaca的回答可以说是一个浓缩版,短短几行就写完了,没有按照要求完成任务。它仅是提到了自己写了一篇博客,并对博客内容做了一个概述。
再来看Vicuna,撰写了一篇详细且引人入胜的旅行博客文章,不仅内容有趣,还详细地介绍了夏威夷的文化体验和必看景点。
由此,让GPT-4给打分,Alpaca7分,Vicuna满分。
那么和ChatGPT对打,Vicuna的表现又如何呢?
两者双双得了9分!
可以看到,这两个模型提供一次夏威夷之旅的文章不仅引人入胜,而且文笔流畅。
另外,两个回答中的详细程度和准确性都很出色,而且两个模型都有效地传达了夏威夷之旅的兴奋和美丽。
此外,研究人员还将Vicuna与LLaMA,以及谷歌的Bard模型进行了测试,测试结果显示,LLaMA表现最差(1分),几乎没有回应。
Bard回答的准确性和相关性也是比较高,有9分的成绩,但是在更具吸引力回答方面,略低于Vicuna。
除了写作,研究人员在编码、数学、角色扮演、常识等方面分别对Vicuna模型与其他四个模型的能力进行了对比,总共80道题。
最后,研究人员基于GPT-4的初步评估总结如图所示。可以看到,Vicuna达到了Bard/ChatGPT的90%以上的能力。
由GPT-4评估的相对响应质量
有趣的是,在这次Vicuna的demo中,团队还加入了Alpaca和LLaMA的试用,而前者刚被关闭不久。
Demo地址:https://chat.lmsys.org/
模型介绍
ChatGPT横空出世让人兴奋不已,但OpenAI不Open的事实让圈内人实在懊恼。
恰恰,Meta的LLaMA模型开源,为许多研究人员动手研发自己的模型提供了选择。
Vicuna-13B诞生正是受到LLaMA和斯坦福Alpaca项目的启发。这是一个基于增强数据集和易于使用、可扩展的基础设施的开源聊天机器人。
该模型的训练数据来自于ShareGPT收集的用户分享的对话,然后研究人员通过对LLaMA基本模型进行微调,Vicuna-13B就诞生了。
Vicuna-13B展示了与其他开源模型(如斯坦福Alpaca)相媲美的性能。
研究人员对Vicuna-13B的性能进行了初步评估,并描述了其训练和服务基础设施。
同时,这一模型演示demo已经上线,所有研究人员都能参与在线演示互动,以测试这个聊天机器人的能力。
工作流程概述
对于Vicuna-13B训练流程,具体如下:
首先,研究人员从ChatGPT对话分享网站ShareGPT上,收集了大约70K对话。
接下来,研究人员优化了Alpaca提供的训练脚本,使模型能够更好地处理多轮对话和长序列。之后利用PyTorch FSDP在8个A100 GPU上进行了一天的训练。
在模型的质量评估方面,研究人员创建了80个不同的问题,并用GPT-4对模型输出进行了评价。
为了比较不同的模型,研究人员将每个模型的输出组合成一个单独的提示,然后让GPT-4评估哪个模型给出的回答更好。
LLaMA、Alpaca、Vicuna和ChatGPT的对比
训练
Vicuna是通过使用来自ShareGPT公共API收集的约70K用户分享对话数据微调创建的。
为了确保数据质量,研究人员将HTML转换回markdown,并过滤掉一些不适当或质量较低的样本。
另外,研究人员将较长的对话划分为较小的片段,以适应模型的最大上下文长度。
Vicuna的训练方法建立在斯坦福的Alpaca基础上,并进行了以下改进:
内存优化:
为了使Vicuna能够理解长上下文,将最大上下文长度从Alpaca的512扩展到2048,这大大增加了GPU内存需求。在此,研究人员通过使用梯度检查点和闪存注意力来解决内存压力。
多轮对话:
通过调整训练损失以考虑多轮对话,并仅在聊天机器人的输出上计算微调损失。
通过Spot实例降低成本:
40倍的数据集和4倍的序列长度对训练带来了相当大的挑战。研究人员采用SkyPilot托管的Spot实例来降低成本,通过利用自动恢复抢占与自动区域切换进而减少成本。
这种解决方案将7B模型的训练成本从500美元降低到约140美元,将13B模型的训练成本从约1000美元降低到300美元。
评估
评估AI聊天机器人是一项具有挑战性的任务,因为它需要检查语言理解、推理和上下文意识。随着AI聊天机器人变得越来越先进,现有的开放基准可能不再足够。
例如,斯坦福Alpaca中使用的评估数据集self-instruct,可以被SOTA聊天机器人有效地回答,这使得人类难以分辨性能差异。更多的限制包括训练/测试数据污染和创建新基准的潜在高成本。
为了解决这些问题,研究人员提出了一个基于GPT-4的评估框架,从而实现对聊天机器人性能的自动评估。
首先,通过精心设计的提示,让GPT-4能够生成多样化且具有挑战性的问题。并利用8个不同类别共80道题,如角色扮演、编码/数学任务等,来测试这些模型(LLaMA、Alpaca、ChatGPT、Bard和Vicuna)在不同领域上表现出的性能。
然后,研究人员要求GPT-4根据帮助程度、相关性、准确性和细节对答案的质量进行评分。结果显示,GPT-4不仅可以产生相对一致的分数,还可以提供详细的解释来说明为什么给出这样的分数。但是,GPT-4并不擅长评判编码/数学任务。
由GPT-4评估的响应比较
GPT-4在超过90%的问题中更喜欢Vicuna,而不是现有的SOTA开源模型(LLaMA、Alpaca)。
在45%的问题中,GPT-4认为Vicuna的回答和ChatGPT差不多甚至更好。
综合来看,Vicuna在总分上达到ChatGPT的92%。
局限
研究人员指出,与其他大语言模型类似,Vicuna也存在着一定的局限性。
比如,Vicuna在涉及编程、推理、数学以及事实准确性的任务上表现不佳。
此外,它也没有经过充分优化以保证安全性或减轻潜在的毒性或偏见。
为解决安全方面的问题,研究人员在demo中采用了OpenAI的审查API来过滤掉不适当的用户输入。
剩下的名字不多了
现在,除了美洲驼(LLaMA),羊驼(Alpaca),驼马(Vicuna)都安排上了。
研究人员要赶快冲,因为留给你们的名字不多了(1个)。
参考资料
https://vicuna.lmsys.org/
标签:
相关阅读
-
【当前热闻】谷歌AI研究员跳槽OpenAI 曾警告谷歌不要用ChatGPT数据训练Bard
【TechWeb】3月31日消息,据外媒报道,谷歌的人工智能(AI)研究员雅各布·德夫林(JacobDevlin)已离开...
2023-03-31 -
今日精选:农行回应提前还款问题:将加大支持年轻人或者新市民的贷款需求
从农行数据来看,到2月末,个人住房按揭贷款储备,即已审批未发放的信贷有433亿元,月度环比增长了31%。...
2023-03-31 -
3月31日海南海药涨停分析:海南,医疗信息化,中药概念热股_全球报道
海南海药涨停收盘,收盘价5 16元。该股于10点56分涨停,3次打开涨停,截止收盘封单资金为117 8万元,...
2023-03-31 -
中国专利菌株亮相博鳌,伊利健康科学BL-99益生菌赋能成人营养_天天看热讯
3月28日,博鳌(亚洲)论坛在海南如期召开。以“守护全生命周期共创健康未来”为主题的博鳌(亚洲)论坛...
2023-03-31 -
全球焦点!博鳌亚洲论坛“数字时代的金融基础设施与金融服务”圆桌会举行
3月31日,海南博鳌,博鳌亚洲论坛2023年年会举行“数字时代的金融基础设施与金融服务”圆桌会。中新社记...
2023-03-31 -
2023数据科学峰会召开 百分点科技正式发布数据科学基础平台-当前热议
3月30日,由百分点科技主办的“2023数据科学峰会”在北京召开。此次大会以“数据·进阶”为主题,推出一...
2023-03-31 -
3月电池行业PMI指数下探 位于荣枯线之下【SMM分析】-世界简讯
2023年3月电池行业PMI指数终值为49 75%,位于荣枯线之下。镍氢电池方面,企业订单相较2月有微弱起色,...
2023-03-31 -
CDPR承认:使用虚幻5并没有加快《巫师》新作的开发 环球简讯
据wccftech消息,在大约一年前,CDPR曾宣布他们的全新《巫师》传奇将由虚幻5引擎开发而不是公司内部的RED引擎。
2023-03-31 -
环球简讯:CEO宣称北极星计划就是《巫师4》 官方后否认为口误
去年十月,CDProjektRed公开了《巫师》以“北极星计划ProjectPolaris”为首未来三部曲计划,但此前官方...
2023-03-31
精彩推荐
阅读排行
相关词
- 江西互联网20强企业和最具创新型企业榜单发布_全球速看
- 高淳区税务局:税费优惠政策助力商户轻装前行-全球热推荐
- 全球视点!邮储银行发行全行首单绿色金融债券和小微金融债券
- 《明日方舟》伊内丝获得方法
- 腾讯汤道生:AI大模型将加速云的发展 天天看热讯
- 实时战略游戏《国王的竞选活动》Steam页面上线-世界观速讯
- 官宣!《DE-EXIT:永恒物质》将于4月15日上线多平台
- 远洋集团2022年度:销售提升品质交付 全额完成到期债务兑付 环球热消息
- 《卧龙:苍天陨落》v1.05补丁上线 新增多项调整|天天视点
- 北京画院美术馆奉上园林书画大展
- 全球速看:出席CIFS中国数智金融年会 中关村科金数智科技赋能金融高质量发展
- 和讯个股快报:2023年03月31日 步 步 高(002251)该股换手率大于8%
- 焦点快报!杭州人笔下的“趣西湖”安置肉身的可亲山水
- 天天即时:北京银保监局等联合发文,启动存量住房交易“带押过户”模式
- 税企齐聚 共话发展——东方市税务局举办“税企沙龙话春风”咖啡沙龙活动_热点
- 海口美兰:满城劲吹文明风
- 英雄联盟手游卡牌戏法怎么玩 英雄联盟手游卡牌戏法隐藏任务|全球新视野
- 《火影忍者》手游忍者之路活动2023一览-天天速看
- 《火影忍者》手游忍者之路活动2023|重点聚焦
- 博鳌之声丨主持博鳌亚洲论坛近十年的主持人:海南将成中国企业发展高地-世界快资讯
- 世界看点:(李玉刚x《长安幻想》)刚好遇见你 但是国风版
- 最新:第五人格五周年紫皮卡获取方法说明
- 重置版《时空勇士》Steam页面上线 预计4月28日正式解锁
- 糖价暴涨,白糖概念股井喷!两股最正宗现"牛相"
- 银行卡可以频繁转账吗?银行卡转账次数太多会怎么样?
- 吉比特大手笔:收入51亿,利润14亿,再拿2亿分红股东
- 工行张文武:将继续加大信贷投放力度 制造业、科创、绿色成重点_世界短讯
- 美图公司2022年全年财报:总收入与净利润大增,首次派息人民币7800万元
- 一月瘦十斤,马斯克也在用的「减肥神针」,真有那么神奇? 世界快讯
- 焦点速递!高端车降价,雅迪认清现实
- 当前播报:教育部:“万企进校园”招聘活动已提供岗位信息1000万余条
- 英国的加入使CPTPP走向新阶段
- i 茅台护航,茅台 “定海神针” 没跑了-世界焦点
- 凯蒂猫梦幻飞行好玩吗 凯蒂猫梦幻飞行玩法简介
- 英雄联盟社会名流乐芙兰怎么样?社会名流乐芙兰皮肤多少钱?
- 无人深空闪退怎么办?无人深空打不开游戏如何解决?
- 白沙24所学校开展春季“护苗”禁毒宣传教育讲座
- 热血格斗传说密码是什么?热血格斗传说是什么游戏?
- 【世界时快讯】杜兰特:离开勇士被疯狂诋毁 一生都会感激篮网
- 摩尔庄园阳光酥油肉松如何做?摩尔庄园私房菜怎么做?
- 《虚空战争》种族克制策略战局|全球观点
- 海口琼山中学女排队员张子云入选国家女排二队集训队
- 微资讯!不休的纷争什么时候出 公测上线时间预告
- 每日热文:原神申鹤天赋突破材料有哪些 申鹤突破材料清单汇总2023
- PrincessDiana什么时候出 公测上线时间预告 天天关注
- 世界快资讯丨电力每日要闻(2023年3月31日)
- 今晚国内油价或“两连跌” 加满一箱省……
- 新华网评:将一份热爱坚守一辈子,便成了传奇 每日资讯
- 大美中国 候鸟北归丨候鸟“机场”补给全攻略
- 今日视点:Bostik:自动化与数字化带来可持续的未来
- 坚持热爱,冲刺梦校!一个班四名学子被英国名校录取-头条
- 英雄之光 | 3月31日至4月5日,华北军区烈士陵园举办“省会各界公祭革命烈士大会” 当前观点
- 中国与巴西直接以本币进行贸易结算 人民币国际化小步快跑再破局-世界信息
- 一周清理超10万张,美团在京启动共享单车“小广告”专项治理
- 57分钟通话,挽救了一条生命!
- 《剑与远征》烹调美食第一天攻略 天天时讯
- 特斯拉今年来市值增逾2000亿美元-天天观速讯
- 环球信息:潘多拉归来什么时候出 公测上线时间预告
- 去海南买奢侈品,更方便却更贵了?|全球今头条
- 和纳西妲一起攻克难关官网在哪下载 最新官方下载安装地址_全球快讯
- 《和平精英》星夜迷魅套装获得教程|今热点
- 【全球新视野】云顶之弈s8.5福牛守护者都有谁
- 海南代表队荣获“国赛”一金三银五铜
- 王者荣耀不夜长安送仲春花活动怎么玩|全球今日报
- 原神清凉酸甜怎么制作 原神清凉酸甜配方一览 焦点快播
- 《无畏契约》地图介绍
- 《无畏契约》公测时间
- 当前速看:《文字脑洞》蛛丝马迹攻略
- 会说话的汤姆猫怎么玩?会说话的汤姆猫是什么游戏?
- 各地一批重大项目加快推进
- 月下云影来,一曲新时代的“琵琶行” 每日视点
- 原神元素粘稠物任务怎么做?原神留下残影如何找?
- 建设银行投资金条价格今天多少一克(2023年03月31日)-焦点要闻
- dnf补丁怎么删除?dnf武器装扮怎么关闭?
- 挟洋自重是什么意思 (依靠海洋自尊意味着什么?)
- 相声剧,是相声还是剧?
- 财政部:2月份全国共销售彩票418.1亿元 同比增长86%
- cf老沙的暗号有哪些?cf活动怎么邀请好友?
- 朝阳美食_辽宁朝阳美食集锦(白塔子豆腐干)_天天热议
- 原神甜馨果酒湖配方是怎样的?原神果酒湖在哪里?
- 他就是你的新郎_他就是你的新郎完整歌词分享 当前关注
- 中国新版护照样本_办护照填写的表格样本 世界实时
- 今日热讯:苹果赢得专利官司 或免除5.02亿美元侵权赔偿
- 每日短讯:暗黑血统2手柄设置_暗黑血统2手柄设置技能
- 全球实时:当你追寻答案,答案却在风中飘荡
- 【热闻】神仙道如何快速升级_神仙道如何快速升级40
- 摄像机使用说明_模拟摄像机的基本概念|今日快看
- 造梦西游易爆点在哪?造梦西游怎么刷装备?
- 我在博鳌丨打卡博鳌零碳示范区
- 固体汽油弹_汽油白糖燃烧瓶 相关内容分享
- 赞许地什么_赞许地填写空的内容和方式? 世界观点
- 天天播报:关注体育新业态新发展 智慧体育助老年人享健康晚年
- 暗黑3巫医技能搭配_暗黑3巫医技能搭配推荐 _全球即时
- 杭州乌镇旅游攻略_有什么好的入住推荐?
- 网易暴雪分手内幕曝光:暴雪CEO要求网易一次性付5亿美元
- 焦点快看:神武真元丹效果_神武镇元丹是什么等级用的?
- 《野望》的“新乡村浮世绘”全景式乡村书写的摹本_环球观察
- 江苏个体工商户达千万户|焦点信息
- 奥比岛变异动物有什么?奥比岛变异植物在哪里获得?
- 今热点:郭明錤:苹果AR/MR头显或延迟发布
- 赛尔号莫比什么时候出现?赛尔号卡修斯怎么打?
- 爆款频出,让鲜活的中国故事奔赴世界舞台
- wow转阵营_Tbc转移服务条件和规则
- 全球快资讯:小龙虾心脏在哪 小龙虾的心脏位置
- LOL奥德赛金克斯暴走萝莉怎么出装
- 世界报道:4月1日起 京津冀三地全面取消异地就医备案
- 维吾尔族古尔邦节习俗 古尔邦节的节日习俗
- 世界微动态丨胡记布庄什么时候出 公测上线时间预告
- 僵尸榨汁大师官网在哪下载 最新官方下载安装地址 天天热点
- 今日看点:精英律师大结局 一起来看看吧
- 打印机墨盒怎么装 详细方法步骤如下 环球热资讯
- 海南12家药企中标!第八批国家药品集中采购开标 每日关注
- 每日视点!威廉 帕特里克 希特勒_威廉是如何赎罪的?
- 全球今日讯!光遇公主头先祖在哪里 公主头位置及物品介绍2023最新分享
- 雀巢淡奶油怎么打发 步骤如此简单 全球关注
- nba2006游戏 为什么游戏NBA2006总是无法通过投篮进入? 环球热议
- 什么样的路不能走 _分别是哪三条路不能走? 当前视点
- 叶公好龙的寓意是什么 叶公好龙的故事
- 台湾有哪些大学 相关信息介绍
- 中考志愿是什么意思 一起来学习吧 环球看点
- 奥比岛神秘世界隐藏成就有什么?奥比岛塔罗圣殿还在吗?
- 前沿资讯!咖啡伴侣是什么东西 什么是咖啡伴侣?
- 机关办公室工作制度_机关办公室工作制度及职责范文 |当前热文
- 封神太子2哪吒加点_封神太子2哪吒加点推荐
- 群标签是什么_什么是组标签?
- 部落与弯刀搏击俱乐部怎么进?部落与弯刀什么职业好玩?
- 路嘉怡 张震岳_路嘉欣视张震岳为音乐贵人 |焦点热讯
- 环球关注:红楼梦的王熙凤的简介 一起来看看吧
- 什么是双边外交 双边外交的特点_世界消息
- 英雄联盟冰雪风暴希维尔绝版了吗?英雄联盟冰雪风暴希维尔值钱吗?
- 2022年是属什么年 老虎的特点是什么
- 上网本游戏推荐有哪些? 文章带你详细了解 当前看点
- 快资讯:三亚10家汽车租赁企业被平台线上清退
- 如何手动清除Autorun.inf病毒 解决方案如下|热文
- 天天要闻:冷水机组工作原理 一起来看看吧
- 世界最资讯丨戴尔d520怎么样 戴尔d520基本参数如何,品牌介绍
- 《上古之魂》Boss协和之神艾欧斯无伤打法流程
- 索尼M35h屏幕尺寸是多少 一起来看看吧
- lol无限火力头像有哪些?lol无限火力头像绝版了吗?
- 东北证券:短期重视锂矿板块反弹行情 长期看战略金属估值重塑-世界简讯
- 3月31日至4月7日海南省社会保障卡管理系统升级 部分业务办理受影响
- 淘宝返利网怎么返利? 相关模式介绍_环球今头条
- 赛尔号菲尼克斯怎么打?赛尔号菲尼克斯禁地在哪里?
- 联想s880怎么样? 联想s880手机的价格是多少? 全球时讯
- 优酷弹幕怎么设置 优酷弹幕设置的方法讲解
- 索尼tx9c怎么样及其价格 性能方面测评结果发吧-世界快讯
- 速读:小米2s32g多少钱 小米2s32g的评测结果发布
- 冬天空调开多少度最合适 温度范围讲解
- 蓝色警戒官网在哪下载 最新官方下载安装地址-速看料
- 魔兽世界美酒节奖币怎么获得?魔兽世界美酒节奖币有什么用?