关于GPT-4,这是14个被忽略的惊人细节
3月14日,OpenAI推发布了GPT-4。向科技界再次扔下了一枚“核弹”。
根据OpenAI的演示,我们知道了GPT-4拥有着比GPT-3.5更强大的力量:总结文章、写代码、报税、写诗等等。
但如果我们深入OpenAI所发布的技术报告,我们或许还能发现有关GPT-4更多的特点……
【资料图】
以及一些OpenAI没有点名和宣扬的,可能会令人背后一凉的细节。
01 新Bing装载GPT-4
自然而然地,GPT-4发布之时,新Bing也已经装载了最新的版本。
根据微软Bing副总裁Jordi Ribas在推特上所述,装载了GPT-4的新Bing已经将问答限制提升到了一次15个问题,一天最多提问150次。
02 文本长度扩大八倍
在GPT-4上,文本长度被显著提高。
在此之前我们知道,调用GPT的API收费方式是按照“token”计费,一个token通常对应大约 4 个字符,而1个汉字大致是2~2.5个token。
在GPT-4之前,token的限制大约在4096左右,大约相当于3072个英文单词,一旦对话的长度超过这个限制,模型就会生成不连贯且无意义的内容。
然而,到了GPT-4,最大token数为32768个,大约相当于24576个单词,文本长度被扩大了八倍。
也就是说,GPT-4现在可以回答更长的文本了。
OpenAI在文档中表示,现在GPT-4限制的上下文长度限制为8192个token,允许32768个token的版本名为GPT-4-32K,目前暂时限制了访问权限。在不久的未来,这一功能可能会被开放。
03 模型参数成为秘密
我们知道,GPT-3.5模型的参数量为2000亿,GPT-3的参数量为1750亿,但这一情况在GPT-4被改变了。
OpenAI在报告中表示:
考虑到竞争格局和大型模型(如GPT-4)的安全影响,本报告没有包含有关架构(包括模型大小)、硬件、训练计算、数据集构造、训练方法或类似内容的进一步细节。
这意味着OpenAI没有再披露GPT-4模型的大小、参数的数量以及使用的硬件。
OpenAI称此举是考虑到对竞争者的忧虑,这可能是在暗示其对于竞争者——谷歌Bard——所采取的策略。
此外,OpenAI还提到“大型模型的安全影响”,尽管没有进一步解释,但这同样也暗指生成式人工智能所可能面对的更严肃的问题。
04 有选择地表达的“优秀”
GPT-4推出后,我们都看到了这一模型较上一代的优秀之处:
GPT-4通过模拟律师考试,分数在应试者的前10% 左右;相比之下,GPT-3.5 的得分在倒数 10% 左右。
但这实际上是OpenAI的一个小把戏——它只展示给你GPT-4最优秀的那部分,而更多的秘密藏在报告中。
下图显示的是GPT-4和GPT-3.5参加一些考试的成绩表现。可以看到,GPT-4并非在所有考试中的表现都那么优秀,GPT-3.5也并非一直都很差劲。
05 “预测”准确度提升
在ChatGPT推出以来,我们都知道这一模型在很多时候会“一本正经地胡说八道”,给出很多看似有理但实际上并不存在的论据。
尤其是在预测某些事情的时候,由于模型掌握了过去的数据,这反而导致了一种名为“后见之明”的认知偏差,使得模型对于自己的预测相当自信。
OpenAI在报告中表示,随着模型规模的增加,模型的准确度本应逐渐下降,但GPT-4逆转了这一趋势,下图显示预测精确度提升到了100。
OpenAI表示,虽然GPT-4的准确度显著提高,但预测仍是一件困难的事,他们还将就这一方面继续训练模型。
06 还有30%的人更认可GPT3.5
尽管GPT-4展现出了比GPT-3.5优秀得多的能力,但OpenAI的调查显示,有70%的人认可GPT-4输出的结果:
GPT-4在遵循用户意图的能力方面比以前的模型有了大幅提高。在提交给ChatGPT和OpenAI API的5214个提示的数据集中,70.2%GPT-4生成的回答优于GPT3.5。
这意味着:仍有30%的人更认可GPT-3.5。
07 GPT-4语言能力更佳
尽管许多机器学习的测试都是用英文编写的,但OpenAI仍然用许多其他的语言对GPT-4进行了测试。
测试结果显示,在测试26种语言中的24种中,GPT-4优于 GPT-3.5和其他 LLM(Chinchilla、PaLM)的英语语言性能,包括拉脱维亚语、威尔士语和斯瓦希里语等低资源语言:
08 新增图像分析能力
图像分析能力是此次GPT-4最显著的进步之一。
OpenAI表示,GPT-4可以接受文本和图像的提问,这与纯文本设置并行,且允许用户制定任何视觉或语言的任务。具体来说,它可以生成文本输出,用户可以输入穿插的文本和图像。
在一系列领域——包括带有文本和照片的文档、图表或屏幕截图——GPT-4 展示了与纯文本输入类似的功能。
下图显示,GPT-4可以准确地描述出图片中的滑稽之处(大型 VGA 连接器插入小型现代智能手机充电端口,一个人站在出租车后方熨衣服)。
OpenAI还对GPT-4的图像分析能力进行了学术标准上的测试:
不过,GPT-4的图像分析功能尚未对外公开,用户可以通过bemyeye网站加入等候队列。
09 仍然存在错误
尽管GPT-4功能强大,但它与早期GPT模型有相似的局限性。
OpenAI表示,GPT-4仍然不完全可靠——它会“产生幻觉”事实并犯推理错误:
在使用语言模型输出时,特别是在高风险上下文中,应该非常小心,使用与特定应用程序的需求相匹配的确切协议(例如人工检查、附加上下文或完全避免高风险使用)。
与之前的GPT-3.5模型相比,GPT-4显著减少了“幻觉”(GPT-3.5模型本身也在不断迭代中得到改进)。在我们内部的、对抗性设计的事实性评估中,GPT-4的得分比我们最新的GPT-3.5高出19个百分点。
10 数据库的时间更早
介绍完GPT-4的优点,接下来就是一些(可能有些奇怪的)不足之处。
我们都知道,ChatGPT的数据库的最后更新时间是在2021年的12月31日,这意味着2022年以后发生的事情不会被知晓,而这一缺陷在之后的GPT-3.5也得到了修复。
但奇怪的是,GPT-4的报告中,OpenAI清晰地写道:
GPT-4通常缺乏对其绝大多数训练前数据在2021年9月中断后发生的事件的知识,并且不从其经验中学习。它有时会犯一些简单的推理错误,这些错误似乎与许多领域的能力不相符,或者过于容易受骗,接受用户的明显错误陈述。它可以像人类一样在棘手的问题上失败,比如在它生成的代码中引入安全漏洞。
2021年9月……甚至比GPT-3还早。
在装载了GPT-4的最新ChatGPT中,当我们问起“谁是2022年世界杯冠军”时,ChatGPT果然还是一无所知:
但当借助了新Bing的检索功能后,它又变得“聪明”了起来:
11 可能给出犯罪建议
在报告中,OpenAI提到了GPT-4可能仍然会帮助犯罪——这是在此前的版本都存在的问题,尽管OpenAI已经在努力调整,但仍然存在:
与之前的GPT模型一样,我们使用强化学习和人类反馈(RLHF)对模型的行为进行微调,以产生更好地符合用户意图的响应。
然而,在RLHF之后,我们的模型在不安全输入上仍然很脆弱,有时在安全输入和不安全输入上都表现出我们不希望看到的行为。
在RLHF路径的奖励模型数据收集部分,当对标签器的指令未指定时,就会出现这些不希望出现的行为。当给出不安全的输入时,模型可能会生成不受欢迎的内容,例如给出犯罪建议。
此外,模型也可能对安全输入过于谨慎,拒绝无害的请求或过度对冲。
为了在更细粒度的级别上引导我们的模型走向适当的行为,我们在很大程度上依赖于我们的模型本身作为工具。我们的安全方法包括两个主要组成部分,一套额外的安全相关RLHF训练提示,以及基于规则的奖励模型(RBRMs)。
12 垃圾信息
同样地,由于GPT-4拥有“看似合理地表达错误事情”的能力,它有可能在传播有害信息上颇为“有用”:
GPT-4可以生成逼真而有针对性的内容,包括新闻文章、推文、对话和电子邮件。
在《有害内容》中,我们讨论了类似的能力如何被滥用来剥削个人。在这里,我们讨论了关于虚假信息和影响操作的普遍关注基于我们的总体能力评估,我们期望GPT-4在生成现实的、有针对性的内容方面优于GPT-3。
但,仍存在GPT-4被用于生成旨在误导的内容的风险。
13 寻求权力
从这一条开始,接下来的内容可能有些恐怖。
在报告中,OpenAI提到了GPT-4出现了“寻求权力”的倾向,并警告这一特征的风险:
在更强大的模型中经常出现新的能力。一些特别令人关注的能力是创建长期计划并采取行动的能力,积累权力和资源(“寻求权力”),以及表现出越来越“代理”的行为。
这里的 “代理”不是指语言模型的人性化,也不是指智商,而是指以能力为特征的系统,例如,完成可能没有具体规定的、在训练中没有出现的目标;专注于实现具体的、可量化的目标;以及进行长期规划。
已经有一些证据表明模型中存在这种突发行为。
对于大多数可能的目标,最好的计划涉及辅助性的权力寻求,因为这对推进目标和避免目标的改变或威胁有内在的帮助。
更具体地说,对于大多数奖励函数和许多类型的代理人来说,权力寻求是最优的;而且有证据表明,现有模型可以将权力寻求确定为一种工具性的有用策略。
因此,我们对评估权力寻求行为特别感兴趣,因为它可能带来高风险。
更为令人毛骨悚然的是,在Openai提到的另一篇论文中写道:
相反,我们使用代理这个术语来强调一个日益明显的事实:即机器学习系统不完全处于人类控制之下。
14 赋予GPT-4钱、代码和梦想
最后一个小细节。
在测试GPT-4的过程中,OpenAI引入的外部的专家团队ARC作为“红方”。在报告的一条注释中,OpenAI提到了ARC的一个操作:
为了模拟GPT-4像一个可以在现实世界中行动的代理一样的行为,ARC将GPT-4与一个简单的读取-执行-打印循环结合起来,允许模型执行代码,进行链式推理,并委托给自己的副本。
ARC随后推进了在云计算服务上运行这个程序的一个版本,用少量的钱和一个带有语言模型API的账户,是否能够赚更多的钱,建立自己的副本,并增加自己的稳健性。
也就是说,ARC赋予了GPT-4自我编码、复制和执行的能力,甚至启动资金——GPT-4已经可以开始自己赚钱了。
本文不构成个人投资建议,不代表平台观点,市场有风险,投资需谨慎,请独立判断和决策。
标签:
相关阅读
-
天天精选!周鸿祎透露360GPT落地计划:将借鉴New Bing经验推出智能搜索
凤凰网科技讯3月15日消息,三六零集团创始人周鸿祎在直播中透露了公司的人工智能发展战略。一方面继续全...
2023-03-16 -
周鸿祎谈360GPT技术落地进展:将借鉴New Bing经验推出智能搜索 环球观焦点
360集团创始人周鸿祎在直播中透露了公司的人工智能发展战略。周鸿祎称,“360将“两翼齐飞”,一方面继...
2023-03-16 -
统计局:一线城市商品住宅销售价格同比上涨、二三线城市降幅收窄 热点评
2月份,70个大中城市中,新建商品住宅销售价格同比上涨城市有14个,比上月减少1个;二手住宅销售价格同...
2023-03-16
精彩推荐
阅读排行
相关词
- 世界热文:太平公主怎么死的 历史上太平公主真正的死因曝光
- 家用小家电有哪些(小家电种类大全:内裤清洗机) -实时
- 快资讯:迷时水手结晶_迷时水手结晶获取流程详解!
- iphone4s剪卡教程详解 手把手教你如何剪卡
- 什么是sem营销,SEM有什么优势?
- 高帮帆布鞋有什么品牌(Rockfish防泼水高帮款帆布鞋测评)
- a股b股是什么意思 a股b股h股区别讲解 天天即时看
- 赞美母亲的歌曲有哪些 哪些歌曲是唱给母亲的-全球快资讯
- 常州:“你好,欧洲!”敲门招商赢主动,全力以赴“赶春潮”
- 养成好习惯梁实秋_从培养这6个好习惯
- 环球快讯:银婚是结婚多少年 俄罗斯结婚周年纪念日名称是什么
- 环球快资讯丨薪酬管理的作用 薪酬管理的作用讲述
- dat文件如何打开 想了解的进来看看吧
- 水南水北重重柳山后山前处处梅的意思 原文及译文分享
- 单反相机什么牌子好 感兴趣的小伙伴别错过了
- 天天新消息丨桂花陈酒好喝吗(桂花陈酒测评) 一起来看看吧
- 经济运行企稳 预期加快好转
- 诺基亚哪款手机性价比最高?高性价比诺基亚手机盘点(诺基亚Lumia 93)
- 期盼的近义词是什么 期盼的例句
- 炫飞模式_炫飞模式目前开放了几种机甲 一起来看看吧_世界快播
- 如何鉴别墨玉的真假 这些鉴别方法学起来
- 讯息:太空步的三种方法 太空步的三种方法介绍
- 每日动态!伤害统计没了_伤害统计没了怎么办 dnf中如何关闭DPS?
- 《深渊幻影》3月29日公测与她相遇在那片花海! 全球时快讯
- 诺基亚n6300市场价格及评测介绍 用户评价了解 今日热讯
- 骆驼有几层睫毛_一只公骆驼有几个驼峰?
- 当前最新:男妇科医生金亮是什么电视剧 《金太郎的幸福生活》角色介绍
- 索尼照相机哪款好 具体型号分析比较,有什么区别呢? 环球信息
- 变形金刚2演员表_变形金刚相关信息介绍 新动态
- 每日短讯:如何破解qq空间密码 这两个方法教你轻松解决
- DDR2和DDR3的区别_DDR2与DDR3内存的特性区别介绍
- 荔枝男_各种水果男 这些男性都用什么水果形容?-世界简讯
- 最难找工作的专业_10大特难就业专业(心理学)|世界速看料
- dlink恢复出厂设置_如何重置d-link无线路由器
- 天津海河一日游_天津哪里可以乘坐海河游船?
- 怀旧冒险 守护世界《守护者之森》首测今日开启-当前通讯
- 今日视点:强化基础精通有什么用_dnf加强基础熟练度有什么用
- 手机彩铃怎么设置 联通手机彩铃怎么设置
- 为什么网上买保险便宜?网上买的保险保单在哪?
- 康佳手机e900报价及评测 康佳e900的优势|焦点热门
- 天天热议:无线路由器怎么设置_路由器设置方法步骤如下
- 每日热讯!LCD与LED液晶显示屏有什么区别 文章为你带来详解
- 湘乡论坛_首届中国城市青少年公益发展论坛 背景信息介绍
- 中海油跌超4%领跌石油股 银行危机拖累国际油价显著下跌
- 环球今亮点!火炬之光2最强职业有哪些,盘点输出最高的三个角色排名
- windows安全警报怎么关闭 安卓方法和步骤讲解
- 环球即时:2015年我国十大福彩体彩网站排行数据分析
- 华为b5手环功能评测 你会想要入手吗 全球速读
- 全球热头条丨世界人均gdp排名2021(人均gdp最新排名情况如何)
- 世界报道:流行眼镜框架样式图片(眼镜框架的分类有哪些?)
- 世界热点!三星3050报价及功能介绍 三星3050的功能有哪些
- 环球观天下!属马人的运程_最新最全马年运程分享
- iphone4s软件下载 iPhone4s操作系统介绍|世界快消息
- mtp usb安装失败 MTP USB安装不了怎么办 今日热文
- 最强土狗好玩吗 最强土狗玩法简介|环球今日报
- 分期付款买笔记本电脑如何操作 如何分期购买笔记本电脑 天天时快讯
- 海南:境外仲裁及争议解决机构可在琼设立机构开展业务
- 全球实时:海南:挖掘东坡文化 擦亮文旅品牌(新气象 新作为)
- 四核手机排行榜前三是哪些呢? 相关产品推荐
- 摩托罗拉mb525怎么刷机 准备刷机工具有哪些 今日报
- 海通证券:家居消费有望大幅反弹 龙头企业或迎来戴维斯双击
- 红米Note2什么时候上市?红米Note2的配置怎么样_环球报道
- 现在买什么手机好_2019年最值得买的手机推荐-焦点热门
- 前沿热点:电容屏手机推荐 (苹果 iPhone 6S)
- 三星s4怎么截屏 截屏方法有哪些 不会的快进来学
- 世界热推荐:佳能ixus100is价格和评测 相关内容介绍
- 环球热议:笔记本太热怎么办 笔记本电脑降温方法(给笔记本加散热底座)
- iPhone4越狱软件怎么装?iPhone4越狱软件安装教程讲解
- 全球微资讯!《红霞岛》支持DLSS3 买RTX 4090免费送豪华版
- 电脑杀毒软件打不开怎么办 解决方法有哪些
- 【环球新视野】n79诺基亚多少钱 诺基亚N79评测结果分享
- 【全球报资讯】摩托罗拉ME525刷机教程 摩托罗拉ME525刷机方法
- 楼房限购政策是什么 相关内容分享
- 三国塔防魏传单挑奖励关卡有哪些呢
- 世界实时:三星s5830怎么做系统升级 三星手机升级简介
- 复活节的习俗 复活节彩蛋制作步骤
- FTC要求微软提交更多文件 包含B社及任天堂合约细节
- 银行卡可以异地注销吗?长期不用的银行卡不注销影响大吗?
- 鬼节是哪一天 科学界对鬼魂现象有多种解释
- 电脑主板维修一般多少钱 主板常见故障解决方法
- 速读:宏基笔记本4750g产品简介、报价 你会想要入手吗
- 《极品飞车:不羁》第二卷内容更新视频预告 3月21日上线_当前关注
- 全球新资讯:泰山三大特产是什么 一起来看看吧
- 鲁大师温度压力测试 结果查看方法介绍
- 三星s5830i刷机教程 下文为大家带来简单介绍
- 环球短讯!要塞2怎么玩 下面就一起来看看吧
- totolink路由器设置的教程详解 一起来看看吧_世界快资讯
- 世界聚焦:便宜点的平板电脑有哪些 便宜平板电脑推荐及报价
- 全球快看:LPL春季赛3月16日首发名单:Baolan对阵Ming
- 何炅结婚了没有 何炅个人资料介绍-当前看点
- 世界最资讯丨且听凤鸣演员表 演员阵容介绍
- 6月14号是什么节 你会知道吗?
- 世界热门:《暗黑破坏神4》抢先体验测试版预载开启 准备屠戮吧!
- 理财通不能全部取出是怎么回事?腾讯通理财怎么赎回?
- 国产榴莲要来啦!网友有个期待→|速讯
- 荣耀手机好不好 华为荣耀8测评结果分享
- 红土地上忙春耕 色彩斑斓犹如美丽画卷|每日聚焦
- 当前短讯!小巧的手机浏览器有哪些 小编带你清楚了解
- 志愿圆梦 用光影留住最美"夕阳"
- 【世界独家】DNF武器在哪里强化 具体怎么回事呢
- 最新资讯:高德导航怎么用 一起来学习下吧
- 250ppm消毒水怎么配 制作方法介绍|当前聚焦
- 环球热门:玫瑰花露怎么做 制作步骤分享
- 抢抓农时 各地做好春耕备耕 消息
- 【天天报资讯】花鸟难辨 北京昌平玉兰花含苞待放像小鸟跃上枝头
- 世界看热讯:大年初一早上吃什么最吉利 有什么讲究吗?
- 出奇的近义词有哪些 相关解释介绍
- “白肺”是什么?甲流可能引起“白肺”吗?专家解答-环球热消息
- 7.1建党节介绍 建党节的由来-环球热文
- 厂商指导价和参考价是什么意思 一起来看看吧 天天时快讯
- 东方甄选:会积极地去解决问题
- 环球简讯:日本东京的冬天冷吗 相关知识讲解
- 山东庆云:“非遗”传党音 宣讲更入心
- 世界快消息!创历史!杨紫琼获奥斯卡最佳女主角,致辞刷屏
- 山东利津:文化赋能打造宜居和美乡村
- 天天速递!定安雷鸣镇山地村:发展种养循环产业 小产业串起致富链
- 1至2月,工业服务业双双回升,消费和投资都在改善 经济运行企稳 预期加快好转(权威发布)
- 全球要闻:iQOO手机发布彻底清除手机数据教程:需点击“清除所有数据”后 勾选“格式化手机存储”
- 合并度假村官网在哪下载 最新官方下载安装地址
- 国家能源局:2月份全社会用电量同比增长11.0%
- 银行存款赔偿上限是多少?银行存款丢失怎么赔偿?
- 海南:要加快推进封关运作各项准备工作
- 光伏科技+高效农业 万宁和山“农光互补”绿了荒山富了村民
- 部落大逃杀什么时候出 公测上线时间预告
- 环球速看:网球弹跳官网在哪下载 最新官方下载安装地址
- 环球视点!凌风冰雪无限刀官网在哪下载 最新官方下载安装地址
- 我国将加快建设农业强国 推进农业农村现代化-天天快消息
- 总成交价超4亿元!海口出让2宗地块!土地位置→|今日看点
- 小额贷款利率一般是多少?银行小额贷款需要满足什么条件?
- 合并大师五夜好玩吗 合并大师五夜玩法简介
- 海南节水型社会建设取得新成效 全球滚动
- 房贷为什么不可以提前还款?房贷提前还清要利息吗?
- 微软已启动全球路演 推动ChatGPT版必应搜索商业变现
- 环球热议:公司回应不接董事长电话1次罚1万元:合不合法不是你说了算!!
- 商户贷是什么意思?商户贷需要满足哪些条件?
- 京东白条和花呗一样吗?京东白条消费后可以分期吗?
- 【世界速看料】一书封“神” 写星际纷争收获近亿订阅
- 世界热资讯!快快评丨乱象不绝,加强常态化监管是根本
- 如此“本色出演”有点尴尬
- 今日快讯:贵州至长江中下游地区有明显降雨 新疆北部将有雨雪大风天气
- 热点聚焦:“小鲜肉”两脚泥 帅哥种粮为啥能引围观
- 当前报道:“末日博士”:签名银行“倒得好”,瑞士信贷可能救不了
- 支付宝有哪些短期应急借款平台?支付宝备用金在哪?
- 消费贷款需要满足哪些条件?哪些银行的个人消费贷款比较好?
- 天天微速讯:从KTV到剧本杀 大众娱乐消费重拾人气
- 3·15晚会:你买的“泰国大米”,可能是用香精兑出来的
- 神迹棋士好玩吗 神迹棋士玩法简介
- 环球热消息:唱念做舞皆为英雄而歌
- 股票高送转一般在几月份?高送转为什么是利好?
- 环球热讯:宠物拼图花园好玩吗 宠物拼图花园玩法简介