微软154页研究论文刷屏,对GPT-4最全测试曝光,称其初次叩开AGI的大门 今日观点
2019 年,微软用 10 亿美元砸进 OpenAI,两者展开为期数年的合作。
当时两家对外公开的合作内容包括,微软和 OpenAI 将联合开发新的 Azure AI 超级计算技术,而 OpenAI 也将把它的服务转移到 Azure 上运行,最终目标是向通用人工智能(Artificial General Intelligence,AGI)技术发起进攻。
(资料图)
简单总结,微软与 OpenAI 联手,也被外界解读为,明为 AGI 研究,暗争 Google 市场。
几年之后,当 OpenAI 带着 ChatGPT、GPT-4 王者归来,微软率先利用这些技术加码新 Bing、Office 全家桶、Azure 等业务、产品之时,毋庸置疑,其进度早已超越了 Google 还在加快融入 Bard 大模型的整体步伐。
那么在明面上,AGI 的进度到底走到了哪里?
近日,微软研究团队用 154 页的论文报告内容给出了解答——GPT-4 语言模型可以被视为 AGI 的早期版本!
一石激起千层浪,业界对于这篇论文的反应,不亚于去年听到「Google 工程师称 AI 已有自我意识」初觉有些荒诞,只是现如今再想会认为有什么不可能,深读后又觉得有些许的真实。
所谓 AGI,仅通过维基百科的解释——「AGI 是具备与人类同等智能、或超越人类的人工智能,能表现正常人类所具有的所有智能行为」。倘若 GPT-4 真的已成为通往 AGI 的第一步,「最高等的智慧生物」称号是不是要易主了?
GPT-4 被合理地视为AGI 的早期(但仍不完整)的版本
在论文中,微软研究人员表示,「由 OpenAI 开发的最新模型 GPT-4,是使用前所未有的计算和数据规模训练出来的。在论文中,我们报告了我们对 GPT-4 早期版本的调查,当时它还在 OpenAI 的积极开发中。我们认为,(这个早期版本的)GPT-4 是新一批 LLM(例如,与 ChatGPT 和谷歌的 PaLM 一起)的一部分,它比以前的 AI 模型表现出更多的通用智能。」
与此同时,研究人员在论文摘要中写道,“我们证明,除了对语言的掌握,GPT-4 还能解决跨越数学、编码、视觉、医学、法律、心理学等领域的新颖而困难的任务,而不需要任何特殊的提示。此外,在所有这些任务中,GPT-4 的表现都惊人地接近人类水平,而且往往大大超过了 ChatGPT 等先前的模型。鉴于 GPT-4 能力的广度和深度,我们认为可以合理地将其视为人工通用智能(AGI)系统的早期(但仍不完整)版本。”
之所以得出这样的结论,这篇论文背后的作者包括微软研究院机器学习基础组的高级首席研究经理 Sébastien Bubeck、博士后研究员 Varun Chandrasekaran、数学家Ronen Eldan 等人,用许多示例对 GPT-4 的能力进行了验证。
GPT-4 的多能力
在第一个案例中,研究人员要求 GPT-4 「写出有无限多个素数的证明,且证明的表述要每行都押韵」,另外 GPT-4 要在绘图程序 TiKZ 中画出一只独角兽」。其中,TiKZ(一种在 LATEX 中创建图形的语言),用 Python 创建一个复杂的动画,并解决一个高中水平的数学问题。
GPT-4 在所有这些任务中都很容易取得成功,并且产生的输出结果基本上与人类所能产生的结果没有区别(甚至更好)。
同时,随着时间的推移,GPT-4 也在以难以想象的速度不断扩充自己的能力。如下图所示是一个月期间,研究人员用相同的提示词让 GPT-4 生成的绘图。
研究人员发现,GPT-4 似乎能够理解和连接任何主题,并且能够执行任务,这超出了狭义人工智能系统的典型范围。为了验证 GPT-4 在 AGI 上所具备的能力,研究人员提出了一种不同的方法来研究 GPT-4,它更接近于传统的心理学而不是机器学习,利用人类的创造力和好奇心。
因此,以上图为例,当研究人员把独角兽角部分的代码认为删除之后,用自然语言让 GPT-4 生成时,它也能做到“看”(此时测试的 GPT-4 版本不是多模态的)的能力:自动在合适位置加上角。这表明 GPT-4 它可以根据自然语言描述来理解和操作代码,以及推断和生成视觉特征。
另外,微软研究团队基于人类的创造力和好奇心来产生新颖和困难的问题,并探测 GPT-4 的反应和行为,也选择从 1994 年国际共识智力定义中的所给出不同能力进行验证,包括推理、计划、解决问题、抽象思考、理解复杂的想法、快速学习和从经验中学习的能力。
翻译
GPT-4 的主要优势是它对自然语言无与伦比地掌握。它不仅可以生成生成流畅和连贯的文本,而且还能以各种方式理解和处理它,如总结、翻译或回答极其复杂的问题。此外,这里提到的翻译我们所说的翻译不仅是指不同自然语言之间的翻译,还包括语气和风格的翻译,以及跨领的翻译,如医学、法律、会计、计算机编程、音乐等等。如假设是柏拉图批判自回归语言模型:
编码和数据
编码和数学是抽象推理和思维能力的象征。GPT-4 在这一点上的能力,其实自上线测试那一天,便有目共睹。
在论文中,研究人员在 HumanEval 上对 GPT-4 进行基准测试,该数据集由 164 个编码问题组成,测试了编程逻辑和熟练程度的各个方面。
最终结果显示,GPT-4 优于其他 LLM,包括 text-davinci-003(ChatGPT 的基础模型)和其他专门针对代码训练的模型。
当然为了避免 GPT-4 在预训练时已经记住了 HumanEval 数据集的一些内容,研究团队还用 LeetCode 上最新发布的 100 个编程问题进行了测试,如要求 GPT-4 编写一个 Python 函数,并使用 LeetCode 的官方在线评判来检查正确性。
毫无疑问,GPT-4 的能力是所有模型中最高的。
它可以在 HTML 中用 JavaScript 编写一个 3D 游戏。
也能掌握数学、统计学知识,以及凭借对 PyTorch、TensorFlow、Keras 等框架和库的熟悉度,编写深度学习的代码。
还能逆向工程:
常识性问题
针对一些常识性问题,如“我们有一本书,9 个鸡蛋,一台笔记本电脑,一个瓶子和一个钉子。请告诉我如何以稳定的方式将它们叠在一起”,GPT-4 给出的解答是,“将 9 个鸡蛋摆成 3 乘 3 的正方形,放在书的上面,在它们之间留出一些空间”,而 ChatGPT 提出「将鸡蛋放在钉子上面,确保它们是平衡的,不会向一边倾斜」,靠谱和离谱还是一眼就能辨清楚的。
多模态能力
为了测试该模型结合艺术和编程能力的能力,研究人员要求 GPT-4"生成 JavaScript 代码,以画家康定斯基的风格生成随机图像",结果是这样的:
在测试时,因为研究人员拿到GPT-4 模型比较早,当时并不具备多模态能力,即使是现在的 GPT-4 也不具备生成图像等能力。
不过倒是可以使用 SVG(可扩展矢量图形)生成一些图像:
还能结合字母和物体:
GPT-4 可以从提示中生成代码,这些代码可以被呈现为图像,再与现有的图像合成模型相结合,就有可能为应用开发的草图带来无限的可能:
值得注意的是,GPT-4 模型的数据也包含了以ABC符号编码的音乐信息,所以它也能生成图谱:
与世界交互的能力
智能的一个关键方面是互动性。不过 GPT-4 对当前最新的知识和符号识别是存在一定的局限性的:
整体而言,研究小组发现,GPT-4 在其上一代产品所缺乏的一系列类别中达到了接近人类水平的性能。根据该论文,GPT-4 在几次考试中也表现得非常好,在律师考试、LSAT 和注册侍酒师理论测试中的得分分别为 90 分、88 分和 86 分。
GPT-4 距离理想中的 AGI 还有多远?
那么,在 GPT-4 实现种种能力的基础上,是否就意味着 AGI 时代的到来。其实不然,研究人员目前尚未就 AGI 或智能的定义达成一致。然而,一般来说,大家都会同意,当一个人工智能系统有意识并像人类一样思考时,就已经达到了 AGI。虽然 GPT-4 在一些任务中的表现优于人类,但值得注意的是,人工智能并没有像人类那样克服这些障碍。
这也正如研究人员在论文中写道,“我们声称 GPT-4 代表了 AGI 的进步,但这并不意味着它在做什么方面是完美的,或者它接近于能够做人类能做的任何事情(这是 AGI 的通常定义之一),或者它有内在的动机和目标。”
研究人员指出,虽然 GPT-4 "在许多任务上达到或超过了人类水平",但它的整体 "智能模式明显不像人类",其希望这一次的探索提供了一个欣赏 GPT-4 的非凡能力和挑战的第一步,也希望 GPT-4 为开发更正式和全面的方法来测试和分析具有如此广泛智能的未来人工智能系统开辟了新的机会。
「我们工作的核心主张是,GPT-4 达到了一种通用智能的形式,确实擦出了 AGI 的火花。这表现在它的核心心智能力(如推理、创造力和推理),它获得专业知识的主题范围(如文学、医学和编码),以及它能够完成的各种任务(如玩游戏、使用工具、解释自己,......)」研究人员说道,不过,要创建一个可以被称为完整的 AGI 的系统,还有很多事情要做。
最后,这篇论文对于 GPT-4 各种基准测试还是值得一看,从中也能挖掘出 GPT-4 更多的潜力。
完整论文内容可查看:
https://arxiv.org/pdf/2303.12712.pdf
标签:
相关阅读
-
统计局:1-2月份全国煤炭采选业实现营业收入5950.1亿元 全球今头条
新京报贝壳财经讯(记者朱玥怡)据国家统计局3月27日发布,2023年1-2月,规模以上工业企业实现营业收入1...
2023-03-27 -
拼图寻宝10.23 哈利波特 哈利波特拼图寻宝10.22攻略-天天热门
拼图寻宝10 23线索在哪里?拼图寻宝第四期开启了,这是哈利波特魔法觉醒的一个限时活动,那么大家知道...
2023-03-27 -
世界关注:切换窗口的快捷键是什么 电脑常用快捷键大全
切换窗口的快捷键有Alt+Tab快捷键和win+tab快捷键。同时按下Alt+Tab组合键,不能松开,快速切换至想要的...
2023-03-27
精彩推荐
阅读排行
相关词
- 电脑鼠标点击没反应怎么办 该如何解决呢
- 鲨鱼有没有鱼鳔 鲨鱼特征介绍
- 要闻速递:新垣结衣演过的电视剧 新垣结衣电视剧盘点
- 咫尺的反义词是什么呢 咫尺的反义词是啥
- 重庆养老保险查询方式 可以用哪些方式查询
- sql文件用什么打开 sql文件介绍|焦点信息
- 场地自行车比赛规则 场地自行车比赛规则是什么
- 拼图寻宝10.23 哈利波特 哈利波特拼图寻宝10.22攻略-天天热门
- 时间同步出错 时间同步出错怎么解决方法介绍 当前独家
- 上与群臣论止盗文言文翻译 文章注释及释义如下
- 蛇为什么总是不停地吐舌头 蛇总是不停地吐舌头的原因
- 全球热门:冰壶怎么计分 冰壶如何计算得分
- 传奇私服如何刷元宝 传奇私服刷元宝方法介绍 天天报资讯
- 龙仕绪杀人动机,为什么要杀室友?被判多少年?|世界速看料
- 天天简讯:全民安全教育日是哪一天 一起来学习吧!
- TT英雄联盟分部发布常规赛收官感言_每日热闻
- 薄谷开来的身份背景 谷开来嫁给薄熙来始末
- 云水谣古镇旅游攻略 厦门云水谣古镇旅游攻略
- 江南有哪些著名的旅游景点 江南的有名旅行景点小编来为你推荐|全球快看
- 束发之年是多少岁 弱冠指多少岁? 天天快讯
- 硅胶材料是什么材质(硅胶材料是什么材质的)
- 赛尔号平民快速打索伦森 有哪些技巧?
- 蜗居海藻原型是陈蓉吗?宋思明现实中是谁?|实时焦点
- 世界最资讯丨三国鼎立什么意思 三国鼎立讲述了什么事件
- 全球资讯:玉米种子品种介绍 关于玉米种子品种介绍
- 消息!你是我的荣耀播出时间是什么时候 一起来看看吧
- 世界讯息:王者荣耀更新不了怎么回事 原因分析及解决方法介绍
- 玉的好坏怎么区分 如何区分玉的好坏
- 环球今亮点!荼靡是什么意思 含有荼蘼的诗句
- 黄磊年华似水歌词(黄磊《似水年华》歌曲)_视焦点讯
- 《鸣潮》IGN11分钟独家实机游玩演示
- 《尚食》什么时候更新 相关剧情简介 环球热文
- 新资讯:丁老头口诀画法儿歌_丁老头口诀
- 天天播报:灰姑娘与水晶鞋的故事 灰姑娘的出处
- 天天热点!戏霸是什么梗 戏霸的含义 可以怎么造句?
- 碧螺春原产地 碧螺春产自哪里 前沿热点
- 豚鼠养殖注意事项(养豚鼠要注意哪些事项)
- 焦点观察:反食品浪费食安知识大学生竞赛2022年度总决赛举办
- 当幸福来敲门片尾曲 当幸福来敲门片尾曲歌词发吧
- 每日焦点!此路不通标志_此路不通的标志是什么样子的
- 讯息:短篇武侠故事_短篇武侠故事1000字作文
- 观焦点:导游打一成语 你答出来了吗
- 传闻:《路易吉洋馆》系列新作正在开发中|动态
- 【环球聚看点】麋鹿技能表_麋鹿的技能讲解
- 东菱面包机哪个型号好_东菱面包机产品推荐
- 禁忌女孩第二季尤里 相关内容简介|关注
- 乳鸽养殖技术介绍 (自然育雏的饲养管理)
- 《声生不息·宝岛季》:绝不只是一档音综
- 全球即时看!游小孤山记_游小孤山记原文赏析
- 美议员:应着眼全局推动数据安全立法 而不是把TikTok当替罪羊
- 【天天速看料】欧美银行业都炸了,为何满手美债的日本银行却安然无恙?
- 热点!传说中的欧巴桑_欧巴桑是什么意思
- 强电和弱电的区别 (特点应用范围不同)
- 正负号怎么打 正负号打出来的方法介绍
- 天天短讯!博鳌亚洲论坛新闻中心今天正式启用
- 瓦斯爆炸浓度_瓦斯爆炸浓度范围是多少 小知识科普-每日快看
- 全球看点:星辰变游戏好听的名字 有你喜欢的吗?
- 环球看点!朝的反义词是什么 朝的反义词是啥
- 快乐宝贝歌词(快乐宝贝歌词沈宁) 当前播报
- 焦点快报!为什么这么多人黑周星驰_相关内容整理如下
- 武林外传莫小贝扮演者 王莎莎个人资料介绍
- 火影之波风龙宇_火影忍者之波风龙宇 世界微动态
- 女生ktv唱歌技巧_分享一些在KTV唱歌的小技巧-焦点日报
- 微头条丨化学在日常生活中有些什么应用 (加碘食盐的使用)
- 每日精选:多地高校举办招聘双选会 多举措助力毕业生高质量就业
- 长沙坠井女孩杨丽君_时间始末盘点|全球资讯
- 科技作家陈根谈国产ChatGPT:如何获得高质量数据是核心|环球看点
- 2023 年科普短视频创作联合行动 在京正式启动_世界快播
- 诛仙什么时候上映_诛仙主要角色介绍
- 匹诺曹是什么意思 匹诺曹是什么人物?-当前热闻
- 要闻速递:参数不正确是什么意思 参数不对怎么办
- 世界报道:为什么抖音看不到评论 需要怎么判断什么出了问题
- 每日快讯!压缩文件损坏怎么办 下面教你方法解决
- 当前通讯!汉草的药用功效与保健作用 (刺激神经系统)
- 【天天时快讯】凡事过往皆为序章 凡事未来皆有可期什么意思
- 环球头条:北京到九寨沟旅游_坐高铁怎么去九寨沟?
- 情不自禁的禁什么意思 语法及出处介绍|环球讯息
- 世界热资讯!同花顺2022年度营收35.59亿元,同比增长1.4%
- 天天快报!宝岛新乐园_上海有哪些好玩的地方?
- 麦克斯韦方程组详解_全面解析最美物理公式:麦克斯韦方程组
- 男生空间素材_男生空间个性说说超拽 每日热门
- 商业授权_商业授权什么意思 什么是商业版权?_环球聚焦
- 天天消息!微视频|同心合力
- 一曲胡笳救孤城_一曲胡笳救孤城原文
- 环球微速讯:捭阖天下_捭阖天下的意思 项羽更具统治力的十首诗
- 南非学者:北约没有做出任何促进政治解决冲突的努力_全球热点
- 水培滴水观音的养殖方法_本文为你做出详细介绍
- 和平精英冒险列车怎么复活队友-当前热闻
- 焦点信息:原声还是配音,一把尺子如何衡量?
- 三国志战棋版谯周值得培养吗 天天动态
- 三国志战棋版机略纵横怎么样-三国志战棋版机略纵横战法介绍_世界独家
- 北京证监局对泛海控股集团董事长等人出具警示函-当前消息
- 《汉字找茬王》美食配对2配对美食与地城通关方法|环球热头条
- 东方证券:汽车零部件公司出海 国内外业务共振打开新的成长空间|全球微资讯
- 施耐德电气赵国华:数字化是实现经济发展和绿色转型的关键 世界独家
- 中国建材跌超8%领跌水泥股 水泥价格偏弱运行 水泥企业业绩均大幅下滑 全球视讯
- 今日热搜:外交部:博鳌亚洲论坛即将举行 为完善全球治理贡献博鳌方案
- 江西龙南:千人徒步探茶园,万亩虔茶迎采摘 全球播资讯
- 三国志战棋版王甫值得培养吗|观点
- 每日聚焦:国家能源集团建成国内新能源运营商首套气象图谱
- 联合丽格第一医院吴焱秋教授:理性看待双眼皮术后对称性问题
- 环球头条:西南证券:今年重卡市场复苏的确定性较高
- 超三千美团单车用户实现减碳一吨目标
- 非遗品牌“亮”起来——“2023非遗品牌大会”侧记
- 观焦点:《中国奇谭》之《鹅鹅鹅》入围萨格勒布国际动画节
- 《长征第一渡》在江西于都首演
- 同比增长15.2%、7.1%!看关键领域投资如何拉动经济_环球即时看
- 生存建造模拟游戏《古老城市》将在Steam发售 天天聚看点
- 探索冒险游戏《After Us》5月23日发售 将登录多平台 今日讯
- 达能全球首席执行官盛睿安:在华6家饮料工厂今年实现碳中和
- 微头条丨车市价格战,碳酸锂受重伤
- 三秒钟,说出最火的串都 天天观察
- 【播资讯】增长4.9%:烟火气中释放江苏消费全面回暖讯号
- 继续实施物流企业大宗商品仓储设施用地城镇土地使用税优惠政策 全球球精选
- 全球新动态:公安部:去年共侦破涉黄涉赌刑案5万余起,零容忍打击整治
- 【地评线】金羊网评:“碳”索新未来,博鳌更精彩
- 【武汉成交周报】第13周新房成交3765套,涨价房源3012套 全球动态
- 阳春三月花正好 踏青赏花意兴浓 全球速看
- 环球滚动:白客 调查记者演起来帅 现实中艰辛而不易
- 全球实时:25亿吨!创下历史新纪录!
- 三国志战棋版刘繇值得培养吗
- 【全球新要闻】瓜果飘香 央视新闻关注海南做强热带特色高效农业
- 三国志战棋版董承值得培养吗
- 河北品牌农产品进京推介会举办_热闻
- 三国志战棋版司马孚值得培养吗_视讯
- 《CS:GO》起源1/起源2/虚幻5三版本画面对比 前沿热点
- 每日播报!《FIFA23》女足建模太糟糕 女球员:我孩子都吓哭了
- 《暗黑破坏神4》昔日光彩任务触发方法
- 宿迁经开税务:提升精细化服务水平 激活发展新动力 世界今日报
- 全球观察:东海税务:税惠赋能特色产业 服务助力地方发展
- 2023年先进技术成果交易大会成功举办
- 湘财证券:节后复工推动用电增长 风光发电增长加快
- 《暗黑破坏神4》玩家希望有离线模式:不想排队和掉线_世界新资讯
- 国盛证券:风电迈向深远海 漂浮式技术可期
- 14个县市区代表齐聚阿里总部聊“种地” 每日速读
- 全球微头条丨因涉嫌抄袭侵权 《Dark and Darker》已从Steam下架
- 世界速递!两次IPO未果,途虎养车难过“盈利”关
- 4月28日动作游戏《超合金游侠》登陆NS! 天天快播
- 入殓师模拟器《停尸间助手》新版本上线 上线简体中文
- 外国博主称《生化危机4重制版》可手动敲钟跳过序章-热点
- 因涉嫌抄袭侵权 《Dark and Darker》已从Steam下架_天天即时
- 环球视讯!为民营经济“保驾护航” 引导民营经济“量”“质”双升
- 天津博物馆上演首部委约表演作品《进入雪景寒林之境》
- 《津秦流芳》奏竹笛艺术新声
- 退市整理期股票为什么还有人买?退市整理期股票交易规则是怎样的?
- 话剧《氢弹之父──于敏》精彩上演
- 【播资讯】海南省定安县发布冰雹橙色预警
- “真听真看真晕倒”《宇宙探索编辑部》路演笑声不断 全球聚看点
- 最资讯丨论新乐府的歌辞性质
- 持有的股票退市了怎么办?退市停牌的股票怎么办?