GPT-4是8x2200亿参数的混合模型?这个小道消息今天传疯了|环球即时看
时间:2023-06-22 12:05:00来源:搜狐数码

机器之心报道

编辑:吴昕


【资料图】

George Hotz:除了苹果之外,大部分公司保密的原因都不是在隐藏什么黑科技,而是在隐藏一些‍「不那么酷」的东西。

「GPT-4 的参数量高达 100 万亿。」相信很多人还记得这个年初刷屏的「重磅」消息和一张被病毒式传播的图表。

不过很快,OpenAI 的 CEO Sam Altman 就出来辟谣,证实这是一条假消息,并表示,「关于 GPT-4 的谣言都很荒谬。我甚至不知道这从何而起。」

实际上,许多人相信并传播这样的谣言是因为近年来 AI 社区不断在增加 AI 模型的参数规模。谷歌在 2021 年 1 月发布的 Switch Transformer 就把 AI 大模型参数量拉高到了 1.6 万亿。在此之后,很多机构也陆续推出了自己的万亿参数大模型。据此,人们有充分的理由相信,GPT-4 将是一个万亿参数的巨量模型,100 万亿参数也不是不可能。

虽然 Sam Altman 的辟谣帮我们去掉了一个错误答案,但他背后的 OpenAI 团队一直对 GPT-4 的真实参数量守口如瓶,就连 GPT-4 的官方技术报告也没透露任何信息。

直到最近,这个谜团疑似被「天才黑客」乔治・霍兹(George Hotz)捅破了。

乔治・霍兹因 17 岁破解 iPhone、21 岁攻陷索尼 PS3 而闻名,目前是一家研发自动驾驶辅助系统的公司(comma.ai)的老板。

最近,他接受了一家名为 Latent Space 的 AI 技术播客的采访。在采访中,他谈到了 GPT-4,称 GPT-4 其实是一个混合模型。具体来说,它采用了由 8 个专家模型组成的集成系统,每个专家模型都有 2200 亿个参数(比 GPT-3 的 1750 亿参数量略多一些),并且这些模型经过了针对不同数据和任务分布的训练。

在这段播客播出之后,PyTorch 创建者 Soumith Chintala 表示自己似乎听过同样的「传闻」,很多人可能也听过,但只有 George Hotz 在公开场合将其说了出来。

「混合模型是你在无计可施的时候才会考虑的选项,」George Hotz 调侃说,「混合模型的出现是因为无法让模型的参数规模超过 2200 亿。他们希望模型变得更好,但如果仅仅是训练时间更长,效果已经递减。因此,他们采用了八个专家模型来提高性能。」至于这个混合模型是以什么形式工作的,George Hotz 并没有详细说明。

为什么 OpenAI 对此讳莫如深呢?George Hotz 认为,除了苹果之外,大部分公司保密的原因都不是在隐藏什么黑科技,而是在隐藏一些「不那么酷」的东西,不想让别人知道「只要花 8 倍的钱你也能得到这个模型」。

对于未来的趋势,他认为,人们会训练规模较小的模型,并通过长时间的微调和发现各种技巧来提升性能。他提到,与过去相比,训练效果已经明显提升,尽管计算资源没有变化,这表明训练方法的改进起到了很大作用。

目前,George Hotz 关于 GPT-4 的「爆料」已经在推特上得到了广泛传播。

有人从中得到了灵感,声称要训练一个 LLaMA 集合来对抗 GPT-4。

还有人说,如果真的像 George Hotz 说的那样,GPT-4 是一个由 8 个 2200 亿参数的专家模型组合的混合模型,那很难想象背后的推理成本有多高。

需要指出的是,由于 George Hotz 并未提及消息来源,我们目前无法判断以上论断是否正确。有更多线索的读者欢迎在评论区留言。

责任编辑:

标签:

最新
  • GPT-4是8x2200亿参数的混合模型?这个小道消息今天传疯了|环球即时看

    在采访中,他谈到了GPT-4,称GPT-4其实是一个混合模型。具体来说,它采

  • 天天观点:vivo S17系列全网正式开售,夜景人像新突破

    在传统轻薄手机上,往往有着影像不好的刻板印象,然而,在近期vivo正式

  • 驻菲律宾使馆请在菲中国公民注意防范地震、火山等灾害-全球微资讯

    国内首家中文网络媒体、79家中央新闻网站之一。内容涵盖国家公派留学、

  • 菲律宾发生6.2级地震,首都大马尼拉地区震感强烈

    据中国驻菲律宾大使馆网站消息,6月15日上午,菲律宾吕宋岛八打雁省发

  • 世界热头条丨红米Redmi 12正式发布 联发科G88芯片 千元价格给力

    在正面,手机配备了800万像素的自拍摄像头。此外,新机配备了侧面指纹

  • 【直播】税务师考试必备知识集萃 快来跟老师们划重点!

    2023年税务师备考正在进行中,为了帮助同学们更好复习,老师们来给大家

  • 中胤时尚:元起点和新畅元科技在虚拟人技术上储备多项技术

    南方财经6月16日电,中胤时尚在互动平台表示,元起点和新畅元科技在虚

  • 环球快播:虐杀原形2存档在哪里?虐杀原形下载的存档放在哪?

    虐杀原形2存档在哪里?虐杀原形由Activision公司于2009年6月9日发行

  • 余额宝提现多久到账?余额宝提现额度在哪里看?_天天热点评

    余额宝提现多久到账?余额宝提现可以分为两种情况,一种是快速到账,

  • actionscript是什么意思?提示发生ActionScript错误如何解决? 全球要闻

    actionscript是什么意思 发生actionscript错误怎么解决?ActionScri

  • 抱养孩子需要什么手续?收养人应当向收养登记机关提交什么材料?

    一、抱养协议书怎么写有效抱养协议书甲方(收养人):×××(姓名、住址)乙方(送养人):&t

  • 青年创业基金在哪里申请?青年创业基金贷款申请条件

    青年创业基金在哪里申请?申请中国青年创业基金可以通过中国青年创业国际计划,中国青年创业国际计划简称

  • 招商银行金卡有什么用 招商银行金卡用处大吗?

    招商银行金卡有什么用招商银行借记卡和信用卡都是有金卡级别,其中借记卡金卡产品是属于比较高端的银行

  • 股票型基金是什么意思?股票型基金和指数型基金的区别介绍

    股票型基金是什么意思 ?股票型基金是基金的一种类型,它主要投资于股票市场,基金资产投资股票市场的比

  • 学生社保卡毕业后有用吗?学校为什么要让学生办社保卡?

    学生社保卡毕业后有用吗?学生社保卡毕业后是有用的,如果用户在毕业后及时参保,那么是可以继续使用此张

  • 淘宝刷收藏有用吗?拼多多刷收藏有用吗?

    如果是淘宝平台的资深卖家就会发现近几年收藏数目对搜索结果的影响作用越发加大了。因为淘宝默认排名是

  • 旅游
    • 俄罗斯在莫斯科红场举行胜利日阅兵第二次夜间彩排|全球热议

    • 明日之后喷气背包有耐久吗?明日之后的小树枝在哪里找?

    • 信用卡逾期三年能只还本金吗?逾期开失业证明有工作怎么开?

    • 荣安地产股票代码是多少?荣安地产股票行情怎么样?

    热点