科技行业资讯门户

广告

广告

广告

广告

广告

OpenAI的吉卜力,撞车了被字节起诉“投毒AI”的前实习生?

【蜂耘网 人工智能】想象一下,耗费动画大师宫崎骏数十年心血、一帧一画精雕细琢的艺术风格比如《起风了》中耗时一年多的四秒人群场景,或是《幽灵公主》里那个生物钻地镜头背后一年零七个月 5300 帧手绘,如今,GPT-4o手中,似乎变唾手可。用户们兴奋地将个人照片、网络梗图甚至历史影像纷一键吉卜力,其效果之逼真、风格之统一,迅速点燃了网络。无数人的时间线都被塞入了宫崎骏的平行宇宙OpenAI CEO Sam Altman透露4o的图像生成功能在一小时内就吸引了百万新用户。

 

img1

 

但如果你认为这仅仅OpenAI用一个更强的模型替换了之前DALL-E,那可能就忽视了全貌。有敏锐的网友指出这不仅仅是一次产品更这很可能是一个彻底的范式转变 OpenAI 似乎正在解决那些长期困AI图像生成过程中,让创作者望而却步的问题。

 

那么,秘密武器是什么OpenAI自己给出了线索:这次的图像生成是直接内置GPT-4o模型中的,并且,与广泛采用扩散模型Diffusion ModelsDALL-EMidjourneyStable Diffusion 不同OpenAI在模型卡片中声明与作为扩散模型运行DALL·E不同4o图像生成是一个原生嵌入ChatGPT中的自回归模

 

值得注意的是,将自回归思想应用于图像生成并OpenAI的独创。事实上,如何让擅长序列预测的自回归模型在视觉领域发挥潜力,一直AI研究者们试图攻克的方向之一,意在寻找不同于主流扩散模型的新范式。

 

例如此前获得顶级学术会NeurIPS 2024最佳论文奖等《视觉自回归建模:通过下一尺度预测实现可扩展的图像生成》Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction)的研究,它不仅提出了一种创新 VAR 方法,显著提升了自回归模型生成图像的质量和效率,更是在实验中首次证明了 GPT 的纯自回归模型在图像生成任务上,有潜力超越当时顶尖的扩 Transformer 模型。

 

这篇论文由北京大学与字节跳动的研究者共同完成。而为这篇技术含量极高的论文增添了更多话题性的,是其第一作者田柯宇的另一重身他正是那位因被指控恶意攻击字节跳动训练集群、面临巨额索赔而备受关注的前字节实习生。

 

含金量还在上的实习生,以一种意想不到的方式,AI图像生成的前沿探索交织在了一起。

 

1 .自回归的

 

GPT-4o 在图像生成上的突破,关键之一在于其宣称采用的自回归技术AR)路径,这与主流的扩散模型截然不同。理解这一差异,是把握这场潜范式转的核心。

 

扩散模型,MidjourneyStable Diffusion,其原理是从随机噪声出发,通过学习数据分布逐步去噪,最终生成图像,强项在于生成高质量、逼真的图像,但在速度、计算成本以及精确理解复杂指令(尤其是文字渲染)方面常显不足。

 

自回归模型则借鉴GPT处理文本的方式:按顺序预测下一个元素。在图像上,这意味着模型基于已生成的部分(如像素或图像标记),逐步构建出完整图像。理论上,这赋予AR在上下文理解、细节控制和连贯性上的优势。然而,传AR方法存在效率低、易出错的问题,长期以来难以在效果上匹敌扩散模型。

 

近年来, VARVisual Autoregressive Modeling)、掩码自回归建模MAR)等研究,开始 AR VAR提出下一尺度预(从粗到细生成)等创新,显著提升AR模型的图像质量和生成效率,证明AR路径不仅可行,甚至有潜力超越扩散模型VAR等研究可能GPT-4o提供了理论启发,GPT-4o的实践进一步验证了自回归模型在视觉生成中的可行性, AR 在图像生成领域迎来的可能。

 

img2

 

那么GPT-4o 的图像生成具体是如何运作的OpenAI强调其图像功能原生集成于模型核心,而非独立模块。这意味4o能充分利用其强大的语言理解和世界知识来指导图像生成,实现前所未有的上下文理解和指令遵循能比如准确画出包含特定公式的白板。这种深度融合 4o 效果出色的关键。

 

然而,一张流出的内部白板图(标注Transformer -> Diffusion流程)引发了对自回归的质疑,可能采用了混合架构:即利 AR 的理解能力生成中间表示,再结 Diffusion 的像素生成优势输出最终图像。这种猜测认4o可能融合了两条路线的优点,以规避各自的短板。不过也不能排除OpenAI在故意混淆事实。

 

img3

 

由于没有任何技术报告,其具体实现细节仍是谜团,OpenAI的战略意图清晰可见:一是将自回归原则置于下一代多模态模型图像生成的核心位置;二是依托其超大规模的模型为这一切提供算力和智能基础 无论最终的技如何GPT-4o 都已将自回归推向了前沿,这很可能会改AI图像生成的未来发展方向。

 

1 .中美温差

 

GPT-4o图像生成功的成功,引出了一个值得关注的现象:无论是语言模型还是视频模型,中国的企业追赶迅速,但在尖端图像生成上,似乎总是美国公司在前沿?无论是MidjourneyGemini Image4o,在中国似乎都看不到能与的企业或产品。

 

我们可以从技术和商业两个视角来看待这。技术上,美国顶尖公司似乎更倾向于探索和押注如自回归AR)等可能带来范式革命的新路径,这或许得益于其在基础研究上的长期投入和对风险的更高容忍度OpenAI2020年就推出的自回归图像生成模Image GPT,旨在将自然语言处理中Transformer架构应用于图像生成领域。

 

img4

 

而国内力量可能更集中于优化成熟Diffusion路线并快速落地应用,这在追赶阶段十分有效,但也可能带来一定的路径依赖。同时,顶尖模型所需的算力、高质量数据和核心算法创新,本身就构成了不低的壁垒。有观点认为 Diffusion模型可能已触及瓶颈,亟待新的突破。

 

商业上,市场定位和变现模式也塑造了不同的发展方向MidjourneyGPT-4o等似乎更瞄准对效果要求极致的专业用户或付费意愿强的市场,追求打工具并直接收费。而中国庞大的应用场景(电商、社交、营销等)或许更看重成本、效率和与现有生态的融合,促使技术发展更偏向工程优化和平台赋能,而非单一工具的极限探索。不同的资本偏好和生态整合策略也加剧了这种分野。

 

当然,这并非说中国在生图领域毫无建树。阿里巴巴、字节DeepSeek等公司也在持续推出有竞争力的模型。只是在全层面,暂时由美国公司领跑。

 

归根结底,技术和商业的合力共同塑造了当前的格局。随 GPT-4o可能引领的自回归新浪潮,我们无疑等不及要看到这个方向的开源进展,或是中国企业的快速跟进与实现了。

 

 

(蜂耘人工智能网 责任编辑:行云)

2025-04-03 14:31

广告

来源:硅星人
想象一下,耗费动画大师宫崎骏数十年心血、一帧一画精雕细琢的艺术风格——比如《起风了》中耗时一年多的四秒人群场景,或是《幽灵公主》里那个生物钻地镜头背后一年零七个月的 5300 帧手绘,如今,在GPT-4o手中,似乎变得“唾手可得”。

声明:凡来源标明“蜂耘网”的文章版权均为本站所有,如需转载请务必注明出处,违者本网将追究相关法律责任;所有未标明来源为“蜂耘网”的转载文章目的在于传递更多信息,均不代表本网立场及观点,“蜂耘网”不对这些第三方内容或链接做任何保证或承担任何责任;如涉及版权等问题,请在内容发表之日起一周内与本网联系,否则视为放弃相关权利。

所有评论仅代表网友意见,与本站立场无关

最新资讯

推荐阅读

热门排行

1、

2、

3、

4、

5、

6、

7、

8、

专题推荐

人物访谈

  • 坚定扛牢“走在前、挑大梁”的使命担当(权威访谈·谋发展 启新篇)

    来源:人民日报
    2024年,山东经济社会高质量发展取得积极成效。新的一年,作为经济大省的山东如何坚定扛牢“走在前、挑大梁”的使命担当?如何全面贯彻落实中央经济工作会议精神,奋力推动经济社会高质量发展?记者采访了山东省委书记林武。

    41 2025-01-21
  • 一文了解查理·芒格:为什么他是巴菲特最推崇的人

    来源:
    ①巴菲特写道,“如果没有查理的灵感、智慧和参与,伯克希尔-哈撒韦公司不可能发展到今天的地位”;
    ②芒格曾表示,“如果世上未曾有过查理·芒格这个人,巴菲特的业绩依然会像现在这么漂亮 ”
    ③两周前,芒格还公开在节目中维护93岁的老友巴菲特。

    198 2023-11-29
  • 面壁者,拉里·佩奇

    来源:中欧商业评论
    这两年,硅谷钢铁侠埃隆·马斯克在社交媒体上口无遮拦,这为他的公司引来了铺天盖地的负面新闻,然而,他的好友、谷歌联合创始人拉里·佩奇却因为看不到人同样被媒体炮轰多时。他已经在公共视野中消失太久了。

    322 2022-06-15

会议活动

微信公众号

广告

相关新闻