跳票了近一年!OpenAI终于上线这个"新功能"

3月26日消息，经过长达一年与人类训练师协作优化，OpenAI于美国当地时间周二发布了GPT-4o原生多模态图像生成功能，支持生成更加逼真的图像。

用户只需在ChatGPT中描述图像（可指定宽高比、色号或透明度等参数），GPT-4o便能在一分钟内生成相应图像。

OpenAI在公告中确认，GPT-4o图像生成功能具有以下特点：

—— 精准渲染图像内文字，能够制作logo、菜单、邀请函和信息图等；

—— 精确执行复杂指令，甚至在细节丰富的构图中也能做到；

—— 基于先前的图像和文本进行扩展，确保多个交互之间的视觉一致性；

—— 支持各种艺术风格，从写实照片到插图等。

GPT-4o生成图片效果展示

除了通过GPT-4o可以在ChatGPT中直接生成图像，该模型还整合进了OpenAI的视频生成平台Sora，进一步扩展了其多模态能力。

全球最大IPO要来了?OpenAI与微软商讨亿级融资

肩负OpenAI盈利重任的硅谷女掌门

微软执行长:中国DeepSeek R1足以匹敌OpenAI

新模型即日起将作为ChatGPT的默认图像生成引擎，向ChatGPT Free、Plus、Team及Pro用户开放，取代此前使用的DALL-E 3。企业版、教育版以及API接口也将在不久后支持该功能。

据OpenAI官方说明，GPT-4o在多个方面相较于过去的模型进行了改进：

—— 更好的文本集成：与过去那些难以生成清晰、恰当位置文字的AI模型不同，GPT-4o现在可以准确地将文字嵌入图像中；

—— 增强的上下文理解：GPT-4o通过利用聊天历史，允许用户在互动中不断细化图像，并保持多次生成之间的一致性；

—— 改进的多对象绑定：过去的模型在正确定位场景中的多个不同物体时存在困难，而GPT-4o现在可以一次处理多达10至20个物体；

—— 多样化风格适应：该模型可以生成或将图像转化为多种风格，支持从手绘草图到高清写实风格的转换。

作为去年推出的多模态模型，GPT-4o最初的定位是成本优化版的旗舰AI模型，具备生成和理解文本、视频、音频和图像等能力。OpenAI表示，此次精调后的版本使普通用户和企业能够更轻松地创建逼真图像、可读文本段落，乃至公司logo和演示幻灯片等。

项目首席研究员Gabriel Goh透露，GPT-4o取得突破性进展的关键，源于人类训练师对模型数据的标注工作——标注了AI生成图像中的错别字、畸形手脚和面部特征等问题。通过“人类反馈强化学习”（RLHF）技术，模型学会了更精准地遵循人类指令，从而生成更准确且实用的图像。