| Contact Us | CHT | Mobile | Wechat | Weibo | Search:
Welcome Visitors | 登录 | 免费注册 | 忘记了密码 | 社交账号注册或登录

Home

温哥华资讯

Realty

Education

Finance

Immigrants

Yellow Page

Travel

跳票了近一年!OpenAI终于上线这个"新功能"

QR Code
请用微信 扫一扫 扫描上面的二维码,然后点击页面右上角的 ... 图标,然后点击 发送给朋友分享到朋友圈,谢谢!
3月26日消息,经过长达一年与人类训练师协作优化,OpenAI于美国当地时间周二发布了GPT-4o原生多模态图像生成功能,支持生成更加逼真的图像。


用户只需在ChatGPT中描述图像(可指定宽高比、色号或透明度等参数),GPT-4o便能在一分钟内生成相应图像。

OpenAI在公告中确认,GPT-4o图像生成功能具有以下特点:


—— 精准渲染图像内文字,能够制作logo、菜单、邀请函和信息图等;

—— 精确执行复杂指令,甚至在细节丰富的构图中也能做到;

—— 基于先前的图像和文本进行扩展,确保多个交互之间的视觉一致性;

—— 支持各种艺术风格,从写实照片到插图等。



GPT-4o生成图片效果展示

除了通过GPT-4o可以在ChatGPT中直接生成图像,该模型还整合进了OpenAI的视频生成平台Sora,进一步扩展了其多模态能力。


新模型即日起将作为ChatGPT的默认图像生成引擎,向ChatGPT Free、Plus、Team及Pro用户开放,取代此前使用的DALL-E 3。企业版、教育版以及API接口也将在不久后支持该功能。

据OpenAI官方说明,GPT-4o在多个方面相较于过去的模型进行了改进:

—— 更好的文本集成:与过去那些难以生成清晰、恰当位置文字的AI模型不同,GPT-4o现在可以准确地将文字嵌入图像中;

—— 增强的上下文理解:GPT-4o通过利用聊天历史,允许用户在互动中不断细化图像,并保持多次生成之间的一致性;


—— 改进的多对象绑定:过去的模型在正确定位场景中的多个不同物体时存在困难,而GPT-4o现在可以一次处理多达10至20个物体;

—— 多样化风格适应:该模型可以生成或将图像转化为多种风格,支持从手绘草图到高清写实风格的转换。

作为去年推出的多模态模型,GPT-4o最初的定位是成本优化版的旗舰AI模型,具备生成和理解文本、视频、音频和图像等能力。OpenAI表示,此次精调后的版本使普通用户和企业能够更轻松地创建逼真图像、可读文本段落,乃至公司logo和演示幻灯片等。

项目首席研究员Gabriel Goh透露,GPT-4o取得突破性进展的关键,源于人类训练师对模型数据的标注工作——标注了AI生成图像中的错别字、畸形手脚和面部特征等问题。通过“人类反馈强化学习”(RLHF)技术,模型学会了更精准地遵循人类指令,从而生成更准确且实用的图像。



GPT-4o生成图片效果展示
觉得新闻不错,请点个赞吧     这条新闻还没有人评论喔,等着您的高见呢
Prev Page12Next Page
Note:
  • 新闻来源于其它媒体,内容不代表本站立场!
  • _VIEW_NEWS_FULL
    _RELATED_NEWS:
    _RELATED_NEWS_MORE:
    _POSTMYCOMMENT:
    Comment:
    Security Code:
    Please input the number which is shown on the following picture
    The Captcha image
    Terms & Conditions    Privacy Policy    Political ADs    Activities Agreement    Contact Us    Sitemap    

    加西网为北美中文网传媒集团旗下网站

    Page Generation: 0.0361 Seconds and 5 DB Queries in 0.0015 Seconds