| 广告联系 | 繁体版 | 手机版 | 微信 | 微博 | 搜索:
欢迎您 游客 | 登录 | 免费注册 | 忘记了密码 | 社交账号注册或登录

首页

温哥华资讯

温哥华地产

温哥华教育

温哥华财税

新移民/招聘

黄页/二手

旅游

半壁华人!GPT Image 2团队曝光 13人4个月封神


请用微信 扫一扫 扫描上面的二维码,然后点击页面右上角的 ... 图标,然后点击 发送给朋友分享到朋友圈,谢谢!
通过过自动构建互联网规模的3D空间推理 VQA 数据集(1000 万图像、20 亿 QA 对),为视觉语言模型赋予定量 / 定性空间推理能力,可从单张 2D 图像输出米制距离、尺寸、方位等精确数值。


这项研究把思维链空间推理应用到了具身智能领域。




谷歌实习期间,他开发的指令微调技术后续还被Gemini 2.0采用。

他在高中参加科研夏令营时,还不懂Python的基本语法,那时结识的谷歌DeepMind资深研究员夏斐把他引入了AI世界。

夏斐两次邀请他到DeepMind完成高质量实习,这些经历使陈博远积累了大规模模型训练的工程经验,也为他理解多模态系统的数据需求提供了宝贵视角。

博士毕业后,陈博远于2025年6月加入OpenAI,迅速成为GPT图片生成五人核心成员之一,负责GPT图像生成模型的所有训练,同时也是Sora视频生成团队的一员。

在演示中,他给家乡无锡做了一张海报。然后为来自首尔的队友做韩文海报,为来自Bangladesh的队友做孟加拉语海报。每一张中的文字渲染都精准无误。



中科大Jianfeng Wang:让生图AI理解世界知识


中科大博士毕业的Jianfeng Wang,在GPT Image 2团队负责的是另一个让人惊叹的能力:指令遵循和理解世界。



旧模型画的永远时钟永远指向10:10,源于网络上的钟表广告图,几乎清一色都是10:10。

这是因为钟表厂商找心理学家做过实验,认为这有助于刺激消费者买表的意愿。


不错的新闻,我要点赞     好新闻没人评论怎么行,我来说几句
注:
  • 新闻来源于其它媒体,内容不代表本站立场!
  • 在此页阅读全文
    猜您喜欢:
    您可能也喜欢:
    我来说两句:
    评论:
    安全校验码:
    请在此处输入图片中的数字
    The Captcha image
    Terms & Conditions    Privacy Policy    Political ADs    Activities Agreement    Contact Us    Sitemap    

    加西网为北美中文网传媒集团旗下网站

    页面生成: 0.0271 秒 and 4 DB Queries in 0.0016 秒