| 广告联系 | 繁体版 | 手机版 | 微信 | 微博 | 搜索:
欢迎您 游客 | 登录 | 免费注册 | 忘记了密码 | 社交账号注册或登录

首页

温哥华资讯

温哥华地产

温哥华教育

温哥华财税

新移民/招聘

黄页/二手

旅游

被DeepSeek逼急? OpenAI推新模型 狂卷性价比

QR Code
请用微信 扫一扫 扫描上面的二维码,然后点击页面右上角的 ... 图标,然后点击 发送给朋友分享到朋友圈,谢谢!
2月1日报道,今日凌晨,OpenAI发布全新推理模型o3-mini。


OpenAI称这是其最具成本效益的推理模型,复杂推理和对话能力显著提升,在科学、数学、编程等领域的性能表现超过前代o1模型,同时保持了o1-mini的低成本和低延迟,并可与联网搜索功能搭配使用。

o3-mini已在ChatGPT和API中可用,企业版访问权限将在一周内推出。


显然DeepSeek登顶美国App Store免费榜给OpenAI制造了压力。今天,ChatGPT首次向所有用户免费提供推理模型:用户可在ChatGPT中选择“Reason”按钮来试用o3-mini。

ChatGPT Pro用户可无限制访问,Plus和Team用户的速率限制从原来o1-mini的每天50条消息增加3倍到o3-mini的每天150条消息。

付费用户还可以选择更高智能的版本“o3-mini-high”。该版本需要更长的时间才能生成响应。

和o1模型一样,o3-mini模型的知识截止日期为2023年10月,上下文窗口为20万个token,最多可输出10万个token。

有低(low)、中(medium)、高(high)三个版本的o3-mini,供开发者针对其特定用例进行优化。

o3-mini目前不支持视觉功能,因此开发者仍需使用o1进行视觉推理任务。

即日起,o3-mini在Chat Completions API、Assistants API、Batch API中推出。

OpenAI称相较推出GPT-4时,每个token的价格已经降低了95%,同时保持了顶级的推理能力。不过o3-mini的API定价还是高于DeepSeek模型。




安全方面,OpenAI发现o3-mini在具有挑战性的安全性和越狱方面明显超过GPT-4o。

一、详解o3-mini:科学数学编程能力进化,延迟明显降低


OpenAI发布了o3-mini的37页详细报告,涵盖模型的介绍、数据和训练、测试范围、安全挑战和评估、外部红队测试、准备框架评估、多语言性能以及结论等多个方面。

o3-mini针对科学、数学、编程推理进行了优化,同时响应速度更快。

该模型在GPQA Diamond(理化生)、AIME 2022-2024(数学)、Codeforces ELO(编程)基准测试中,o3-mini的分数分别为0.77、0.80、2036,比肩或超过o1推理模型。

在14种语言的MMLU测试集上,o3-mini的表现显著优于o1-mini,展示了其在多语言理解方面的进步。



外部专家测试人员的评估表明,与o1-mini相比,o3-mini的答案更准确、更清晰,推理能力更强。

在人类偏好评估中,测试人员在56%的时间里更喜欢o3-mini的回答,并观察到在困难的现实问题上重大错误减少了39%。在中推理能力下,o3-mini在一些最具挑战性的推理和智力评估(包括AIME和GPQA)上的表现与o1相当。
不错的新闻,我要点赞     已经有 12 人参与评论了, 我也来说几句吧
上一页123下一页
注:
  • 新闻来源于其它媒体,内容不代表本站立场!
  • 在此页阅读全文
    猜您喜欢:
    您可能也喜欢:
    共有 12 人参与评论    (其它新闻评论)
    评论2 游客 [辛.香.氏.说] 2025-02-01 00:08
    Spending huge amount of money for StarGate plan is to develop their AI tech for monopoly and gorge the users with high prices without competitions. Now DeepSeek joined the competition and beat the AI prices. From this point view, DeepSeek helped all the AI users to save money.
    评论1 游客 [辛.昔.四.篇] 2025-01-31 23:01
    开源,降价。OpenAI居然抄起了DeepSeek的作业。遗憾的是,抄的不够彻底。请问FBI,要不要发起对OpenAI的国安和资安调查?请问OpenAI,刚刚在白宫宣布4年合资500B成立的Stargate,要不要修改投资计划,或关门?2周前曾预计,AI大潮退后,即可见谁没穿内裤,或谁的内裤不见了。没想到这天来得这么快,迅雷不及掩耳。只要摒弃壁垒和制裁,科学无远弗届。
    上一页1下一页
    我来说两句:
    评论:
    安全校验码:
    请在此处输入图片中的数字
    The Captcha image
    Terms & Conditions    Privacy Policy    Political ADs    Activities Agreement    Contact Us    Sitemap    

    加西网为北美中文网传媒集团旗下网站

    页面生成: 0.0362 秒 and 5 DB Queries in 0.0024 秒