初探 Deepseek R1-0528 开源模型:AI 编程能力跃升,媲美 OpenAI o3 和 o4-mini

初探 Deepseek R1-0528 开源模型:AI 编程能力跃升,媲美 OpenAI o3 和 o4-mini

人工智能 2025-05-30 11:00:02 2天前

IT酷哥 5 月 29 日消息,深度求索(Deepseek)昨日通过官方交流群,邀请用户测试 DeepSeek-R1-0528 模型小版本,初步测试结果表明,R1-0528 在编程能力、审美设计和代码补全等方面表现出色,尤其在复杂指令处理和前端页面生成上展现了高精度和高效能。

DeepSeek-R1-0528 模型在多个方面实现了性能提升,其中最为亮眼的就是编程能力,能根据用户输入的简单提示词,快速生成高质量代码。

代码测试平台 Live CodeBench 中显示,其性能可以媲美 OpenAI 最新的 o3 模型(High)。

在Extended NYT Connections跑分中,DeepSeek-R1-0528 模型跑分为 49.8分,而初代DeepseekR1模型为 38.6分。

IT酷哥注:Extended NYT Connections 是一个用于评估大型语言模型(LLM)性能的基准测试,基于《纽约时报》的 Connections 谜题游戏。

这个基准测试包含了 651 个 NYT Connections 谜题,并且增加了额外的词汇以提高难度,旨在更全面地测试模型的语言理解和推理能力。

R1-0528 具有OpenAIo3和谷歌Gemini 2.5Pro专业风格的响应。箭头 / 星号的使用与 o3 风格非常一致,结尾处“why it works”的表述更具说服力。

此外,在审美设计和代码补全(code completion)方面,R1-0528 同样表现卓越。测试中,该模型轻松应对多样化任务,输出结果精准且实用。

在生成复杂前端页面和动态动画方面,R1-0528 也展现了强大的能力,能准确理解复杂指令。更重要的是,相比较 OpenAI 的 o3 和 o4-mini 模型,R1-0528 大幅缩短了推理时长,提供了更加流畅和高效的使用体验。

文章版权声明:除非注明,否则均为网络转载文章,转载或复制请以超链接形式并注明出处。

相关阅读

  • AI 钞能力:阿联酋打造的 Falcon-40B 语言模型 OpenLLM 排名第一、持续霸榜
  • OpenAI CEO 阿尔特曼到访日本,对全球 AI 协调合作表示“非常乐观”
  • 谷歌将生成式 AI 应用于在线购物,真人模特可实现高精度虚拟换衣
  • 捷豹路虎宣布采用 AI 管控供应链,最大程度降低生产中断风险
  • 腾讯宣布打造行业大模型精选商店,提供一站式服务
  • 软银 CEO 孙正义宣布策略调整:AI 革命正在爆发,公司将“转守为攻”
  • 丰田推出生成式 AI 工具:输入文字指令可自动设计汽车外形,并符合工程学需求
  • 全球首个 AI 广播频道公司完成 1900 万美元融资,开发无障碍及游戏 NPC 技术
  • 特斯拉创建 Tesla AI 推特账户,称下月开始生产 Dojo 超级计算机
  • Meta 和 OpenAI 公司 CEO 公开支持欧盟推行 AI 监管方案
  • 中国联通发布鸿湖图文 AI 大模型 1.0,可实现以文生图、视频剪辑
  • 英科智能推出 AI 设计的罕见病特效药,已在中美同时启动人体临床试验
  • 微软推出 ZeRO++ 技术,可显著减少 AI 大模型训练时间和成本
  • 2023 全球 AI 指数排名公布:美中稳居前二,亚洲国家表现亮眼
  • 内置 AI 助手 Copilot 上线:微软 Win11 Dev 预览版 Build 23493 发布,设置、音量大改
  • 研究表明 GPT-4 模型具备自我纠错能力,有望推动 AI 代码进一步商业化
  • 联合国将招募数十个机器人,协助完成 2030 可持续发展目标
  • 热度过去用户兴趣降低:数据显示 ChatGPT 流量在 6 月首次出现下降
  • 中国工程院院士高文:将打造 2000 亿参数自然语言大模型底座,性能对标 ChatGPT
  • 微软大中华区董事长侯阳:今后每一家公司的每一个应用程序都将由 AI 来驱动
  • 最新资讯

    热门资讯