2600 tokens s:Meta 发布 Llama API,携手 Cerebras 打造最快 AI 推理解决方案

2600 tokens s:Meta 发布 Llama API,携手 Cerebras 打造最快 AI 推理解决方案

人工智能 2025-05-01 15:06:04 5小时前

IT酷哥 4 月 30 日消息,在首届 LlamaCon 大会上,Meta 公司在推出独立 AI 应用之外,还发布了 Llama API,目前以免费预览形式向开发者开放。

IT酷哥援引博文,Llama API 支持开发者测试包括 Llama 4 Scout 和 Llama 4 Maverick 在内的最新模型,提供一键 API 密钥创建以及轻量级的 TypeScript 和 Python SDK。

开发者可通过一键创建 API 密钥,快速上手使用,同时 API 还提供轻量级的 TypeScript 和 Python SDK。为了方便开发者从 OpenAI 平台迁移应用,Llama API 完全兼容 OpenAI SDK。

Meta 还联手 Cerebras 和 Groq,进一步优化 Llama API 的性能。Cerebras 宣称,其 Llama 4 Cerebras 模型的 tokens 生成速度高达 2600 tokens / s,比 NVIDIA 等传统 GPU 解决方案快 18 倍。

根据 Artificial Analysis 基准测试数据,这一速度远超 ChatGPT 的 130 tokens / s 和 DeepSeek 的 25 tokens / s。

Cerebras CEO 兼联合创始人 Andrew Feldman 表示:“我们很自豪能让 Llama API 成为全球最快的推理 API。开发者在构建实时应用时需要极致速度,Cerebras 的加入让 AI 系统性能达到 GPU 云无法企及的高度。”

此外,Groq 提供的 Llama 4 Scout 模型速度为 460 tokens / s,虽不及 Cerebras,但仍比其他 GPU 方案快 4 倍。在Groq上,Llama 4 Scout 每百万 tokens 输入费用为 0.11 美元,每百万 tokens 输出费用为 0.34 美元;Llama 4 Maverick 每百万 tokens 输入费用为 0.50 美元,每百万 tokens 输出费用为 0.77 美元。

文章版权声明:除非注明,否则均为网络转载文章,转载或复制请以超链接形式并注明出处。

相关阅读

  • OpenAI 首席执行官不打算让公司上市,因为公司结构很奇怪
  • 《瞬息全宇宙》幕后特效公司 Runway 推出 AI 模型 Gen-2,可根据提示词生成逼真视频
  • OpenAI 对手 Cohere 获 2.7 亿美元融资,欲与其展开正面竞争
  • 套娃不可取:研究人员证实用 AI 生成的结果训练 AI 将导致模型退化乃至崩溃
  • GitHub 报告称 92% 的美国程序员正在使用 AI 工具
  • (更新)消息称谷歌将与联发科合作打造 AI 服务器芯片,后者回应“错误报道”
  • OpenAI CTO 揭晓 ChatGPT 内幕,原本只是一个研究示范项目
  • 谷歌警告员工使用聊天机器人时要小心,包括自家的 Bard
  • 宜家发布由 AI 设计的下一代沙发:轻便、扁平、模块化,采用 100% 可回收材料
  • 腾讯首次披露行业大模型进展:不追求参数高,希望成本预算可控
  • 京东 AI 大模型官宣 7 月 13 日发布:新上任 CEO 许冉演讲,还有重磅合作
  • 宏碁、惠普、华硕等品牌发力 AI 笔记本市场,明年将带动新一波换机潮
  • 开源模型 PrivateGPT 上线,可本地搭建、避免信息外泄
  • 科大讯飞星火 AI 大模型出海东南亚,将在新加坡实施“1+4”战略
  • 金融巨头瑞穗银行押注生成式 AI,开放 Azure OpenAI 给 4.5 万名员工使用
  • Meta 将提高 AI 算法应用透明度,向用户提供详细说明和更多选择
  • 中国团队推出世界首颗 AI 全自动设计 CPU“启蒙 1 号”:无人工干预,性能堪比 486
  • 中国电信公布 TeleChat 大模型,宣称将建立“百亿级 AI 服务商”
  • 正版文心一言上架 App Store,百度此前起诉苹果“盗版 App 泛滥”
  • 韩媒称三星先进封装技术落后于台积电,导致难以取得 AI 芯片订单
  • 最新资讯

    热门资讯