微软发布 Phi-4-mini-flash-reasoning 端侧 AI 模型：10 倍吞吐量，推理能力升级

微软发布 Phi-4-mini-flash-reasoning 端侧 AI 模型：10 倍吞吐量，推理能力升级

人工智能 2025-07-13 15:05:07 3天前

IT酷哥 7 月 11 日消息，科技媒体 NeoWin 昨日（7 月 10 日）发布博文，报道称微软推出 Phi-4-mini-flash-reasoning 小语言模型，重点提升端侧 AI 模型的数学和逻辑推理能力。

Phi-4-mini-flash-reasoning 的主要优势在于，它能够在边缘设备、移动应用和嵌入式系统等资源不足的场景下，引入先进的推理功能。

在架构方面，Phi-4-mini-flash-reasoning 创新引入了 SambaY 架构，而该架构的一大亮点，就是名为 Gated Memory Unit（GMU）的组件，它能够高效地在模型的内部之间共享信息，从而提高模型的效率。

这些改进让模型能够更快地生成答案和完成任务，即使面对非常长的输入也能应对自如，Phi 模型还能处理大量数据，理解非常长的文本或对话。

在性能方面，相比较其它 Phi 模型，Phi-4-mini-flash-reasoning 的吞吐量最高提升 10 倍，这意味着在给定的时间内，Phi-4-mini-flash-reasoning 可以完成更多的工作。

它可以在相同的时间内处理 10 倍多的请求或生成 10 倍多的文本，这对于实际应用来说是一个巨大的改进，此外，延迟也降低至其它 Phi 模型的 1/2~1/3。IT酷哥附上相关性能数据如下：

Phi-4-mini-flash-reasoning 新型模型已在 Azure AI Foundry、NVIDIA API Catalog 和 Hugging Face 上线。

模型架构时间内是一个文本

相关阅读

英国投资 1 亿英镑，成立 AI 工作组和 OpenAI 等共建基础模型

消息称 ChatGPT 未来有望增加更多功能：上传文件分析信息，还能记住用户画像

可按用户语气自动回复消息，在线会议软件 Zoom 推出基于生成式 AI 的新功能

微软推出 LLaVA-Med AI 模型，可对医学病理案例进行分析

麦肯锡：到 2045 年左右，将有 50% 工作被 AI 接管

使用自然语言，纽约大学团队利用聊天机器人 ChatGPT 从零设计出微处理器

理想汽车负责人：我们在 ChatGPT 问世之前就已启动 AI 大语言模型训练

长虹电视 AI 大模型“长虹超脑”发布：三大核心能力，可连续自然对话

科学家利用 AI 识别热门歌曲，准确率高达 97%

软银 CEO 孙正义宣布策略调整：AI 革命正在爆发，公司将“转守为攻”

京东 AI 大模型官宣 7 月 13 日发布：新上任 CEO 许冉演讲，还有重磅合作

波音宣布与日本航空合作，用 AI 排查 787 梦想客机零件老化和故障迹象

YouTube 测试 Aloud 人工智能配音功能，可将视频转述为不同语言

宏碁、惠普、华硕等品牌发力 AI 笔记本市场，明年将带动新一波换机潮

Dropbox 网盘推出 AI 搜索工具 Dropbox Dash：聚合多办公平台，可视化管理工作任务

微软用 AI 缩短癌症放疗时间：扫描速度提高 2.5 倍，准确率达 90%

外媒提议更新开源许可证：摆脱 80 年代束缚，应对当下人工智能时代

Unity 推出面向开发者的 AI 软件市场 AI Hub，股价飙涨 15%

谷歌 DeepMind 自曝正开发新型 AI 模型 Gemini，号称“比 GPT-4 强”

英伟达联手 Snowflake：卖出更多芯片，帮助企业客户建立自己的 AI 模型