英特尔第一时间深度优化 Qwen3 大模型,升级 AI PC 能力赋能多样化场景

英特尔第一时间深度优化 Qwen3 大模型,升级 AI PC 能力赋能多样化场景

IT资讯 2025-04-30 17:12:11 3小时前

为持续推动尖端 AI 模型的创新发展,英特尔始终与业界领先的创新力量保持深度协作。我们欣然宣布,全新升级的英特尔 AI 解决方案已全面覆盖 PC 客户端、边缘计算、智能驾舱等场景,在第一时间为 Qwen3 系列大模型的发布提供技术支撑。

全新 Qwen3 系列大模型的五大亮点:

1.稀疏 MoE 模型深度优化,端侧高效部署 Qwen3

2.首次在 NPU 上 Day 0 支持大模型,提供更好的性能和功耗表现

3.端侧微调,提升模型智能,优化用户体验

4.动态稀疏注意力赋能 Qwen3 长上下文窗口,解锁端侧 Agent 新应用

5.拥抱开源生态,Day 0 支持魔搭社区 Ollama

在本次阿里巴巴开源的新一代通义千问 Qwen3 系列模型中,最为引人注目的是 30B 参数规模的 MoE 混合专家模型(Mixture of Experts)(Qwen3-30B-MOE-A3B)。该模型凭借其先进的动态可调混合专家架构,在有效提升计算效率方面表现出色, 使其在本地设备(客户端和边缘设备)上具备广阔的应用前景。然而,其在部署环节存在较大难度,且对系统整体资源的消耗依然较高。为应对这些挑战,英特尔与阿里紧密合作,针对 MoE 模型展开了全面的技术适配工作。通过实施多种优化策略,基于 OpenVINOTM 工具套件成功地将 Qwen 模型高效部署于英特尔硬件平台之上。具体而言,在 ARL-H 64G 内存的系统上部署的 30B 参数规模 MoE 模型,实现了 33.97 token / s 1 的吞吐量,而且相较于同等参数规模的稠密模型,取得了显著的性能提升。英特尔采用的软件优化策略涵盖了针对稀疏混合专家模型架构(Sparse MoE)的算子融合,针对 3B 激活 MOE 模型定制化的调度和访存优化以及针对不同专家之间的负载均衡, 这些技术能够助力更多 MOE 模型在英特尔平台上实现高效部署。

此次发布的 Qwen3 系列模型主要集中于中小参数量的稠密架构 LLM,参数规模涵盖 0.6B 至 32B,能够适配更广泛的硬件资源,满足多样化的使用场景需求。英特尔的 CPU、GPU、 NPU 架构全面适配 Qwen 系列模型,为模型的部署进行优化,使用英特尔 OpenVINOTM 工具套件和 PyTorch 社区工具都可以为全系列 Qwen 模型在英特尔酷睿 Ultra 平台 (酷睿 Ultra 100 系列 / 200 系列) 和英特尔锐炫™ A 系列显卡和 B 系列显卡上的部署实现卓越性能表现。

值得一提的是,英特尔首次在 NPU 上对模型发布提供第零日(Day 0)支持,体现了英特尔和开源生态更加深入的合作,针对不同模型参数量和应用场景提供更多样化的、更有针对性的平台支持。针对从 0.6B 到高达 8B 的中小参数量模型全面支持,吞吐量最高达到 36.68 token / s 2,借助英特尔 Lunar Lake NPU 平台和英特尔 OpenVINOTM 工具套件,可以在保持低能耗的同时,又可以获得优异性能。

同时,在酷睿 Ultra 的 iGPU 平台上,英特尔持续为模型带来卓越的性能。针对小尺寸的模型,在 FP16 精度下,最高达到 66 token / s2,针对中小尺寸模型,在 INT4 精度下,最高达到 35.83 token / s 2。开发者可以根据适合的使用场景,找到精度和性能的最佳组合。在英特尔锐炫 B 系列显卡更强大算力加持下,Qwen3-8B 模型可实现 70.67 token / s3 ,开发者能够即刻领略到最新模型与英特尔卓越平台能力的超强组合,畅享前沿科技带来的高效与便捷。

作为生成式 AI 模型中的轻量级选手,0.6B 参数量的小型 LLM 具备灵活高效的部署优势以及快速迭代更新的能力。然而,在实际应用落地过程中,人们常常对其知识的深度与广度以及处理复杂任务的能力存在顾虑。通过借助特定的数据集对这些小型 LLM 进行端侧微调(Fine-tune),可以提升模型智能,优化用户体验。为此,基于 Unsloth 和 Hugging Face 参数高效微调框架(Parameter-Efficient Fine-Tuning, PEFT),英特尔构建了一套完整的端侧解决方案,使模型变得更加智能,AI PC 应用也真正变成用户的贴心智能小助手。

借助这个方案,在 Qwen3 0.6B 模型的多语言能力,可以更好的发挥作用,这里就是一个用多语言对图片进行查询的实例

在本次发布的 Qwen3 模型中,我们注意到其 LLM 长上下文能力得到了显著提升。面对有限的算力资源,如何有效利用模型的长上下文能力,避免计算资源消耗呈指数级增长,进而拓展 LLM 在客户端的应用场景,英特尔已给出解决方案。基于动态稀疏注意力,在保证近乎无损精度的前提下,我们可以使长上下文窗口处理速度成倍提升。采用该方案后,Qwen3-8B 模型在英特尔 LNL 平台上可实现 32K 的上下文长度。

这样的长上下文能力,解锁了更多端侧 Agent 新应用。结合 Qwen3 更强的 Agent 和代码能力,以及对 MCP 协议的加强支持,使得基于端侧大模型调用 MCP 服务来开发各种 AI PC Agent 首次成为可能。视频展示了,在英特尔 AI PC 上,基于 Qwen3-8B 模型调用必优科技 ChatPPT.cn MCP 服务自动生成 PPT 的过程。

英特尔持续拥抱开源生态,英特尔优化版 Ollama 也第一时间支持了包括 MoE 模型在内的 Qwen3 系列模型,使开发者可以在英特尔客户端平台 (如英特尔酷睿 Ultra AI PC,英特尔锐炫 A / B 系列显卡) 上,利用 Ollama 框架来搭建基于 Qwen3 系列模型的智能应用。优化版 Ollama 还提供了基于魔搭的模型下载源设置,使得本地开发者可以从魔搭社区更高效下载和部署安装包及模型。

英特尔在车端舱内对新发布的 Qwen3 系列模型,也已经顺滑匹配。基于英特尔车载软硬件解决方案(含第一代英特尔 AI 增强软件定义汽车(SDV) SOC、刚刚在上海车展发布的第二代 SDV SoC NPU,以及英特尔锐炫™车载独立显卡),英特尔能让 Qwen3 系列模型很快就有机会上车部署,从而充分发挥车端的本地算力。其中,率先在汽车行业内采用了多节点芯粒架构的第二代 SDV SOC,其生成式和多模态 AI 性能,相比上一代,最高可提升十倍 4,这让汽车 AI 体验,如舱内的实时对话、自然语言交互和复杂指令的响应等,都充满 AI 的灵性。

快速上手指南 (Get Started)

下面将以 Qwen3-8B 为例,介绍如何利用 OpenVINO™的 Python API 在英特尔平台(GPU, NPU)上运行 Qwen3 系列模型。也可以参考下面的完整示例:

https://github.com/openvinotoolkit/openvino_notebooks/tree/latest/notebooks/llm-chatbot

https://github.com/openvinotoolkit/openvino.genai/tree/master/samples/python/text_generation

第一步,环境准备

基于以下命令可以完成模型部署任务在 Python 上的环境安装。

python -m venv py_venv

./py_venv/Scripts/activate.bat

pip install --pre -U openvino-genai openvino openvino-tokenizers --extra-index-url https://storage.openvinotoolkit.org/simple/wheels/nightly

pip install nncf

pip install git+https://github.com/openvino-dev-samples/optimum-intel.git@2aebd4441023d3c003b27c87fff5312254ac

pip install transformers >=4.51.3

第二步,模型下载和转换

在部署模型之前,我们首先需要将原始的 PyTorch 模型转换为 OpenVINOTM 的 IR 静态图格式,并对其进行压缩,以实现更轻量化的部署和最佳的性能表现。通过 Optimum 提供的命令行工具 optimum-cli,我们可以一键完成模型的格式转换和权重量化任务。

optimum-cli export openvino --model Qwen/Qwen3-8B --task text-generation-with-past --weight-format int4 --group-size 128 --ratio 0.8 Qwen3-8B-int4-ov

optimum-cli 使用方法可以参考:

https://docs.openvino.ai/2024/learn-openvino/llm_inference_guide/genai-model-preparation.html

此外我们建议使用以下参数对运行在 NPU 上的模型进行量化,以达到性能和精度的平衡。

optimum-cli export openvino --model Qwen/Qwen3-8B --task text-generation-with-past --weight-format nf4 --sym --group-size -1 Qwen3-8B-nf4-ov --backup-precision int8_sym

第三步,模型部署

OpenVINOTM 目前提供两种针对大语言模型的部署方案,如果您习惯于 Transformers 库的接口来部署模型,并想体验相对更丰富的功能,推荐使用基于 Python 接口的 Optimum-intel 工具来进行任务搭建。如果您想尝试更极致的性能或是轻量化的部署方式,GenAI API 则是不二的选择,它同时支持 Python 和 C++ 两种编程语言,安装容量不到 200MB。

Optimum-intel 部署示例

from optimum.intel.openvino import OVModelForCausalLM

from transformers import AutoConfig, AutoTokenizer

ov_model = OVModelForCausalLM.from_pretrained(

llm_model_path,

device='GPU',

)

tokenizer = AutoTokenizer.from_pretrained(llm_model_path)

prompt = "Give me a short introduction to large language model."

messages = [{"role": "user", "content": prompt}]

text = tokenizer.apply_chat_template(

messages,

tokenize=False,

add_generation_prompt=True,

enable_thinking=True

)

model_inputs = tokenizer([text], return_tensors="pt")

generated_ids = ov_model.generate(**model_inputs, max_new_tokens=1024)

output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist()

try:

index = len(output_ids) - output_ids[::-1].index(151668)

except ValueError:

index = 0

thinking_content = tokenizer.decode(output_ids[:index], skip_special_tokens=True).strip("\n")

content = tokenizer.decode(output_ids[index:], skip_special_tokens=True).strip("\n")

print("thinking content:", thinking_content)

print("content:", content)

GenAI API 部署示例

import openvino_genai as ov_genai

generation_config = ov_genai.GenerationConfig()

generation_config.max_new_tokens = 128

generation_config.apply_chat_template = False

pipe = ov_genai.LLMPipeline(llm_model_path, "GPU")

result = pipe.generate(prompt, generation_config)

这里可以修改 device name 的方式将模型轻松部署到 NPU 上。

pipe = ov_genai.LLMPipeline(llm_model_path, "NPU")

此外 Ollama package on Modelscope(https://www.modelscope.cn/ models / Intel / ollama / summary) is ready to download now

1.性能数据通过在 SKU1 平台上使用 OpenVINO 框架 2025.1.0 版本进行测试。计算任务由集成显卡(iGPU)完成。这些测试评估了在 INT4 混合精度设置下,处理 1K input 时的内存占用、首个 token 延迟和平均吞吐量。每次测试在预热阶段后执行 3 次,选取中间值作为报告数据。(Sku1: Brand: Intel, OEM: n / a, Model: CSRD (Reference Design), CPU: Core Ultra 9-285H, Memory: 64GB LPDDR5-8400MHz, Storage: 1TB, OS: Windows 11, OS Version: 24H2 (26100.3775), Graphics: Intel Arc 140T GPU, Graphics Driver Version: 32.0.101.6737, Resolution: 2880 x 1800 200% DPI, NPU Driver Version: 32.0.100.3967, PC BIOS: -, Screen Size: 15", Power Plan: Balanced, Power Mode (Win 11 Feature): Best Performance, Power App Setting (OEM's Power App): -, VBS: OFF, Defender: Running, Long Duration Package Power Limit (W): 65, Short Duration Power Limit (W): 70, Key Software Version: Openvino 2025.2.0-dev20250427, Openvino-genai 2025.2.0.0-dev20250427, Openvino-tokenizers 2025.2.0.0-dev20250427, Transformers 4.49.0)

2.性能数据通过在 SKU2 平台上使用 OpenVINO 框架 2025.1.0 版本进行测试,计算任务由集成显卡(iGPU)或神经处理单元(NPU)完成。测试评估了 INT4 混合精度、INT8 通道权重精度及 FP16 精度设置下,处理 1K input 时的内存占用、首个 token 延迟和平均吞吐量。每次测试在预热阶段后执行 3 次,选取中间值作为报告数据。(Sku2: Brand: Intel, OEM: Lenovo, Model: Yoga Air 15s ILL9, CPU: Core Ultra 7-258V, Memory: 32GB LPDDR5-8533MHz, Storage: WD PC SN740 1TB, OS: Windows 11, OS Version: 24H2 (26100.3624), Graphics: Intel Arc 140V GPU, Graphics Driver Version: 32.0.101.6737, Resolution: 2880 x 1800 200% DPI, NPU Driver Version: 32.0.100.3967, PC BIOS: NYCN66WW, Screen Size: 15", Power Plan: Balanced, Power Mode (Win 11 Feature): Best Performance, Power App Setting (OEM's Power App): Extreme Performance, VBS: OFF, Defender: Running, Long Duration Package Power Limit (W): 30, Short Duration Power Limit (W): 37, Key Software Version: Openvino 2025.2.0-dev20250427, Openvino-genai 2025.2.0.0-dev20250427, Openvino-tokenizers 2025.2.0.0-dev20250427, Transformers 4.49.0)

3.性能数据通过在 SKU3 上使用 OpenVINO 框架 2025.1.0 版本进行测试,计算任务在独立显卡上完成。测试评估了在 INT4 混合精度、INT8 量化和 FP16 精度设置下,处理 1K input 时的内存占用、首个 token 延迟和平均吞吐量。每次测试在预热阶段后执行三次,选取中间值作为报告数据。(Sku3: Brand: Intel, Model: Desktop, CPU: Core i7-14700K, Memory: 32GB DDR5-5600MHz, Storage: SAMSUNG 980 PRO 1TB, OS: Windows 11, OS Version: 24H2 (26100.3775), Graphics: Intel Arc B580 GPU (vRAM=12GB), Graphics Driver Version: 32.0.101.6737, Resolution: 2560 x 1440, NPU Driver Version: n / a, PC BIOS: 2801, VBS: OFF, Defender: Running, Long Duration Package Power Limit (W): -, Short Duration Power Limit (W): -, Key Software Version: Openvino 2025.2.0-dev20250427, Openvino-genai 2025.2.0.0-dev20250427, Openvino-tokenizers 2025.2.0.0-dev20250427, Transformers 4.49.0)

4.性能因使用情况、配置和其他因素而异。欲了解更多信息,请访问 intel.com/ performanceindex。基于对第二代英特尔 AI 增强 SDV SoC GPU+NPU 与 MBL i7-13800HAQ CPU+GPU(关闭睿频)的内部预测,AI 性能最高可提升十倍。

文章版权声明:除非注明,否则均为网络转载文章,转载或复制请以超链接形式并注明出处。

相关阅读

最新资讯

热门资讯