视频背景音自动转为文字描述:多媒体框架 FFmpeg 8.0 引入 OpenAI Whisper 音频 AI 模型

视频背景音自动转为文字描述:多媒体框架 FFmpeg 8.0 引入 OpenAI Whisper 音频 AI 模型

系统知识 2025-08-16 15:13:07 7小时前

IT酷哥 8 月 16 日消息,多媒体框架 FFmpeg 开发团队发文,预热 FFmpeg 8.0 版本新增一项名为 Whisper 的音频过滤器,该功能整合了 OpenAI 的 Whisper 语音识别模型,通过内建过滤器机制,可以自动将视频背景音频内容识别转换为文字描述,并输出为字幕或结构化数据。

据介绍,Whisper 过滤器的实现依赖 whisper.cpp 库,用户需要先在系统中安装并启用对应支持库,并在编译时通过“--enable-whisper”选项激活功能。相应过滤器支持纯文本 TXT、SRT、JSON 等输出模式,同时可以通过 HTTP 等协议直接将输出内容传输到其他系统。如果未指定输出位置,转录结果将作为元数据附加在音频帧上,供后续处理或分析使用。

官方强调,该过滤器提供了队列参数,用户可以设置累积多少音频数据再进行识别,默认值约为 3 秒,如果将时间设置更长,识别准确率则更高 / 处理频率更低,适合批处理工作场景;如果将时间设置更短,则可降低过滤器处理延迟,适合对重要音频内容进行具体分析和微调。

此外,Whisper 过滤器也支持 GPU 加速,结合 FFmpeg 本身的多线程处理,在高性能环境下能显著提升转录速度。同时它还支持“Silero 语音活动检测(VAD)”功能,能在长音频流中自动切片语音片段,从而进一步提升识别效率和段落准确度。

文章版权声明:除非注明,否则均为网络转载文章,转载或复制请以超链接形式并注明出处。

相关阅读

  • 微软 Win11 Beta 预览版 Build 22621.1825/22631.1825 发布(附更新内容)
  • 钉钉斜杠“/”能力首次对外开放,面向企业用户启动定向邀请测试
  • 微软 Win11 Build 22000.2121 预览版更新:改进简体中文字体和微软拼音输入法
  • 微软 Edge 浏览器更新,收藏夹可隐藏站点缩略图
  • 微软 Edge 浏览器正测试更深色的暗黑主题,采用全黑色背景
  • 全新 Windows 版网易云音乐上线,基于 Electron 开发
  • 微软更新 VS Code C++ 套件 1.16 版本:引用关系更直观,注释定义更便捷
  • Win11 21H2 非安全发布预览版 22000.2124 更新,解决桌面虚拟键盘无法打开等问题
  • 微软希望将 Windows 完全迁移到云端,十分看好 Windows 365
  • 用户反馈:微软 Win11 强制更新会损伤 SSD 速度
  • 钉钉在线文档升级断网编辑、支持合同比对,会议新增等候室功能
  • Visual Studio Code 1.80 发布:终端支持图像、改进辅助功能
  • 北京麟卓兆懿 4.0 全面升级:Windows 运行安卓应用,新增游戏加速器、支持谷歌四件套
  • QQ 音乐 12.5.5 版本内测情侣亲密体系,支持情侣一起听、亲密度等功能
  • 苹果发布 Safari 浏览器技术预览版 174 更新
  • 微软承认很多 Win10、Win11 系统 WHQL 驱动实际上是恶意软件
  • 消息称火狐浏览器 Firefox 已初步支持 RTX 视频超分辨率技术
  • 微软邀请所有 Dev 频道 Win11 用户,开放测试 AI 助手 Copilot
  • 针对高轮询率鼠标优化,微软 Win11 七月更新显著改善游戏卡顿问题
  • 微软 Edge 浏览器已重新支持 EPUB 电子书格式
  • 最新资讯

    热门资讯