媒体播放器通用框架 FFmpeg 推出 AI 语音识别功能,可自动生成字幕

媒体播放器通用框架 FFmpeg 推出 AI 语音识别功能,可自动生成字幕

系统知识 2025-08-14 07:00:10 6小时前

IT酷哥 8 月 13 日消息,FFmpeg 是一个流行的开源媒体播放器通用框架,现在包含了一个新的 af_whisper 音频工具,可以直接在 FFmpeg 生态系统中实现自动语音识别(ASR)。

该工具使用了 whisper.cpp 库,为媒体处理工作流程添加了一个 AI 模型,允许进行灵活的音频转译文本,包括选择 AI 模型、指定语言以及设置输出格式,如文本、SRT 或 JSON。

该工具可以处理预录制的文件和实时音频流,用户还可以使用语音激活检测(VAD)来提高转写的准确性和效率。

IT酷哥注意到,该工具还支持 GPU 加速,可以显著加快转写过程。对于用户来说,这一功能取代了对外部、多步骤转写过程的需求,将任务整合到一个高效的单命令行工作流程中。

文章版权声明:除非注明,否则均为网络转载文章,转载或复制请以超链接形式并注明出处。

相关阅读

  • 微软宣布 Edge 浏览器外观重新设计,引入 Mica 材质、圆角等
  • Win11 预览版 LinkedIn 应用上架微软商城
  • 微软:新版 Outlook 会在 2024 年底代替现有的邮件和日历应用
  • 微软 Edge 浏览器正测试更深色的暗黑主题,采用全黑色背景
  • 微软发布 0.2 预览版 Dev Home:优化小组件、增强库克隆工具
  • C++ 26 时间表发布,据称在“并发和并行性方面有重大改进”
  • 微软 Teams 新增“pre-join”功能;会前可调试音量、麦克风等
  • 开源图片编辑器 GIMP 3.0 候选版有望年底前发布
  • 报告称整合必应聊天之后,微软 Edge 浏览器用户数量正逼近 3 亿
  • 微软发布 Win11 22621.1928 正式版更新(KB5027303),带来中文实时字幕、自适应屏幕亮度等
  • 微软希望将 Windows 完全迁移到云端,十分看好 Windows 365
  • Win11 人工智能“个人助理”,微软 Windows Copilot 即将到来
  • 用户反馈:微软 Win11 强制更新会损伤 SSD 速度
  • 微软更新基于 Win11 22H2 的验证操作系统 Validation OS,ISO 镜像文件 340 MB
  • 网页版 OneDrive 计划 8 月引入“People View”功能:高效管理共享文件
  • 因资金短缺,知名开源 JPEG 图像编解码器 libjpeg-turbo 宣布停止功能开发
  • 微软再次重发 KB5007651 更新,修复 Win11 中 Defender LSA 误报问题
  • 钉钉在线文档升级断网编辑、支持合同比对,会议新增等候室功能
  • 阿里云盘上线智能搜图功能:可根据关键词查找照片,仅限超级会员使用
  • 勒索软件伪装成 Windows 更新,可加密文件、删除备份
  • 最新资讯

    热门资讯