Character.AI 突破性技术:实时 AI 角色视频互动

Character.AI 突破性技术:实时 AI 角色视频互动

人工智能 2025-07-07 17:06:05 1天前

IT酷哥 7 月 5 日消息,AI 聊天机器人平台 Character.AI 发布研究论文和视频演示,展示了名为 TalkingMachines 的自回归扩散模型,让 AI 角色互动更加逼真。

该模型尚未部署在 Character.AI 平台上,根据研究论文和视频演示,用户只需要输入一张图片和声音信号,该模型就能实现类似 FaceTime 的通话视觉互动。

该模型基于 Diffusion Transformer(DiT)技术,本质上是一种能够从随机噪声中创建详细图像的“艺术家”,并不断优化图像直至完美。Character.AI 所做的就是让这一过程变得极其迅速,达到实时效果。

TalkingMachines 模型采用了流匹配扩散(Flow-Matched Diffusion)、音频驱动的交叉注意力(Audio-Driven Cross Attention)、稀疏因果注意力(Sparse Causal Attention)和不对称蒸馏(Asymmetric Distillation)等多种关键技术。

其中流匹配扩散技术通过训练大量动作,包括细微的面部表情和更夸张的手势,确保 AI 角色动作更加自然。音频驱动的交叉注意力技术则让 AI 不仅能听到单词,还能理解音频中的节奏、停顿和语调,并将其转化为精确的口型、点头和眨眼。

稀疏因果注意力技术让 Character.AI 能够以更高效的方式处理视频帧,而不对称蒸馏技术则让视频能够实时生成,营造出类似 FaceTime 通话的效果。

Character.AI 强调,这一研究突破不仅仅是关于面部动画的,它是朝向实时互动的音频视觉 AI 角色迈出的一步。该模型支真实感人类、动漫和 3D 虚拟形象等多种风格。

IT酷哥附上参考地址

GitHub 项目页面

TalkingMachines: Real-Time Audio-Driven FaceTime-Style Video via Autoregressive Diffusion Models

文章版权声明:除非注明,否则均为网络转载文章,转载或复制请以超链接形式并注明出处。

相关阅读

  • AI 钞能力:阿联酋打造的 Falcon-40B 语言模型 OpenLLM 排名第一、持续霸榜
  • 亚马逊云服务部门高管称正考虑使用 AMD 的新款 AI 芯片,还未最终决定
  • 使用自然语言,纽约大学团队利用聊天机器人 ChatGPT 从零设计出微处理器
  • AI 朗读冲击有声读物市场,配音演员工作面临威胁
  • 印象笔记开放旗下“印象 AI”,可一键生成思维导图、写文章等
  • 你的工作未来由人工智能决定,报告称明年 43% 的企业部署 AI 面试
  • 丰田推出生成式 AI 工具:输入文字指令可自动设计汽车外形,并符合工程学需求
  • 美图秀秀发布七款 AI 工具:修图一样修视频、打造电影级上镜脸
  • YouTube 测试 Aloud 人工智能配音功能,可将视频转述为不同语言
  • Dropbox 网盘推出 AI 搜索工具 Dropbox Dash:聚合多办公平台,可视化管理工作任务
  • Stability AI 推出文字生成图片模型 SDXL 0.9,硬件要求下探至消费级 GPU 水平
  • 外媒提议更新开源许可证:摆脱 80 年代束缚,应对当下人工智能时代
  • Unity 推出面向开发者的 AI 软件市场 AI Hub,股价飙涨 15%
  • 谷歌 DeepMind 自曝正开发新型 AI 模型 Gemini,号称“比 GPT-4 强”
  • 警用 AI 助手到来,美亚柏科发布国内首个公共安全大模型“天擎”
  • 近 12 年由 AI 造成的事故暴涨 15 倍,Facebook、特斯拉、OpenAI 位居总量前三
  • 16 名匿名人士起诉 ChatGPT 侵犯隐私,向微软和 OpenAI 索赔 30 亿美元
  • 特斯拉人形机器人将于 7 月亮相上海 2023 世界人工智能大会
  • 英国初创公司用 AI 提升垃圾回收效率,每年追踪量达 320 亿件
  • 正版文心一言上架 App Store,百度此前起诉苹果“盗版 App 泛滥”
  • 最新资讯

    热门资讯