Character.AI 突破性技术：实时 AI 角色视频互动

Character.AI 突破性技术：实时 AI 角色视频互动

人工智能 2025-07-07 17:06:05 1天前

IT酷哥 7 月 5 日消息，AI 聊天机器人平台 Character.AI 发布研究论文和视频演示，展示了名为 TalkingMachines 的自回归扩散模型，让 AI 角色互动更加逼真。

该模型尚未部署在 Character.AI 平台上，根据研究论文和视频演示，用户只需要输入一张图片和声音信号，该模型就能实现类似 FaceTime 的通话视觉互动。

该模型基于 Diffusion Transformer（DiT）技术，本质上是一种能够从随机噪声中创建详细图像的“艺术家”，并不断优化图像直至完美。Character.AI 所做的就是让这一过程变得极其迅速，达到实时效果。

TalkingMachines 模型采用了流匹配扩散（Flow-Matched Diffusion）、音频驱动的交叉注意力（Audio-Driven Cross Attention）、稀疏因果注意力（Sparse Causal Attention）和不对称蒸馏（Asymmetric Distillation）等多种关键技术。

其中流匹配扩散技术通过训练大量动作，包括细微的面部表情和更夸张的手势，确保 AI 角色动作更加自然。音频驱动的交叉注意力技术则让 AI 不仅能听到单词，还能理解音频中的节奏、停顿和语调，并将其转化为精确的口型、点头和眨眼。

稀疏因果注意力技术让 Character.AI 能够以更高效的方式处理视频帧，而不对称蒸馏技术则让视频能够实时生成，营造出类似 FaceTime 通话的效果。

Character.AI 强调，这一研究突破不仅仅是关于面部动画的，它是朝向实时互动的音频视觉 AI 角色迈出的一步。该模型支真实感人类、动漫和 3D 虚拟形象等多种风格。

IT酷哥附上参考地址

GitHub 项目页面

TalkingMachines: Real-Time Audio-Driven FaceTime-Style Video via Autoregressive Diffusion Models

模型互动注意力技术音频

相关阅读

AI 钞能力：阿联酋打造的 Falcon-40B 语言模型 OpenLLM 排名第一、持续霸榜

亚马逊云服务部门高管称正考虑使用 AMD 的新款 AI 芯片，还未最终决定

使用自然语言，纽约大学团队利用聊天机器人 ChatGPT 从零设计出微处理器

AI 朗读冲击有声读物市场，配音演员工作面临威胁

印象笔记开放旗下“印象 AI”，可一键生成思维导图、写文章等

你的工作未来由人工智能决定，报告称明年 43% 的企业部署 AI 面试

丰田推出生成式 AI 工具：输入文字指令可自动设计汽车外形，并符合工程学需求

美图秀秀发布七款 AI 工具：修图一样修视频、打造电影级上镜脸

YouTube 测试 Aloud 人工智能配音功能，可将视频转述为不同语言

Dropbox 网盘推出 AI 搜索工具 Dropbox Dash：聚合多办公平台，可视化管理工作任务

Stability AI 推出文字生成图片模型 SDXL 0.9，硬件要求下探至消费级 GPU 水平

外媒提议更新开源许可证：摆脱 80 年代束缚，应对当下人工智能时代

Unity 推出面向开发者的 AI 软件市场 AI Hub，股价飙涨 15%

谷歌 DeepMind 自曝正开发新型 AI 模型 Gemini，号称“比 GPT-4 强”

警用 AI 助手到来，美亚柏科发布国内首个公共安全大模型“天擎”

近 12 年由 AI 造成的事故暴涨 15 倍，Facebook、特斯拉、OpenAI 位居总量前三

16 名匿名人士起诉 ChatGPT 侵犯隐私，向微软和 OpenAI 索赔 30 亿美元

特斯拉人形机器人将于 7 月亮相上海 2023 世界人工智能大会

英国初创公司用 AI 提升垃圾回收效率，每年追踪量达 320 亿件

正版文心一言上架 App Store，百度此前起诉苹果“盗版 App 泛滥”