北京智源推出通用视觉 AI 模型 SegGPT：可自动追踪并分割影音中的物体

北京智源推出通用视觉 AI 模型 SegGPT：可自动追踪并分割影音中的物体

人工智能 2023-06-03 08:00:02 1年以前

IT酷哥 5 月 31 日消息，在2023年中关村论坛人工智能大模型发展论坛中，北京智源人工智能研究院推出了旗下通用分割模型 SegGPT（SegmentEverythingInContex）。

▲图源 Arxiv

据称，SegGPT模型是智源通用视觉模型Painter的衍生模型，具备上下文推理能力，在训练完成后只需要提供示例即可推理并完成对应分割任务，包括图像和视频中的实例、类别、零部件、轮廓、文本、人脸、医学图像等，都可以利用视觉提示词（Prompt）完成分割任务。

▲图源 Arxiv

SegGPT也拥有支持任意数量视觉提示的推理能力。能够以第一帧图像和对应的物体掩码作为上下文示例进行自动视频分割，并且可以用掩码的颜色作为物体的 ID，进行自动追踪。

IT酷哥经过查询知悉，此前 Meta 也发布了其基于AI的SegmentAnythingModel（SAM）模型，具有识别和分离图像和视频中特定对象的能力。而威斯康辛麦迪逊、微软、港科大等机构的研究人员也推出SEEM 模型，通过不同的视觉提示和语言提示，一键分割图像、视频。IT酷哥的小伙伴们可以从这里访问模型的论文链接。

模型图像视觉提示上下文

相关阅读

Antiplagiarism 发布新算法，可识别和标记 ChatGPT 生成的内容

麦肯锡：到 2045 年左右，将有 50% 工作被 AI 接管

普通人也能成为音频剪辑师，Meta 推出 AI 模型 Voicebox

长城汽车申请 SPACEGPT 等商标，有望成为首批在车机终端引入 AI 智能助理的吃螃蟹者

全球 AI 人才需求激增，部分岗位年薪逼近 40 万美元

软银 CEO 孙正义称每天都会使用 ChatGPT，是生成式 AI 服务的“忠实用户”

京东 AI 大模型官宣 7 月 13 日发布：新上任 CEO 许冉演讲，还有重磅合作

AI 公司 Databricks 推出人工智能模型共享机制，可令开发者与公司实现“双赢”

全球首个 AI 广播频道公司完成 1900 万美元融资，开发无障碍及游戏 NPC 技术

AI 入局世界网球温布顿锦标赛，可分析赢球概率及生成球评

AI 作画工具 Midjourney 迎来 5.2 版本更新，可生成相机“变焦效果”

开源模型 PrivateGPT 上线，可本地搭建、避免信息外泄

复旦大学与阿里巴巴达成全面战略合作，共享 AI 大模型底层能力

微软用 AI 缩短癌症放疗时间：扫描速度提高 2.5 倍，准确率达 90%

警用 AI 助手到来，美亚柏科发布国内首个公共安全大模型“天擎”

内置 AI 助手 Copilot 上线：微软 Win11 Dev 预览版 Build 23493 发布，设置、音量大改

微软在 Bing 和 Edge 浏览器中拓展网购服务，帮用户选购心仪产品

中国团队推出世界首颗 AI 全自动设计 CPU“启蒙 1 号”：无人工干预，性能堪比 486

微软必应聊天周报：改善体育相关话题、向 Skype 开放图片生成工具

英国初创公司用 AI 提升垃圾回收效率，每年追踪量达 320 亿件