Meta 推 WebSSL 模型:探索 AI 无语言视觉学习,纯图训练媲美 OpenAI CLIP

Meta 推 WebSSL 模型:探索 AI 无语言视觉学习,纯图训练媲美 OpenAI CLIP

人工智能 2025-04-27 08:05:02 5天前

IT酷哥 4 月 25 日消息,科技媒体 marktechpost 昨日(4 月 24 日)发布博文,报道称 Meta 公司发布 WebSSL 系列模型,参数规模从 3 亿到 70 亿,基于纯图像数据训练,旨在探索无语言监督的视觉自监督学习(SSL)的潜力。

以 OpenAI 的 CLIP 为代表,对比语言-图像模型已成为学习视觉表征的默认选择,在视觉问答(VQA)和文档理解等多模态任务中表现突出。不过受到数据集获取的复杂性和数据规模的限制,语言依赖面临诸多挑战。

Meta 公司针对上述痛点,在在 Hugging Face 平台上发布了 WebSSL 系列模型,涵盖 DINO 和 Vision Transformer(ViT)架构,参数规模从 3 亿到 70 亿不等。

这些模型仅使用 MetaCLIP 数据集(MC-2B)中的 20 亿张图像子集进行训练,排除了语言监督的影响。Meta 的目标并非取代 CLIP,而是通过控制变量,深入评估在不受数据和模型规模限制下,纯视觉自监督学习(SSL)的表现潜力。

WebSSL 模型采用两种视觉自监督学习范式:联合嵌入学习(DINOv2)和掩码建模(MAE)。训练统一使用 224×224 分辨率图像,并冻结视觉编码器以确保结果差异仅源于预训练策略。

模型在五个容量层级(ViT-1B 至 ViT-7B)上训练,评估基于 Cambrian-1 基准测试,覆盖通用视觉理解、知识推理、OCR 和图表解读等 16 个 VQA 任务。此外,模型无缝集成于 Hugging Face 的 transformers 库,便于研究和应用。

实验揭示了多项关键发现:随着参数规模增加,WebSSL 模型在 VQA 任务上的表现接近对数线性提升,而 CLIP 在超过 30 亿参数后性能趋于饱和。

WebSSL 在 OCR 和图表任务中表现尤为突出,尤其在数据筛选后,仅用 1.3% 的富文本图像训练即超越 CLIP,在 OCRBench 和 ChartQA 任务中提升高达 13.6%。

此外,高分辨率(518px)微调进一步缩小了与 SigLIP 等高分辨率模型的差距,在文档任务中表现尤为出色。

WebSSL 模型在无语言监督下仍展现出与预训练语言模型(如 LLaMA-3)的良好对齐性,表明大规模视觉模型能隐式学习与文本语义相关的特征。

同时,WebSSL 在传统基准测试(如 ImageNet-1k 分类、ADE20K 分割)上保持强劲表现,部分场景甚至优于 MetaCLIP 和 DINOv2。

IT酷哥附上参考地址

Scaling Language-Free Visual Representation Learning

Hugging Face

GitHub

文章版权声明:除非注明,否则均为网络转载文章,转载或复制请以超链接形式并注明出处。

相关阅读

  • 谷歌与美国大型医疗公司合作,用生成式 AI 提高医生检索信息效率
  • 消息称 ChatGPT 本可更强,GPU 短缺成最大阻碍
  • 百度“根据场景生成数字人”专利获授权,可应用于元宇宙
  • 联合国秘书长称支持建立全球人工智能监管机构
  • 消息称 ChatGPT 未来有望增加更多功能:上传文件分析信息,还能记住用户画像
  • 软银 CEO 孙正义称每天都会使用 ChatGPT,是生成式 AI 服务的“忠实用户”
  • AI 模型 Stable Diffusion 升级:正常生成五指、图像更逼真
  • YouTube 测试 Aloud 人工智能配音功能,可将视频转述为不同语言
  • Meta 和 OpenAI 公司 CEO 公开支持欧盟推行 AI 监管方案
  • 外媒提议更新开源许可证:摆脱 80 年代束缚,应对当下人工智能时代
  • 混合 AI 时代将至,这是你从未有过的全新体验
  • 调查发现 20% 的男性使用 ChatGPT 等 AI 工具“美化”约会资料,提高交流技巧
  • 16 名匿名人士起诉 ChatGPT 侵犯隐私,向微软和 OpenAI 索赔 30 亿美元
  • 内置 AI 助手 Copilot 上线:微软 Win11 Dev 预览版 Build 23493 发布,设置、音量大改
  • 微软在 Bing 和 Edge 浏览器中拓展网购服务,帮用户选购心仪产品
  • Meta 将提高 AI 算法应用透明度,向用户提供详细说明和更多选择
  • 英国初创公司用 AI 提升垃圾回收效率,每年追踪量达 320 亿件
  • 方舟启航,火山引擎这波在“大气层”
  • ChatGPT 又陷版权风波:两位恐怖小说作家起诉 OpenAI 盗用自己作品用于训练
  • 奔驰正在车辆生产中测试 ChatGPT,进行质量管理和流程优化等活动
  • 最新资讯

    热门资讯