AI 医疗建议可靠性存疑:MIT 研究揭示用户提问方式影响 AI 判断

AI 医疗建议可靠性存疑:MIT 研究揭示用户提问方式影响 AI 判断

人工智能 2025-07-11 23:05:04 5天前

IT酷哥 7 月 10 日消息,随着生成式人工智能(AI)技术不断演进,其应用场景已从早期的简单问答扩展到更复杂的任务。然而,对于缺乏技术背景的用户而言,如何高效、准确地使用这些 AI 工具,正变得越来越具有挑战性。

一份独立报告显示,微软 AI 部门收到的用户投诉中,最常见的一条是“Copilot 不如 ChatGPT 好用”。对此,微软迅速回应,将问题归咎于用户“提示词工程能力不佳”。为改善用户体验,微软还推出了“Copilot 学院”,帮助用户提升 AI 使用技能。

IT酷哥注意到,麻省理工学院(MIT)的一项最新研究(via Futurism)表明,微软将问题归咎于用户提示词能力的做法或许并非全无道理。

该研究指出,过度依赖 AI 工具获取医疗建议可能带来危险。更令人担忧的是,如果用户在提问时出现拼写错误(如单词拼错或多余空格),AI 可能会因此建议用户无需就医。此外,使用花哨语言或俚语也可能导致 AI 判断失误。

研究还发现,女性用户比男性更容易受到此类错误建议的影响,尽管这一结论仍需进一步验证。

此次研究涵盖了多个 AI 工具,包括 OpenAI 的 GPT-4、Meta 的 LLaMA-3-70B,以及一款名为 Palmyra-Med 的医疗专用 AI。研究人员模拟了数千个健康案例,数据来源包括真实患者投诉、Reddit 上的健康相关帖子,以及 AI 生成的病例。

为测试 AI 的稳定性,研究人员在数据中加入了“扰动因素”,如句子首字母大小写不一致、感叹号、情绪化语言,以及“可能”“大概”等不确定表达。结果显示,这些扰动使 AI 建议用户“无需就医”的概率上升了 7% 至 9%。

研究负责人、MIT 研究员阿比尼塔・古拉巴蒂娜(Abinitha Gourabathina)指出:“这些模型通常是在医学考试题目上训练和测试的,但实际应用场景却相差甚远,比如评估临床病例的严重程度。我们对大语言模型的理解仍然非常有限。”

这一研究结果引发了对 AI 在医疗领域应用的广泛担忧。值得注意的是,就在不久前,微软刚刚宣布其新推出的 AI 医疗工具“准确率是人类医生的 4 倍,成本却低 20%”。微软 AI 首席执行官甚至称其为“迈向医疗超级智能的真正一步”。

然而,这项研究再次提醒我们,生成式 AI 在医疗等高度复杂的领域仍远未达到完全可靠的水平。尽管技术发展迅速,但在真正投入使用前,仍需更多验证与审慎评估。

文章版权声明:除非注明,否则均为网络转载文章,转载或复制请以超链接形式并注明出处。

相关阅读

  • 消息称 ChatGPT 本可更强,GPU 短缺成最大阻碍
  • 当一个网站的内容被 AI 完全接管
  • 百度与中国石化签署战略合作框架协议,将在 AI 等领域深化合作
  • 格莱美修订规则:只有“人类创作者”才有资格获奖
  • 普通人也能成为音频剪辑师,Meta 推出 AI 模型 Voicebox
  • (更新)消息称谷歌将与联发科合作打造 AI 服务器芯片,后者回应“错误报道”
  • 日本神户开始验证市政 AI 化效果:自动规划巡逻路线,减少犯罪发生
  • 腾讯首次披露行业大模型进展:不追求参数高,希望成本预算可控
  • 语音生成 AI 初创公司 ElevenLabs 发布合成语音检测工具,号称准确率超过 99%
  • 丰田推出生成式 AI 工具:输入文字指令可自动设计汽车外形,并符合工程学需求
  • AI 公司 Databricks 推出人工智能模型共享机制,可令开发者与公司实现“双赢”
  • 宏碁、惠普、华硕等品牌发力 AI 笔记本市场,明年将带动新一波换机潮
  • Stability AI 推出文字生成图片模型 SDXL 0.9,硬件要求下探至消费级 GPU 水平
  • 科大讯飞星火 AI 大模型出海东南亚,将在新加坡实施“1+4”战略
  • 谷歌 DeepMind 自曝正开发新型 AI 模型 Gemini,号称“比 GPT-4 强”
  • 英科智能推出 AI 设计的罕见病特效药,已在中美同时启动人体临床试验
  • 2023 全球 AI 指数排名公布:美中稳居前二,亚洲国家表现亮眼
  • 近 12 年由 AI 造成的事故暴涨 15 倍,Facebook、特斯拉、OpenAI 位居总量前三
  • 调查发现 20% 的男性使用 ChatGPT 等 AI 工具“美化”约会资料,提高交流技巧
  • 版权问题难解,OpenAI 被控非法使用图书数据训练 AI 系统
  • 最新资讯

    热门资讯