科技

数据挖掘系统提高了医疗保健的成本和质量– Or Do They?

上周我上周有几个电子邮件列表是关于一个纸张的出版物 印第安纳大学新闻稿 to demonstrate that “machine learning —同样的计算机科学学科,帮助创建语音识别系统,自驾驶汽车和信用卡欺诈检测系统—可以大大提高美国医疗保健的成本和质量。”新闻稿提到了在日志中印第安纳州教师发布的一项研究, 医学中的人工智能 [1].

虽然我是一个支持者旨在提高医疗保健的质量和成本的计算机应用程序,但我也相信我们必须小心为他们所做的索赔,特别是那些来自科学研究结果的索赔。

阅读和分析论文后,我对不仅由新闻稿而且由作者本身而制作的索赔持怀疑态度。我的担忧对他们的研究方法较少,虽然我对他们有一些严肃的QUARM,但我将描述下面的,但更多的新闻稿由他们的大学公共关系办公室发出。此外,当估中技术似乎似乎发生时,新闻稿被拾取并在互联网上呼应,其次是其发现的不可避免的混合。果然,一个高调博主 写道, “使用AI框架来使患者护理决策的医生具有患者结果,比没有使用AI的医生更好的患者结果。”从纸质中清楚地看出,医生实际上没有使用这种框架,这仅是回顾性地应用于临床数据的框架。

这项研究表演究竟是什么?基本上,研究人员在一个机构获得了一个临床条件的小数据集’S电子健康记录并应用了一些复杂的数据挖掘技术,以表明通过遵循机器学习算法建议的选项而不是临床医生实际所做的选择,可以实现更低的成本和更好的结果。因此,如果临床医生之后,如果数据挖掘之后,则临床医生而不是自己的决策,那么会随之而来的更好和更便宜的。


在许多关于技术的科学论文中,本文进入了关于数据挖掘算法的精湛细节和比较它们的实验。但遗憾的是,关于临床数据本身的描述提供了很少的描述。从似乎描述数据集[2]的会议上有一个引用的另一篇文件,但仍然不清楚如何应用数据来评估算法。

我有许多方法论问题。首先是关于数据的临床细节的缺乏。作者指的是称为的指标“成果评级规模” of the “客户定向结果通知(CDOI)评估。”提供详细信息,即该规模措施或测量的差异如何与改善的临床结果相关。此外,患者的小心细节的变量未描述据说数据挖掘算法。因此,任何人都希望了解这种方法所谓的改善的临床价值无法这样做。

第二个问题是没有讨论成本数据或成本透视(例如,系统,临床医生,社会等)。这是一个常见的问题,困扰着试图测量成本的医疗保健的许多研究[3]。鉴于在其结果中报告的相对较为适度的金钱支出,每位患者只能达到几百美元,但数据不太可能包括每位患者的全部费用,或在适当的时间内时期。如果我对成本数据的低价值的解释是正确的(由于缺乏细节,难以辨别纸张的读物,因此由于缺乏细节,而且数据不包括临床医生时间,设施或长期的成本超过数据集的时间框架的成本。如果确实如此,那么机器学习系统将特别有问题,因为这种系统仅使得推断仅限于提供给模型的数据。因此,如果向模型提供了差的数据,它“conclusions”是怀疑的。 (这提出了一个副问题是否真的“人工智能”这里,由于系统应用的唯一智能是由人类创建者开发的模型。)

第三个问题是这是一个建模研究。由于每个评估方法都知道,建模研究的能力受到分配原因和效果的能力。当然我们最近看到这些研究有所了解,虽然我们看到了它们的限制,但是当我们在长期重新审视时看到了这些研究,虽然我们看到了众所周知。在这项研究中,临床医生可能是遵循更昂贵的路径或混淆原因的原因,为什么这样的患者发生了较差的结果,但不能被本研究中使用的方法捕获。

这与工作的最终和最严重问题有关,即建模评估是一种非常弱的证据形式,以证明干预的价值。如果作者真正想要表现出系统和方法的好处,他们应该进行随机对照试验,并将其与合适的对照组进行干预。这将导致研究的类型 博主提到了上面 错误地描述了这一点。这样的研究设计将评估我们在信息学中面临的一些令人烦恼的问题,例如来自计算机的建议是否会改变临床医生行为。或者,当这些系统被引入到“real world,” whether the “advice”提供将前瞻性地导致更好的结果。

我确实相信本文解决的工作很重要,特别是随着我们进入个性化医学领域。正如斯科和同事所描述的那样,医疗保健很快就会达到临床决策所需的数据点数超过人类认知的界限[4]。 (它可能已经有了。)因此,临床医生将需要有助于他们的信息系统提供的认知,也许是在研究中描述的一种。

但这种援助需要,就像医学中的其他一切一样,稳健的评估研究以证明其价值。本文中使用的方法确实可能是提供该值的方法,但是描述的实施和评估错过了标记。在纸张发布后随之而来的炒作和混合会进一步加剧。

我们可以从本文中学到什么,随之而来的炒作?首先,粗体索赔需要大胆的证据来支持它们。在展示医疗保健中的方法的价值的情况下–是测试,治疗或信息学应用–我们必须使用为索赔提供最佳证据的评估方法。这并不总是随机对照试验,但在这种情况下,它将是,使用的建模技术真的只是初步数据(可能)证明实际的临床试验。其次,当我们执行技术评估时,我们需要描述,理想地发布,所有临床数据,以便其他人可以分析甚至复制结果。最后,虽然我们都希望将我们的研究结果传播到最宽可能的受众,但我们需要在解释我们所取得的成就以及其更大的影响方面是现实的。

参考

[1] Bennett,C.和K. Hauser(2013)。模拟临床决策的人工智能框架:马尔可夫决策过程方法。 。 EPUB在印刷品之前.
[2] Bennett,C.,T. Doub,A. Bragg,J.Luellen,C.VanRegenmorter,J. Lockman和R. Reiserer(2011年)。数据挖掘基于会议的患者报告了心理健康环境中的结果(专业人士):朝着数据驱动的临床决策支持和个性化待遇。 2011年首次IEEE医疗保健信息学,成像和系统生物学(HISB 2011),圣何塞,加利福尼亚州。 229-236。
[3] Drummond,M.和M. Sculpher(2005)。经济评估中常见的方法论缺陷。医疗保健。 43(7):5-14。
[4] Stead,W.,J. Searle,H. Fessler,J. Smith和E. Shortliffe(2011)。生物医学信息学:改变医生需要知道的内容以及他们如何学习。学术医学。 86:429-434。

威廉赫尔什,米德 是教授和主席 医疗信息学系&临床流行病学 at Oregon Health &科特兰科学大学,或。他是一个着名的生物医学和健康信息学的领导者和创新者。在过去的几年里,他在这方面发挥了领导作用 ONC劳动力发展计划。他也是发起人的 10×10(“十到十个”)课程与AMIA合作。赫尔博士维持 信息学教授博客.

传播爱心

3回复 »

  1. 谢谢,我’刚刚搜索有关这个主题的信息,而且你的是我到目前为止的最佳信息。但是,关于底线的内容是什么?你确定的是供应吗?|我不明白的是现实,你现在的目前如何比现在更聪明地更加聪明地感谢。你’re very intelligent.

  2. 伯纳德特,
    很久以前的信息领域放弃了更换临床医生的计算机的想法’大脑。相反,我们的努力应该致力于为他们提供更好的工具来更好地完成工作。评估这种系统的真正测试将是将临床医生与其进行比较,而不是临床援助。这是印第安纳州研究人员应该做的实验。
    比尔赫尔斯

  3. Ai喜欢印第安纳州U学习使用决策理论技术来统计预测结果。为了真正模拟医生如何做出关于患者护理的决定,我们需要一个实际思考的AI(“strong AI”),它不接近被发明。 http://en.wikipedia.org/wiki/Strong_AI

    一个有趣的未来研究是将AI与医生的结果进行比较’如果相关研究的知识进行了决策,则以他们可以在思考如何解决患者的方式组织’ problems.

发表评论

您的电子邮件地址不会被公开。 必需的地方已做标记 *