人工智能

Docs是Rocs:在医疗AI研究中的“方法上不可挽回的”实践简单修复

由Luke Oakden-Rayner

任何阅读我的博客或推文的人可能会看到我有一些用于分析医疗机器学习模型的性能的一些常见方法。特别是,我们使用(敏感性,特异性,F1,准确性等)的最常用的指标  低估 对AI模型进行头部比较的人类性能。

这使得ai看起来比它更好,并且可能部分负责“实施差距“每个人都这么关心。

我刚刚发布了Arxiv的预印,标题为“文档是Rocs:一种简单的现成方法,用于估算诊断研究中的平均人性性能“它提供了我认为对这个问题的稳固解决方案,我以为我会在这里详细说明。

免责声明:尚未对同行评审,内容可能会发生变化 


(con)vexing问题

当我们将机器学习模型与人类比较时,我们有一点问题。哪个人?

在医疗任务中,我们通常采取目前任务(例如,在CT扫描上识别癌症的放射科医生)作为临床实践标准的博士。但医生不是一个全部给予同样答案的整体群体。读者互变异性通常为15%至50%,具体取决于任务。因此,我们通常会尽可能多的医生,然后尝试总结他们的性能(这被称为多读者多种研究,MRMC短暂)。

由于我们在医学中最关心的度量是敏感性和特异性,因此许多论文报告了这些价值的平均值。实际上, 最近的系统评价 表明,超过70%的医疗AI研究,将人类与AI模型进行了报告了这些价值。这有很多意义。我们想知道普通医生如何在任务中表现,因此这些指标的平均性能应该很大,对吧?

不。 这不好。

报告平均值的问题是人类敏感性和特异性生活在曲线上。它们是相关的价值,a 扭曲 distribution.

这 独立汇集 弯曲分布的平均点无处可适用。

我们在统计数据101中学到什么关于使用偏斜分布中的平均值?

事实上,这种做法在方法文学中很多次批评。 GATSONIS和PALIWAL. 据说“使用简单或加权的敏感性和特异性的平均论统计得出结论是没有任何方法可辩的,”这是一个学术麦克风滴。


你的意思是?

所以我们需要替代平均敏感性和特异性。

如果你之前读过我的博客,你会知道我喜欢ROC曲线。我以前写过关于他们的吨(这里 和 这里)但简要介绍:他们在视觉上反映了敏感性和特异性之间的权衡(概念上是与诊断医学中的覆盖或未遭受疾病之间的权衡相同),ROC曲线下区域的摘要指标是一个极大的歧视性能。特别是ROC AUC是普遍的不变性,这意味着即使疾病的速率也有所不同,我们也可以比较医院的价值。

问题是人类决策大多是诊断医学中的二进制。我们说“有疾病”或“没有疾病”。患者需要活组织检查,或者他们没有。我们给予治疗与否*。

二进制决策在ROC空间中创建单点,而不是曲线。

在筛选乳房X光检查中的108位不同放射科医生的性能, 梁等人1996年。

另一方面的AI模型制作曲线。通过改变决策的阈值,相同的模型可以移动到ROC空间中的不同位置。如果我们希望在做出诊断时更具侵略性,请遵循右侧的曲线。如果我们想避免overcalls,请向左移动。

黑线是模型,彩色点是医生。从 Gulshan等,2016年。

正如这些例子所示,人群倾向于组织成曲线。那么为什么我们不......适合人类点的模型,以表征潜在的(假设的)曲线?

我承认我花了很长时间尝试各种方法来做到这一点,其中没有一个工作伟大或似乎是“”解决方案。

我并不孤单在尝试时, Rajpurkar等人 尝试了一种基于样条的方法,工作正常,但有一些非常不满意的属性。

有一天,我正在讨论这种令人不安的问题,我的统计/ epi教授,莱尔帕尔默,他看着我有点有趣,就像“这不是荟萃分析?”。

我觉得没有意识到自己的差异很好,因为看起来几乎没有人已经想到了这一点**,但是在后古是显而易见的。

等待...... DOC的所有rocs呢?

现在,如果您阅读诊断放射学文献,您可能会混淆。我们不使用ROC曲线一直估计人类性能吗?

单个放射科医生的表现报告 Roganovic等人.

我们确实如此。我们可以通过让他们估计他们的单一医生的Roc曲线 置信度 在他们的诊断中。然后,我们将每个置信水平用作阈值,并计算每个点的灵敏度和特异性。如果您有5个置信水平,则获得5分ROC曲线。之后有 建立方法 合理地将个别医生的ROC曲线与摘要曲线和AUC组合。

但是,赫克是医生对他们诊断的信心?他们可以在数字上真正估计它吗?

在几乎所有诊断方案中,医生都不会估计他们的信心。他们只是做出诊断*。也许他们有一个“树篱”类别(即,“调查结果是等因素的”),但我们被教导努力避免那些。那么这些ROC曲线如何产生?

好吧,有两个答案:

  1. 它是乳房X线照相/ X-RAD,其中每项研究都是临床报告的,其中5分,它用于构建每个医生的ROC曲线(即,评分图像是标准临床实践的罕见情况)。
  2. 这是任何其他测试,研究设计 势力 医生使用得分系统,他们不会在实践中使用。

后者显然有点狡猾。甚至对实验设计的微妙变化可能导致性能显着差异,偏差在标题下大致分类“实验室效果“。

关于强制置信分数的失败,有一个公平的比特。例如, Gur等人 报告,实践中的置信度分数集中在范围的极端(基本上是二进制的逐隐理),并且通常与图像特征的细节无关。另一本文 Gur等人 突出了置信度得分与临床操作点无关的事实 Mallet等人 利用置信度得分提高一些进一步的问题,结束了“......在我们的研究中记录的信心分数 违反了许多假设 of ROC AUC methods, 渲染这些方法不合适。“ (强调我的)

尽管有这些发现,强迫信心评分的实践是普遍的。元分析 dendumrongsup等人 MRMC研究报告说,他们发现的所有51项研究中使用了置信度评分,包括31项关于临床实践中不使用置信分数的成像任务的研究。

我又讨厌这种做法。因此,试图找到更好的方法。


Meta Meta Meta.

那么莱尔是什么意思? Meta分析与估算平均人类读者表现有什么关系?

嗯,在诊断测试准确性的元分析中,您需要多项研究,报告在不同地点和不同人群的测试中的测试灵敏度和特异性,并且您通过创建一个来总结它们 摘要ROC. (SROC) curve.

张和仁,乳腺X线摄影诊断准确性的元分析。每个圆点是一项研究,具有与样品尺寸成比例的点大小(50到500例)。线反映了SROC曲线和95%置信区间。

好吧,在我看来,一系列研究看起来像一群在诊断任务上测试的人类。也许我们应该尝试使用相同的方法来为读者生产SROC曲线?怎么样 esteva等,着名的皮肤科纸?

这是一个最适合读者结果的模型。如果将其与平均水平(报告的)进行比较,您可以看到敏感性和特异性的平均值实际上在拟合模型的内部95%CI上毗邻,只有4位皮肤科医生比平均值更差在95%CI线内。对于SROC曲线似乎似乎更有意义,作为读者的性能的概要,而不是平均值。

所以这种方法看起来非常好。但是很难吗?人们真的会用它吗?


甚至是研究吗?

我最初只是想我会在这个主题上写一个博客。我不确定它真的有资格作为研究,但最终决定写一篇快速论文,向非博客阅读社区展示这个想法。

我觉得这种方式的原因是纸张的内容非常简单。 Meta分析和执行Meta分析的方法是最好了解的统计部分之一。事实上,荟萃分析通常被认为是医学证据金字塔的巅峰。

元分析是最好的分析。

但这就是我认为这个想法是如此良好的解决方案。没有什么意味着什么,没有新的模型来说服人们。这只是良好,验证良好的统计数据。每个主要编程语言都有广泛使用的包。有轻松访问的教程和指南。本科课程涉及本科课程。

所以本文没有任何魅力。它只是说“这是一个很好的工具。使用好工具。“

这也是一篇漂亮的简短论文,所以我将在这里做的就是覆盖主要亮点。


什么和为什么?

简而言之,摘要ROC曲线是拟合在敏感性和特异性的Logit变换上的双变型模型。它有两个主要的口味,固定效果模型和随机效果模型,但所有指导方针都推荐随机效果模型,所以我们可以忽略固定效果版本***。

涉及螺母和螺栓时,有几种主要型号使用。我在论文中引用了他们,所以如果你想了解更多,请检查出来。

“为什么meta-分析?”问题很重要。对这种方法有几个主要的好处,但最大的一个迄今为止,我们在我们的总结措施中获得了合理的差异估计。

看,当您平均灵敏度和特异性时,您可以计算标准偏差 汇集 读者跨越的混乱矩阵。在您有多个读者之前,您现在有一个超级读者。此时,您只能在样品中占用可变性,而不是读取器。

在此表中,调整 Obuchowski. 在一个 书章我写道,我们看到读者的数量在核算时对样品大小和功率计算产生了巨大影响。坦率地说,没有考虑读者的数量是 方法论上不可原谅.

尽管如此,考虑到每个读者的读者数量和“重量”(他们读取了多少研究)。比较此SROC曲线重新分析结果 Rajpurkar和Irvin等人 到了上面来自Esteva等的人:

只有4个读者,看起来有多宽的送信地区是多少!如果我们从“平均点”绘制垂直线,它涵盖了0.3和0.7之间的灵敏度范围,但在纸张中,他们报告了F1得分为0.387,95%CI为0.33至0.44,甚至会计均匀较窄范围对于不同的指标。

关于SROC曲线的另一个好事是,即使有很多读者,他们也可以清楚地显示由体验级别(或其他亚组)分层的结果。

从 Tschandl等人。原始读者点是不可读的,但总结它们的SROC曲线是干净整洁的。

我们在论文中提到的SROC曲线有一些其他好点,但我不想延伸这个博客帖子。如果您有兴趣,请阅读本文。


只是使用srocs!

这真的是我要说的。一种简单的现成,易于应用的方法,以更准确地总结人类性能并估算读者研究中的相关标准误差,特别是用于AI人类与机器比较的用途。

我没有在这里发明任何东西,所以我不受贡献^,但我认为这是一个好主意。用它!它会更好^^!

你不想在方法上不可侵染,对吗?


*我会在未来的帖子中有更多的说法,现在就是这样说这实际上,当你意识到医生没有做出描述性报告时,这实际上是如何作用的。放射科医师(例如)所做的每一个陈述是通常两个但偶尔三到四之间的选择 实际治疗路径。一种不了解他们单词的临床意义的放射科医师是一种糟糕的放射科医师。

**这实际上让我真的很紧张,在我把纸张发布到Arxiv之后(如,为什么没有人想到这个?),所以我通过电子邮件轰炸了一些朋友,以便我仍然可以从中删除本文的紧急反馈处理列表,但我得到了全部清除:p

***我在论文中半证明了这一点。无论如何,这对我来说是有道理的。

^好吧,我将对“Docs是Rocs”的短语来赢得信誉。不是要撒谎,它就会带来那个激动我写论文的短语。它刚才存在。

^^对于任何感兴趣的人,它仍然并不完美。使用SROC分析在模拟研究中存在一些持续低估性能的报道。它还没有真正考虑到大多数读者研究有一组病例的事实,因此案例之间的差异是人为的低。但是你真的无法绕过那个而不达成一堆假设(这些是准确的 经验 估计),它比目前所做的更好。和哎呀,它足以让Cochrane:P ^^^

^^^当然,如果你不同意这种方法,请告诉我。这是目前的预印文出版,我很乐意获得对什么讨厌它的反馈以及关于它的一切,所以我可以相应地更新纸张或我的朋友列表:p

卢克奥克登 - 雷纳是南澳大利亚的放射科学家,在阿德莱德大学的公共卫生学院进行了博士学位。这篇文章最初出现在他的博客上 这里.

传播爱心

类别: 人工智能, 健康技术

标记为: ,

发表评论

您的电子邮件地址不会被公开。 必需的地方已做标记 *