人工智能

人工智能与结核病 - 第2部分

由Saurabh Jha,MD

这是三部分系列的第二部分。赶上 第一部分 这里。

聪明的汉斯

Preetham Srinivas,头部 胸部射线照相项目在Qure.ai,召唤Bhargava Reddy,Manoj Tadepalli和 Tarun Raj到会议室。

“准备好排三走势图全力以赴的男孩” said Preetham.

Que的科学家开始调查 该算法从新的胸部射线照片上的神秘高性能 医院。重新回顾,该算法在接收器运行下有排三走势图区域 特征曲线(AUC)为1 - 这是多项选择问题100% test.

“有人把纸张淹没给了ai,” laughed Manoj.

“这是排三走势图工程学笑话,” 解释了Bhargava。 “这意味着您在考试前看到了问题。它 有时在印度发生富裕人士购买考试表。“

只是因为你知道问题 并不意味着你知道答案。和艾多力不足以购买AUC。

四个小伙子是学校的朋友 安德拉邦。他们在印度学院学习了计算机科学 技术(IIT),令人束缚的不可能是,因为只有百分之一 在印度的这个最令人垂涎​​的纪律选择百万志愿的年轻人 大多数令人垂涎的研究所。他们一起修改了考试,拉动 整个夜总会 - 在共同努力,他们努力工作,工作更有趣。

Preetham命令 炸面 面条 - 神秘 美味的印度方便面 - 为他们的能量充电。 ennio morricone soundtrack from 有几美元更多 在背景中播放。我们曾经 冒险进入深入学习的狂野。

小伙子必须梳理几千 正常和几千个异常射线照相找到了艾都看到了什么。他们 工程师,而不是放射科医生,并没有特别培训放射学 除了看几千胸部射线照相,除了那些 他们现在就像手后面的线一样了。他们仔细喂养了 ai数据教授它放射学。作为回报,AI教会了他们的放射学 - 教 他们在哪里看,看看,什么找到了什么。

他们系统地搜索了 线索的胸部射线照片。射线照相是二维演绎,仅仅是几何 压缩,各种地图。但他们描绘的房地产具有独特的个性。 HILA,APICE和气管键角度彼此如此接近 它们也可能是一种结构,但像Mews,道路,途径和 Cul-de-Sacs的伦敦,他们是截然不同的,每个房地产表达独特的元素 生理学和病理学。

排三走势图经常闪耀的房地产 ai是厌恶角度(CPA) - 肺部满足的安静哈姆雷特 隔膜,两个结构的阻塞X射线的两个结构,两个对立面 附着。它据说是尖锐的 - 因此,“角度”;锐度的损失意味着 一种胸腔积液,这是不正常的。

CPA经常钝。如果放射科医生 每次CPA都钝了一半的时候,每个时候都会被称为胸膜积液 有一种胸腔积液。放射科医生如何处理钝的注册会计师 随意的。有些人呼叫胸腔积液,有些只是描述他们的观察 没有归于病理学,有些人忽略了钝化的CPA。我做了三个 但在一周的不同日子里。放射学的变异令人沮丧 临床医生。但随着报告的令人沮丧,事实是射线照片是 不完美的仲裁者解释的不完美仪器 - 即不完全平方。 主观性是不可应刻的。客观性是免费的。

因为放射科医生 解释是AI的福音真理,辐射科学家之间的变异 Ai的思想。 ai更喜欢放射科医生与羊和报告一致 像旧约那样是教条,所以它可以更好地了解地面 说法即使是真相真的是基础 真实性。什么时候 放射科医生称为钝化的CPA胸腔积液,AI似乎更聪明。也许, 提供我的两美分,Ai神秘超级性能的秘诀就是这样 来自这个新研究所的放射科医生是绵羊。他们都报道了钝的 CPA以同样的方式。 100%一致性的机器。

“我不认为这是注册会计师, yaar.,“ 有人反对娇小,礼貌地。 “问题可能在元数据中。”

元数据是一家律 哪个驱动数据科学家疯狂。尽管放射学的变化 报告,射线照相 - 即数据–遵循明确的规则,说排三走势图常见的 语言,可以由深神经网络嘎吱作响。但射线照片没有 存在真空。存储后,它们在本地信息的属性中畅销 技术。检索时,它们携带这些属性,即 本地方言,与他们一起。在喂养神经网络之前,射线照片必须 在元数据中清除特质,可能需要数月。

我们似乎有排三走势图漫长的夜晚。 我期待着第二盘 炸面 面条。

在50左右TH. 射线照片, tarun咕,“这是聪明的汉斯。”他的球场兴奋,“我 想象的。 AI表现得像聪明的汉斯一样。“

聪明的汉斯是排三走势图名人德国人 据称可以添加和减去的马。他通过点击他的蹄子来回答。研究人员, 然而,弄出了他的秘密。汉斯将继续挖掘他的蹄直到 水龙头数与正确的数字答案相对应,他已经推断出来 从他所有者的微妙,非言语,视觉线索。马会得到 如果他无法盯着他的主人的脸,答案是错误的。不是排三走势图数学 奥林匹克,汉斯仍然非常聪明,肯定是一匹马,但即使是人类 standards.

“你看到了什么?”急切地尖锐地指出 到正常和异常的胸部射线照片并排放置。拥有 解释了几千张射线照相我看到了我通常看到的东西 看不到任何神秘的东西。我感到尴尬 - 放射科医师是 由工程师,AI和据说是一匹马。我专心地盯着看 CPA希望灵感闪光。

“这不是CPA,Yaar,”Tarun说 再次 - “看看整个电影。看看角落。“

我仍然没有得到它。

“AI是狡猾的,就像汉斯一样 聪明的马,它寻求最简单的提示。在这家医院都异常 射线照相标有 - “Pa”。没有排三走势图正常标记。这是 他们保持追踪异常的方式。 AI没有看到HILA或CPA,或者 肺部 - 它检测到标记–“PA” - 它不会错过,“雷云解释说。

其他人很快验证了贼伦 观察。肯定足够,就像发条 - 所有异常的射线照相都有 “Pa”写在他们身上 - 没有例外。这种异常的简单标记,a 当地练习,成为AI的实际真相。它拒绝了所有复杂的 教育学已经痛苦地教授排三走势图简单的规则。我不确定是否 AI是狡猾的,务实的或懒惰,或者我是否感到更专有威胁 由AI或数据科学家。

“这可以通过简单来解决 代码,但这是明天,“占地面积。第二块板 炸面 面条 从未到达。 AI有排三走势图夜晚的上帝的表现。

地面真理的语言

 人工智能的务实懒惰 令人羡慕。要学习,它会在需要时爬山,但在可能的情况下 它会采取最短的路径。它更喜欢爬山鼹鼠到山脉。 AI. 可能是我的泰勒durden。它没有给老鼠的尾巴如何或为什么,即使 它关心它不会告诉你为什么它到达答案。 AI的疑似 INSOUCIANCE - 它的黑匣子 - 意味着我们不知道为什么AI是对的,或者那个 这是。但是Ai的教学法是结构性和连续的。

在获取胸部射线照片后, Que的科学家必须用地面真相标记图像。哪个真理, 他们问过。虽然“地面真理”听起来很深刻,但它只是意味着什么 病人有。在射线照片上,患者有两个真理:射线照相 发现,例如合并–应该有肺的白度面积, 和这种疾病,例如肺炎,导致发现。这对是排三走势图对联。 辐射学家押韵他们 观察推理。这 radiologist 观察 整合和 Infers. 肺炎。

推论临床上 有意义的医生治疗肺炎,而不是合并,抗生素。这 精确的疾病,例如特异性肺炎,例如特异性肺炎。军团群岛肺炎是 整个事实。但训练整个事实的AI不可行 reasons.

首先,许多疾病的原因 在射线照片上的整合或白度 -​​ 肺炎只是排三走势图原因, 这意味着许多疾病看起来相似。如果军团菌肺炎看起来像 肺泡出血,为什么劳动地搞定真相?

其次,很少有外部 验证放射科医师的解释。这是不道德的攻击 肺只是看放射科医生是否正确。无论是辐射源学家是否属性 整合到Atelectasis(肺部塌陷,就像折叠一样 帐篷),肺炎或死肺 - 我们不知道他们是否对。推论是 guesswork. 

另排三走势图因素是样本大小: 精确真正真相的案例精确。有更多的案例 从军团菌肺炎的整合巩固了任何原因。 AI. 需要数字,不仅仅是为了收紧围绕点的置信区间 estimate –广泛的置信区间意味着穷人劳动力差 - 但对于外部而言 有效性。越一般的真相,越多的标记真相 Ai看到,更广泛的ai得到,允许它在孟买工作, 卡拉奇和纽约。

归功于Prashant Warier's 不知疲倦的外展和IIT网络,Qure.ai获得了250万美元的人 从世界各地的近五十个中心的胸部射线照片 东京和约翰内斯堡当然来自孟买。艾尔有排三走势图肯定的枪击 全球的。但射线照相的纯粹量使科学家们的潮热。

“我说山雀,我们将在这里 直到下个世纪,如果我们必须搜索200万医疗记录 地面真理,或标签了两百万射线照相“召回了占赖麦。 ai可以 也没有给出排三走势图空白的平板,也没有勺子喂食。周围的方式是标签 几千张射线照相,具有解剖标志,如希拉,隔膜, 心脏,称为分割的过程。这种弱势监督可能是 scaled.

为了实地真相,他们会使用 放射科医生的解释。即便如此,阅读超过一百万个放射学 报告并不实用。他们使用自然语言处理(NLP)。 NLP罐头 搜索非结构化(免费文本)句子以获取有意义的单词和短语。 NLP. 会告诉AI研究是否正常或异常,异常 was.

胸部X射线报告是多种多样的 主观,混合添加不一致。理想情况下,言语应该 精确且始终如一地传达放射科医生看到什么。放射科医生确实付钱 注意兔子对爱丽丝的建议:“然后你应该说你的意思,”和 爱丽丝的反驳:“至少我的意思是我说的。”麻烦是不同的 放射科医生对同样疾病的不同事物表示不同的东西 用相同的描述符。

排三走势图放射科医生可以致电每排三走势图 异常白度为“不透明度”,无论他们是否认为不透明度 来自肺炎或无害的疤痕。另排三走势图人可以说“整合”而不是 “不透明度”。另排三走势图人只有在他们相信时使用“合并” 白天异常是因为肺炎,灌输了内皮 表示。虽然另排三走势图人可能会使用“渗透”进行病毒性肺炎 用于细菌肺炎的“合并”。

无尽的排列 放射学报告中的语言将推动三月野兔和爱丽丝疯狂。这 Fleischner Society Lexicon使描述符更加统一和有意义。后 仔细阅读了几千条放射学报告,团队选中了 Lexicon以下描述符号为标签:钝的角色角度, CardiomeGaly,腔,固结,纤维化,HILL扩大,结节, 不透明度和胸腔积液。

没有公开可用的内容 NLPS不考虑当地语言文化,团队开发了自己的 NLP。他们有两种选择 - 使用机器学习来开发NLP或使用 人类(程序员)制定规则。前者更快。素食主义者 选择后者,因为它给了他纬度合并限制 放射学报告,如“模糊”和“持久性”。细微差别可能进来 为了未来的迭代方便。 

以简单的规则开始 作为否定检测,因此“无异常”或“没有肺炎”或“肺炎 不太可能“与”正常“相同,然后扩大规则 包含同义词,例如“密度”和“病变”,包括议会 “突出”,排三走势图词,除了它实际意味着什么和 像“令人敬畏”已经通过过度使用,胸部射线照片的NLP已经贬值 应计了近2500条规则,迅速变得比法规更加圣经 of Obamacare.

重读的第一矩 到了:NLP甚至是工作吗?测试NLP就像测试测试仪 - 如果NLP严重不准确,整个项目将崩溃。 NLP. 确定标记的真相的准确性 - 例如无论是放射科医生 真正的报告中的“合并”。如果NLP正确挑选 “整合”在十个报告中有九点,而不是十分之一, 射线照片与“合并”但标记为“正常”并不混淆AI。 AI. 可以容忍偶尔错误分类;实际上,它茁壮成长噪音。你是 允许愚弄一次,但你不能经常欺骗它。

经过六个月的发展, 在1930年的报告中测试了NLP,以了解它是否标记了射线照相 正确描述符。他们的报告,其中1930年,被手动检查 放射科医生蒙蔽了NLP的答案。 NLP分别执行 描述符的敏感性/特异性范围从93%到100%。

对于“正常”,最重要的是 放射诊断,NLP的特异性为100%。这意味着10, 000报告放射科学家称为或暗示异常,没有人会被错误地 用NLP提取为“正常”。 NLP对“正常”的敏感性为94%。这 意味着在10,000中报告放射科医生或暗示正常,600 将被NLP诬告为“异常”。 NLP的准确性反映了 语言模糊性,这是放射科医师的不确定性的代理。放射科医生 当他们相信射线照相时,不太确定和使用更多的黄鼠狼 normal.

算法学院

深度学习的成功之后 图像网到现货猫和狗,突出的计算机科学家推荐 放射科医生的灭绝。如果ai可以告诉猫除了它可以 肯定是读猫扫描。他们错过了排三走势图小点。典型的图像分辨率 在图像网中为64 x 64像素。胸部射线照片的分辨率可以是 高达4096 x 4096像素。胸部射线照片上的肺结核是针对餐 干草堆。甚至猫都很难找到。

其他点错过了 微妙的。当AI试图在沙发上猫的图片中对猫分类时, 背景是无关紧要的。 AI可以专注于猫并忽略沙发和 墙上的写作。在胸部射线照片背景是 帆布和油漆。你不能忽略左上叶,因为 右下叶片有不透明度。放射科医生不喜欢 搜索满意度。所有肺部必须用不屈的视觉搜查 diligence.

放射科医生可能是尴尬的人, 迫切更换,但人类视网膜是排三走势图非凡的工程壮举, 进化地解除灭绝,可以辨别超过五十个色调 灰色。对于神经网络,4096像素是太多信息。胸部 射线照相必须下降到256像素。降低的分辨率使得 肺动脉看起来像结节。放射科医师应该谦卑地谦卑 开始处于劣势。

与放射科医生不同,AI没有 休息浴室或检查推特。它是必然的。很快,它 培训50,000箱射线照片。很快AI已经准备好了学期结束 考试。验证案例来自与培训案例相同的来源。 训练验证是排三走势图循环。数据科学家们看待AI的表现 验证案例,调整调整,并将其拨打更多案件培训,检查其 表现再次,拨打调整等等。

当被问到“有 合并?“,AI不交谈,但在无量纲的数字中表达自己 被称为置信度分数 - 在0到1之间运行。AI如何到达 特别的信心评分,如0.5,没有人真正了解。分数 虽然它可能包含一些概率不是概率的衡量标准 可能性。它也没有严格衡量信心,虽然这肯定是排三走势图 信仰的衡量标准,这是一种信心的衡量标准。这就像问排三走势图 放射科医生 - “肯定的是,这个病人有肺水肿 - 扔我排三走势图号码?“放射科医师抛出的数字不是经验的 still information.

信心得分是神秘的 但不是毫无意义的。对于排三走势图,你可以字面上转得分,就像 调整图像的亮度或对比度,并查看之间的权衡 敏感性和特异性。这是排三走势图很景象。这就像看到完整 放射科医生的挂毯,从呼叫者下的克拉巴斯到“害怕 我的影子“过度来电者。可以选择置信度分数来最大化 敏感性或特异性,或使用YENDEN的指数,优化两者。 

纠正较差的敏感性和 特异性,科学家研究了置信度分数的案例 极端,算法紧张或过度自行信。艾.. 弱点是放射科医师的盲点,如肺部侧面,拥挤 希拉的集市,肋骨后面。它可以被对称愚弄。当。。。的时候 算法弄错了排三走势图错误,它是奖励函数,也称为损失函数, 改变了,如果它带来了同样的错误和奖励,那就受到了惩罚 什么时候没有。有感情的算法也有利地回应 帕夫洛夫的狗,并保持改善。

验证案例。左下角的算法称为“合并”。放射科医生称为X射线正常。放射科医生是黄金标准,所以这是排三走势图假阳性。

董事会考试

十八个月后 训练验证,看到百万射线照相,第二时刻 估计到达:测试,真正的测试,而不是模拟考试。这重要的是 一部分的算法开发必须严格,因为如果测试太容易了 该算法可以错误地执行。 qure.ai想要他们的算法验证 独立的研究人员以及在同行评审期刊上发表的验证。 但这不是他们担心的审稿人2。

“你想找到并修复 算法在部署前的弱点。因为如果我们的客户发现它 弱点而不是我们,我们失去信誉,“占据了胜利。

素食主义者暗指了 在新医院部署算法时,性能不可避免地下降。一种 AUC等小幅下降,如1-2%,不会改变临床管理,是 美好的;诸如20%的大规模下降是令人尴尬的。什么是更多 尴尬的是,如果艾奥错过了排三走势图明显的发现这么令人叹为观止 合并。如果放射科医生错过了明显的发现,他们可以起诉。如果是 算法错过了排三走势图明显的发现可能会失去其工作,而且Qure.ai可以 失去未来的合同。单个激烈的错误可以撤消几个月的努力工作。 医疗保健是排三走势图难以理解的市场。

在培训的开始, AI在肺中错过了6厘米的不透明度,即使是幼儿也可以看到。 Qure的 科学家们疑惑,害怕和沮丧。事实证明 算法误认为了起搏器的大不透明度。最初,数据 科学家用设备排除了射线照相,以免混淆ai。什么时候 该算法看到了它认为是一种心脏起搏器,它记得规则,“没有 设备“,所以拒绝看到任何东西。科学家们意识到他们的 试图不混淆ai,他们更加困惑它。没有收益 含莫利妇女的AI。它需要看到现实世界长大。

测试用例来自新的 光源 - 中国的医院,浦那和迈索尔。实地真相是制造的 更严格。三位放射科医生独立阅读射线照片。如果二 被称为“合并”和第三个没有,大多数人占上风,而且 实地真理是“合并”。如果两个放射科医生没有标记结节,而且 三分之一,地面真相是“没有结节”。对于验证和测试 病例,放射科学家是地面真相 - AI是囚犯的辐射科医生 突发奇想,但通过使用三位放射科医师作为测试用例的原始事实, interobserver变异性降低 - 真相,从某种意义上说是金色的 意思而不是共识。 

测试用例。左下角中称为“透明度”的算法。您可以看到为什么 - 注意左下叶中的微妙但实际增加的密度。排三走势图放射科医生称为“不透明度”,两个不同意。这是排三走势图假阳性。

什么是最小数量的 AI异常需要看;它的数字需要学习(NNL)?这取决于 关于几个因素 - 您认为算法的敏感程度将是所需的 置信区间的紧张性,所需的精度(假的假 阳性),至关重要的是,异常的罕见。令人遗憾的异常 射线照片越多,需要看到。确信看到八十个案件 - NNL源自假定的80%敏感性– of a specific 发现,AI必须看到15,000张射线照片。 nnl不是问题 训练或验证 - 回忆,有100,000张射线照片 验证即使是训练也是盛宴。但收集测试案例是 繁重和昂贵。辐射学家不知道免费工作。

Que的本土NLP标记胸部 在新医院的放射学描述符射线照片。有 通常也是在测试中随机分布的,但频率 异常与训练案件不同。在后者, 频率反映了射线照相异常的实际普遍性。自然 普遍存在不保证两千次样本中足够的异常。 通过排三走势图名为“富集”的过程,每个异常的频率 测试池增加,使80例透明度,结节, 在测试中保证合并等。

测试中的异常更多 频繁比现实生活。学习?是的。不公平吗?没有美国董事会 检查,放射科医师只显示异常情况。

像焦虑的父母一样,生气 科学家等待考试结果,AUC。

“我们预计80%的敏感性。 这就是我们计算样本大小的方式。一些放射科医生向我们建议我们 不是为胸部射线照相开发算法,说这是排三走势图傻瓜的 差事,因为射线照相是如此主观。我们可以听到他们的警告。“ Preetham召回抑郁的怀旧。

AUC 用于检测异常胸部 X射线照片为0.92。个别放射科医生,不出所料,做得更好 毕竟,他们是真理的一部分。正如预期的那样,协议程度 放射科学家之间,观察者间变异性,影响了AI的 表现最高,当放射科医师最达成协议时, 如在调用心脏肿大时。放射科医师被指示打电话 “心脏肿大”当心脏比例大于0.5时。为了这 发现,放射科医生同意92%的时间。对于正常的放射科医生 同意85%的时间。对于心脏肿大,算法的AUC为0.96。鉴于 推动放射学更多的定量和非常主观,这些统计数据 应该考虑一下。 

测试与验证案例中算法性能的AUC。个人交叉代表放射科医生。放射科医师比算法做得更好。

对于所有异常,都是 诊断性能措施超过90%。算法直线 作为。事实上,该算法在测试上更好地进行了(AUC  –0.92)比验证案例(AUC– 0.86) at discerning normal –遗嘱对其更少的是更哲学而是事实 测试样品具有更少的灰色区域异常,例如钙化 主动脉旋钮,一些放射科医生的“异常”的类型报告和 其他人忽略了。这意味着AI的表现达到了渐近的 无法通过更多的数据克服,因为它看到的射线照片越多 “灰色区域”它会看到异常。这种好奇的现象镜子 放射科医师的表现。我们看到的胸部射线照片越多,我们得到了更好。 但我们也变得更糟,因为我们知道我们不知道的东西并变得更多 不确定。经过一段时间,通过看到更多的表现净利润很少 radiographs.

近三年后 经过几次死胡同,士气降低,公司被构思 令人沮丧的元数据,胸部X线算法已经成熟。它 实际上不是单一的算法,而是一堆帮助每个算法 其他并且可以组合成META算法。算法像 蜜蜂,但像排三走势图排一样运作。

由于团队即将打开 香槟,Ammar jagicar,产品经理,有新闻。

“伙计们,当地的健康权威 在Baran,Rajasthan,对我们的结核病算法感兴趣。“

ammar,排三走势图前牙医 工程中的二级,也来自IIT,不是你可以轻易的人 印象。他为第二次职业生长了他利润丰厚的牙科实践,因为 他发现闪亮的牙齿智力平淡。

“我对算法感到满意 表现,“弹药说,”但在初创企业中工作,我知道该建筑 该产品仅占任务的20%。 80%是部署。“

Ammar已经低估了部署。 他认为这是排三走势图工程挑战。他预计它不匹配 可以通过巧妙代码或i-phone应用程序修复的系统。拉贾什坦将会 教他认为算法的最大挑战不是AUC, 或聪明的统计学家无休止地争论Twitter关于哪些结果措施 ai或过度装箱的价值。这是一种疑问文化。一种文化 没有那么多的恐惧变化,因为不能打扰不断变化。 Qure的年轻人 看起来像Netflix College电影的人物的科学家会有 为了认真对待劳动力。

Saurabh Jha.(Aka @roguerad)是医疗保健博客的贡献编辑。这是3件系列的第2部分。

传播爱心

1回复 »

  1. 非常有趣和信息丰富的阅读。谢谢你。
    我认为AI的开发人员也可以使用“模式”来查找黄金标准,基线真理等。回想一下,模式只是最常见的价值或数字。这样你就不必依靠放射科医生。这就像在临床病理学中。我们看看临床化学分析仪的产出,发现141兆/升NA是成千上万患者,病人和良好的最常见的结果。如果这个值在接下来的两个月内变化,我们知道我们的机器正在发生一些事情。我们还知道这个价值最不受异常值的影响,并且是一系列正常的核心,并且应该在一大群患者中保持岩石固体。平均值和中位数会不太适合,因为它们会受到更大的异常值。

    我猜测,通过简单地覆盖来自数千名患者的像素,可以确定普通肋骨角度的数字图像的“模式”结果。这将是精确的金标准。为了获得一些普通的正常情况将是一种猜测,但是将从CVA的解剖学中央线的每一行中添加或减去不透明像素。我不确定如何在数学上进行数学地找到排三走势图包括两个标准偏差的范围,但我打赌某人可以弄清楚如何做到这一点。

发表评论

您的电子邮件地址不会被公开。 必需的地方已做标记 *