助理教授Marzyeh Ghassemi探讨了医学数据中隐藏的偏见怎样影响了AI的方法。
Marzyeh Ghassemi在麻省理工学院攻读计算机科学学位论文时,写了几篇关于AI的ML技术怎样应用于临床数据以预测患者预后的论文。“直到我的博士研究结束,我的一位委员会成员提问到:‘你有没有检查过你的模型在不同人群中的作用情况?’”
这个问题让Ghassemi大开眼界,他之前评估过所有患者模型的总体表现。仔细观察后,她发现模型对于黑人女性所在群体的工作方式通常是不同的——尤其是更糟——这一发现让她感到惊讶。她说:“我事先没有把健康差异直接转化为模型差异联系起来。”。“鉴于我是麻省理工学院中一名拥有少数族裔女性身份的计算机科学家,我有理由相信许多其他人也没有意识到这一点。”
在1月14日发表在《模式》(Patterns)杂志上的一篇论文中,Ghassemi(她于2017年获得博士学位,现在是电子工程和计算机科学系以及麻省理工学院医学工程和科学研究所(IMES)的助理教授。)和她的合著者——波士顿大学的Elaine Okanyene Nsoesie对AI在医学中的应用前景提出了警告。Ghassemi 指出:“假如谨慎使用,这项技术可以提高医疗保健的绩效,并有可能减少不公平现象。”“但假如我们不小心,这项技术可能会使医疗状况恶化。”
考虑到AI往往通过处理和分析大量数据来训练自身,一切都可以被归结为数据。但它们得到的数据是由人类产生的,而人类又是善变的,它们的判断可能会因为与之互动的病人的年龄、性别和种族的不同而受到蒙蔽,它们自己却并不知道这一点。
另外,医学条件本身仍然存在很大的不确定性。Ghassemi说:“在同一所医学院接受了十年培训的医生们经常会对患者的诊断产生分歧。”。这与现有ML算法的应用不同——譬如物体识别任务——因为几乎世界上每一个人都会同意狗就是狗。
ML算法在掌握国际象棋和围棋等游戏方面也表现良好,在这些游戏中,规则和“获胜条件”都有着明确的定义。然则,医生并不总是能就治疗患者的规则达成共识,甚至连“健康”的标准也缺乏广泛认同。“医生们知道生病意味着什么,” Ghassemi解释说,“我们在人们生病最严重的时候掌握着最多的数据。但我们没能从健康的人那里获得太多的数据,因为人们在健康的时候看医生的可能性较小。”
即使是机械设备也可能带来数据缺陷和治疗差异。比如,脉搏血氧仪主要针对浅肤色的人进行校准,但不能准确测量深肤色的人的血氧水平。当氧气水平较低时,这些缺陷最为严重——准确的读数正是最迫切的时候。Ghassemi和Nsoesie写道,类似地,女性在“金属对金属”髋关节置换术中面临更大的风险,“部分原因是植入物设计中没有考虑到解剖学差异。”这样的事实可能会隐藏在输入计算机模型的数据中,其输出将故此受到破坏。
Ghassemi说,ML算法的产品来自于计算机,它提供了“客观性的曙光”。但这可能具有欺骗性和危险性,因为与忽略一位可能不称职(甚至可能带有种族主义色彩)的医生的建议相比,更难找出大量提供给计算机的错误的数据。“问题不在于ML本身,”她坚称。“是人。人类护理人员有时会产生糟糕的数据,因为他们并不完美。”
尽管如此,她仍然相信ML可以在医疗保健方面提供更有效、更公平的建议和实践。实现ML在医疗保健领域前景的一个关键是提高数据质量,这不是一项容易的任务。Ghassemi说,“想象一下,假如我们能从表现最好的医生那里获取数据,并与其他培训和经验较少的医生分享这些数据的话,我们确实需要收集这些数据并对其进行审计。”
她指出,这里的挑战是数据收集没有激励或奖励。“要获得这方面的资助,或要求学生花时间在这方面并不容易。数据提供商可能会说,‘当我可以把数据以数百万美元的价格卖给一家公司时,为什么我要免费提供我的数据?’但研究人员应该能够访问数据,而不必处理类似这样的问题:“我在什么文件上获得许可,才能换取你对我所在机构数据的访问?”
“获得更好的医疗保健的唯一途径是获得更好的数据,” Ghassemi说,“而获得更好数据的唯一途径则是鼓励数据的发布。”
不仅仅是数据收集的问题。还有一个问题是谁来收集和审查数据。Ghassemi建议召集不同的研究群体——临床医生、统计学家、医学伦理学家和计算机科学家——首先要收集不同的患者数据,然后“专注于开发公平合理的医疗保健改进措施,不仅可以在一个先进的医疗环境中部署,而且可以在广泛的医疗环境中部署。”
她说,文章的目的不是阻止技术专家将他们在ML方面的专业知识带到医学领域中。“他们只是需要认识到治疗中出现的差距,以及在批准某一特定计算机模型之前应该考虑的其他复杂因素。”