7月1日,中国食品药品检定研究院(以下简称中检院)牵头的电气电子工程师学会(IEEE)人工智能医疗器械标准工作组起草的IEEE 2801—2022(医学人工智能数据集质量管理推荐标准)正式发布,成为人工智能医疗器械领域的首个全球性标准。

该国际标准由中检院提出,于2018年12月正式获批立项。该标准的起草过程展现出我国在国际人工智能医疗器械标准化领域的技术积累和组织协调能力,鼓舞了我国人工智能医疗器械标准走出去的信心,也为后续标准制修订工作的开展打开了局面。

►►►

数据集质量管理专用标准缺失

2017年以来,人工智能医疗器械产品在全球大量涌现,产业对数据集的需求不断增加。生产企业、临床试验机构、教育科研机构等纷纷布局数据集建设,我国相关企业和机构也加大投入。由于数据集对人工智能算法模型、产品质量有重要影响,数据集开发过程需要接受严格的质量管理。

现行质量管理国际标准(如ISO 9000系列、ISO 13485、ISO 14971等)均属于通用框架,难以解决数据集质量管理的特殊问题。考虑到数据集制造责任方的多元性特点,某些质量管理标准在执行层面也存在不适用其他主体问题,例如ISO 13485标准不适用于医疗机构主导的数据集建设与管理。鉴于上述情况,中检院在2018年10月向IEEE标准协会报送了医学人工智能数据集管理推荐标准(编号为IEEE P2801)的立项提案,旨在填补行业空白,指导数据集的制造责任方建立健全数据集质量管理体系,客观上作为对通用质量管理标准的补充。

►►►

三次迭代修订终获发布

2018年9月,中检院团队编写了IEEE P2801标准立项提案。在IEEE、IEEE中国办公室的全程协助下,中检院团队与IEEE生物医学工程标委会深入沟通,修改完善立项提案。

2018年12月,IEEE标准协会正式批复同意立项,由中检院组建人工智能医疗器械标准工作组。工作组由IEEE标准协会高级单位会员构成,每个高级单位会员拥有一个投票权。2019年3月,工作组在中检院召开启动会,早期成员包括中检院、重庆大学、西门子医疗、依图医疗、腾讯医疗等单位。在3年多的起草过程中,工作组日益发展壮大,成员来自中国、美国、欧盟等国家和地区的十余家单位,新成员包括中国科学院计算技术研究所、上海交通大学、华为技术有限公司、美国食品药品管理局、MITRE集团等。工作组中还有一批以个人身份参与工作的专家,他们来自芝加哥大学、飞利浦医疗、国药集团、美敦力等机构。

在大家的共同努力下,标准草案框架和内容经过了三次主要迭代和修改。2019年3月,中检院提出了标准草案早期雏形(D0版),工作组在启动会上进行了讨论。该版本主要参考ISO 13485质量管理思想,其中正文包含3个章节,主要考虑数据集质量管理涉及的文档要求,提出人、机、料、法、环等管理要素的基本要求,讨论数据集的验证确认。

为推进标准起草工作,中检院组织了文献调研和行业调研,结合国内行业标准的发展思路,于2020年5月推出标准草案D1版本。该版本正文扩充为5个章节,增加了有关管理责任、数据集开发过程相关内容,结构更加完善;在细节上进行了扩充,更偏重人工智能特色。D1版本在编写过程中论证更加充分,收到国内外专家的上百条反馈意见,标准框架基本成型。

在D1版本基础上,工作组进一步凝聚共识,从数据集全生命周期质量管理理念出发整合内容,将标准草案编写工作进行精细化分工,由各成员单位按照专业特长,各自承担数据集全生命周期具体环节、条款的执笔任务,在2021年5月形成D2版本。D2版本进一步强调数据集全生命周期模型、数据集质量控制特殊要求,条款内容基本确定。

此后,工作组成员继续努力,进一步完善D2版本技术细节、语言格式。2021年7月,工作组成员一致同意标准草案定稿,记为D3版本,向IEEE生物医学工程标委会报送。

在2021年10月召开的IEEE生物医学工程标委会会议上,标委会部分委员从人工智能伦理角度对D3版本提出修改意见,要求工作组论证数据集质量管理过程中的伦理价值如何实现。会后,工作组快速进行文献调研和内部讨论,在D3版本基础上增加资料性附录,讨论数据集开发过程中的伦理风险与应对措施。由于国际人工智能伦理标准体系尚处于起步阶段,该附录仅作为对读者的提醒,具有前瞻性和开放性。

2021年11月,工作组在IEEE生物医学工程标委会会议上围绕伦理问题作专题报告,获得标委会肯定,标准草案正式进入外部投票流程。经过6个月的外部投票,标准草案获得一致通过,于今年7月正式发布。

►►►

规范数据集质量管理体系建设

人工智能医疗器械产业发展离不开高质量的数据集,也离不开严谨有效的数据集质量管理体系。一般而言,数据集建设周期较长,投入成本较大,涉及资源多种多样。数据集的制造责任方可能来自医疗机构、教育科研单位、生产企业、监管部门等,质量文化与组织方式差异较大。IEEE 2801—2022的发布,有助于鼓励社会各界在组织数据集建设时执行相同规范,加强数据集建设过程的质量控制,促进数据集制造责任方提升自身管理能力。IEEE 2801—2022实施后,医疗机构、相关高校、科研机构、检测机构、生产企业均可参考标准内容,建立健全本单位数据集质量管理体系,推动实现数据集建设规范化、规模化,为产业发展提供更优质的数据资源。

IEEE 2801—2022作为管理标准,与我国近期发布的行业基础标准YY/T 1833.2—2022 《人工智能医疗器械 质量要求和评价 第2部分:数据集通用要求》在质量目标、偏倚风险控制等方面存在一定呼应,客观上能够帮助数据集制造责任方规范数据集建设过程,满足行业标准中与管理有关的数据集质量要求,例如保密性、依从性、可追溯性等。对于自行建设数据集的人工智能医疗器械生产企业,IEEE 2801—2022可为质量管理人员和体系核查/内审工作提供参考。

►►►

深度参与国际标准制定工作

IEEE 2801—2022的起草过程是一个不断探索完善的过程,伴随困难、挑战和机遇,为工作组提供了宝贵经验。

2019年底发生的新冠肺炎疫情给IEEE 2801—2022起草工作造成直接影响。工作组90%以上的会议在线上召开,需要解决国内外专家存在的时差和网络通信问题;由于缺乏见面机会,沟通效率受到影响;部分企业面临行业动荡、人才流失等问题,使标准起草的参与度出现波动。工作组秉承团结协作、开放包容的工作作风,充分尊重各成员单位和专家意见,尽力维持起草团队成员稳定性和工作思路连贯性。2020年以来,国外专家的参与度不断提高,工作组及时处理收到的意见和建议,果断调整标准框架和内容,有力促进了国际共识的形成和巩固。

近年来,人工智能伦理思想、法规发展日趋活跃,对国际标准化领域产生了深远影响。例如,欧盟把人工智能伦理提高到立法框架的高度,将人工智能医疗应用列入高风险行列,对人工智能医疗器械标准发展产生潜在影响。人工智能伦理标准强调人与人工智能之间的辩证关系,要求在人工智能产品的研发生产过程中体现伦理价值,在目的、要求方面与医疗器械监管和质量文化(生产质量管理体系)的差异较大。IEEE生物医学工程标委会委员审查本标准草案时,从人工智能伦理公平性、透明度等角度提出了一些比较激烈的问题。工作组立足已有医疗器械标准和监管框架,调研和解读相关伦理概念,正面回应标委会关切,在求同存异的前提下,获得了标委会的认可。标准新增的资料性附录为后续数据伦理标准的完善提供了牵引,也扩宽了工作组的视野。

可以预见,随着人工智能医疗器械产业的发展和临床应用的深化,人工智能医疗器械国际标准将不断丰富,并跟随各个国家和地区相关法规、伦理思想持续演化。我国人工智能医疗器械标准体系经过3年多的发展,目前已经初具规模,我国药监部门参与国际标准化工作的基础更加坚实。人工智能医疗器械标准化技术归口单位报批的4项行业标准已正式发布,今年起草的2项行业标准正在征求意见;其中,4项为基础标准,2项为方法标准,受到国际电工委员会等标准化组织的关注。

中检院作为人工智能医疗器械标准化技术归口单位的秘书处承担单位和IEEE人工智能医疗器械工作组牵头单位,将在IEEE 2801—2022标准成功发布的鼓舞下,继续组织专家力量,发挥团队优势,加强对外合作,扩大国际共识,争取在人工智能医疗器械标准领域作出更大贡献,为标准的应用落地提供支撑。

相关链接

人工智能器械数据质量标准在探索中建立

当代人工智能医疗器械广泛采用监督学习的技术路线,数据质量对算法模型、产品质量具有重要影响,受到生产企业、监管部门、临床用户等各方重视。数据质量包含多个层面,如数据安全(患者隐私保护、访问控制等)、数据价值(准确性、精度、一致性等)、用户体验(可恢复性、可理解性等)、过程管理(可追溯性等)。同时,数据质量还包含数据标注(结果、过程)质量。与传统医疗器械相比,人工智能医疗器械在研发、生产、验证等环节,需要额外投入大量资源用于数据开发和质控,在数据质量评价、数据质量管理等方面均需要建立标准规范。

ISO 13485、ISO 14971等医疗器械通用质量管理标准开始关注人工智能的独特问题,包括数据在内。2021年,美国食品药品管理局联合英国、加拿大监管部门共同提出良好机器学习规范(GMLP)十大原则,讨论数据集代表性、参考标准、测试集独立性。今年,美国医疗器械促进协会(AAMI)发布共识报告CR 34971,讨论人工智能、机器学习背景下的风险管理。

近年来,我国围绕人工智能医疗器械数据质量开展了大量标准制定工作。除IEEE 2801—2022外,我国行业标准YY/T 1833.2—2022《人工智能医疗器械 质量要求和评价 第2部分:数据集通用要求》、行业标准YY/T 1833.3《人工智能医疗器械 质量要求和评价 第3部分:数据标注通用要求》也分别于今年7月、8月发布。我国相关行业标准从技术层面满足数据集质量评价、数据标注质量评价需求,适合于检查和验收具体数据集、标注任务,有助于为社会各界建立的数据集提供第三方检测认证服务。

在起草相关标准的同时,中检院致力于建设医学人工智能产品全生命周期检测平台,依托开放式数据入库模式,集成数据质控、数据标注、数据集质量评价等功能,配合标准验证与落地。

来源/ 中国医药报

文/中国食品药品检定研究院王浩 李佳戈 李静莉