随着真实世界研究(real-world study,RWS)的提出和实践,一系列使用中医临床诊疗数据开展研究并指导临床实践的方法逐步形成,推动了中医临床研究方法学的发展。同时,ChatGPT和GPT-4等人工智能(artificial intelligence,AI)技术的问世,让更多学者关注到基于大数据的人工智能技术对医疗行业的影响。

中医学是通过大量临床实践传承和发展的学科,医家学者不断总结名老中医临床诊疗经验,逐渐形成自身的学术观点、核心处方和用药特点,并在实践中进一步完善和创新,这种基于“定性”的传承和发展模式是目前的主流模式。

随着研究方法的进步、AI技术的成熟以及多种测量工具的出现,以采集中医临床诊疗数据,建立研究型数据库,开展真实世界和人工智能研究,最终指导临床实践的“定量”研究方法将逐步形成,但相关方法学仍不完善,主要体现在缺少研究总体设计和临床转化方法等方面。

针对这一问题,有研究者提出了基于中医临床诊疗数据的真实世界及人工智能研究,并将研究的总体设计思路及应用方法与大家交流分享。

点击观看视频讲解

设计思路及应用方法

建设高质量大样本的研究型数据库

数据库需基于研究目的、疾病特点进行针对性设计,如中医数据库通常需要包含患者的舌脉数据。

数据库的高质量体现在数据的完整性、准确性、透明性,并在数据治理的各个环节开展质量控制。数据缺失难以避免,但可通过数据溯源、研究人员培训、患者关怀等方式,按时定期随访,尽可能减少缺失;对于无法避免的缺失可通过统计方法填补。每一数据都应有可靠的来源,能够客观准确地记录患者的真实情况,不应使用随意复制的数据,或未经测量随意填写的数据。研究过程中应保留原始数据,数据采集、核查和清洗过程记录,以及衍生变量的计算方法等。

数据库的样本量应满足多种RWS统计分析及人工智能算法的需要。不同类型的RWS都有各自的样本量计算公式,同时还需考虑限制、匹配等方法引起的样本量减少,以及多因素分析的样本量要求。深度学习算法同样存在样本量要求,如神经网络算法的样本量不少于输入层变量数量的200倍,且样本量越大,模型越稳定。

挖掘及分类核心处方

真实世界环境中,不同中药处方的药物组成存在差异,为后续研究带来困难,因此需对核心处方进行挖掘和分类。核心处方的挖掘推荐采用混合研究方法。首先,通过无监督学习算法探索处方用药规律,初步挖掘核心处方。随后,根据挖掘结果,结合专家访谈、问卷调查、临证经验梳理等定性研究,明确数据库中的多个核心处方。通常情况下,同一疾病的核心处方可能多达数十个。最后,通过相似度匹配算法对真实世界核心处方进行分类,以“类方”的形式开展进一步研究。

队列研究评价核心处方疗效

队列研究是RWS中较常见的研究类型,主要用于评价临床疗效和检验病因假设。其根据研究对象是否暴露于某个待研究的危险因素分组,通过对比各组结局的发生,推断暴露因素(治疗措施)与疾病(结局)之间的因果关系。作为随机对照试验(RCT)的补充,队列研究契合中医学“先临床后研究”的特点,可以使用治理后的临床诊疗数据,快速对多种不同治疗措施进行疗效评价。

需注意的是,混杂因素和偏倚始终是队列研究不可忽视的局限性。虽然在研究设计、数据管理、统计分析的各个阶段都会对偏倚和混杂进行控制,但偏倚和混杂始终无法避免。通常情况下队列研究更适用于多种中医药治疗措施的初步评价,从大量的核心处方、中成药中快速筛选出可能有效的治疗措施。在明确各治疗措施的优势人群特征后,仍需要通过RCT进一步评价确切疗效。

病例对照研究明确优势人群

2012年,刘建平教授与Vinjar F教授提出了中医最佳-最差病例的研究思路,并逐渐发展成为优势人群特征分析。该方法本质上属于病例对照研究,根据接受指定治疗措施后是否发生某个结局,将患者分为优势组和劣势组,通过对比明确使用该治疗措施有效的人群特征。有学者通过病例对照研究,发现结直肠癌患者的中医优势人群特征为血瘀质体质的患者,劣势人群特征为阳虚质体质或肝脾不和证的患者。优势人群特征分析将成为指导临床实践及精准医疗的重要研究方法之一。基于优势人群特征分析结果,可为RCT提供更加精准的研究对象筛选标准,弥补以往中医RCT中因辨证不准确可能引起的低估药物真实疗效的问题。

建立预测模型实现精准医疗

随着精准医学发展,基于临床诊疗数据预测治疗措施疗效的预测模型被提出,如反事实预测模型。该模型是预后模型的一种,其要点是部分预测因子是未发生的事件,即反事实事件。这类预测模型可基于中医理论构建,通过预测及对比患者在不同用药方案后的预后情况,推荐最适宜的用药方案,为临床精准用药提供参考。

随着人工智能技术的发展,预测能力更强、可处理复杂网络及多维数据的模型及算法逐渐被创造及应用。但无论哪种模型或算法被应用到中医临床诊疗中,都应遵循中医理论框架,符合中医临床思维。例如,将患者主观感受、舌脉等中医诊疗信息纳入模型,实现结果的可解释性。此外,在建立模型后,除了使用验证集对模型开展评价,还需进一步开展临床研究对模型进行有效性、安全性及可靠性评价。

研究中的挑战及对策

中医变量的采集及数据处理

中医变量是在中医药理论指导下,可以反映中医学症状、体征及内在变化规律等特征的变量,如中医体质、舌脉、面色、主观感受等。其中,部分中医变量既可以影响中医医生治疗用药的选择,又会影响患者的转归结局,且不是因果链上的中间变量,这些中医变量在RWS中属于混杂因素,在人工智能研究中属于预测因子。多数已发表的中医RWS仅选择患者生命体征、西药使用情况和实验室检查等西医变量作为混杂因素,通常缺少中医变量的应用;部分研究虽然使用了中医变量,但不同研究间对中医变量的采集和数据处理方法存在差异。

有研究者提出的中医主观表型组学体系,可通过小程序采集患者的432个生理特征、320个心理特征和267个生活习惯特征数据,初步实现对人体主观感受的采集。有研究使用智能化设备采集患者舌诊、面诊图像,并通过红绿蓝(RGB)、色调-饱和度-亮度(HSV)、亮度-a-b通道(Lab)等不同颜色模型进行数据处理和图像显示,实现了舌像、面像信息的量化测量。对于脉诊数据,有研究通过压力感受器绘制脉图,并基于主波幅度(h1)、主波上1/3处的宽度(w)、脉搏周期(t)、脉搏周期面积(s)等变量处理数据,初步实现脉诊信息的量化。

目前中医变量的采集和数据处理方法仍处于探索阶段,尚缺少公认的标准,未来需基于临床实践验证其实用性及可靠性并予以完善,逐步建立中医变量的标准化采集和数据处理体系。

混杂因素的确定及测量

中医RWS往往需要先建立因果推断模型证明其确切疗效,而混杂因素对疗效的因果推断有着较大的干扰,是观察性疗效比较研究中不可忽视的重要变量。

倾向性评分、疾病风险评分法等统计学方法常被用于控制混杂,然而确定并选择混杂因素同样重要。在观察不同中医治疗措施治疗相同疾病的疗效比较研究中,混杂因素理论上应该是一致的,但不同研究选择的混杂因素通常存在较大差异。

因此,我们可借鉴核心结局指标集的研究思路,根据不同疾病特点,通过文献检索、专家访谈、专家共识等方法,明确影响各个疾病疗效的主要混杂因素,形成“核心混杂因素集”,并使用有向无环图(DAG)客观反映各混杂因素的关系,以便于研究人员在相关疾病的队列研究中参考和使用。

此外,还有不少已知但尚无测量方法的混杂因素,例如患者管理策略、护理水平、医生操作手法、医生是否对患者进行心理疏导等,以及部分未知混杂因素,均会影响最终的疗效。已有学者针对这一问题开展探索,如使用E值评估未知混杂大小。未来可进一步设计针对性的测量工具,形成标准化的测量方法,并在RWS中探索和应用。

方法学的完善及推广

目前,中医领域真实世界及人工智能研究的方法学仍不够完善,且推广力度不足。例如,在部分发表的队列研究中,未考虑混杂因素对结局的影响,或未使用正确的统计分析方法对混杂因素进行控制和处理。建议相关部门加强对中医真实世界及人工智能方法学研究的资助力度,实行鼓励中文方法学论文发表的政策,增加专业的培训机构和公开课的数量,以及鼓励开发临床研究辅助软件,降低方法学学习成本。

跨学科人才的培养

真实世界及人工智能研究涉及的学科较多,包括中医类临床医学、循证医学、流行病学、信息学及统计学等。为提高研究质量,推动成果临床转化,需要一批既熟悉中医临床思维、了解中医诊疗现状,又掌握多种研究方法技术的跨学科人才。建议在开展相关研究的同时,注重对青年人才的培养,建立完善的跨学科人才培养机制,设立跨学科人才培养基金,为未来的研究工作做好人才储备。