呼吸道病毒是全球范围内急性呼吸道感染(ARI)的主要病因。为进一步探索呼吸道病毒感染与气候变化存在复杂的联系,准确预测呼吸道病毒的感染风险,助力制定更有效的疾病防控策略,金域医学联合广州呼吸健康研究院副院长杨子峰教授团队,广州医科大学金域检验学院、广东省感染性疾病智能化诊断技术工程研究中心、广州市传染性疾病临床快速诊断与预警重点实验室曾志奇博士结合环境数据与机器学习方法,开发出一种全新的呼吸道病毒感染风险预测模型,为呼吸道病毒的早期预警和防控提供了有力的科学依据。
2月3日,该研究成果《Development of a respiratory virus risk model with environmental data based on interpretable machine learning methods》发表于气候学和大气科学领域国际顶级学术期刊、地球科学领域三大Nature子刊之一《npj Climate and Atmospheric Science》(中科院1区,5年影响因子:9.7)。
基于全国范围内的呼吸道病毒检测数据,结合空气质量、气象数据等多维度环境因素,研究团队成功构建了一个基于链式随机森林分类器(CRFC)的机器学习模型。该模型不仅能够准确预测多种呼吸道病毒的感染风险,还通过SHapley Additive exPlanations(SHAP)框架对模型的预测结果进行解释,揭示了年龄、NO₂浓度、气温等关键因素对呼吸道病毒感染风险的影响。
研究团队收集了2016年至2021年间全国31个省市的呼吸道病毒检测数据,涵盖了多种常见的呼吸道病毒,如流感病毒(IV)、腺病毒(ADV)、呼吸道合胞病毒(RSV)等。同时,结合了空气质量指数(AQI)、气象数据等环境因素,构建了一个全面的数据集。数据集最终包含19161条有效记录,涵盖了空气质量指数(AQI)、气象数据(如气温、风速、湿度等)以及患者的基本信息(如年龄、性别等)。通过CRFC算法,研究团队成功开发出多标签分类模型,能够同时预测多种呼吸道病毒的感染风险。模型的平均准确率达到0.76,平均AUC(曲线下面积)高达0.9,表现出优异的预测性能。不同呼吸道病毒类别分类器性能的比较分析(A) 分类器链的接收者操作特征曲线(ROC曲线)(B) 分类器链的精确率-召回率曲线(PR曲线)
研究团队利用SHAP框架对模型的预测结果进行了解释,揭示了不同环境因素和个体特征对呼吸道病毒感染风险的影响。例如,NO₂浓度、气温和年龄等因素在预测中起到了关键作用。影响呼吸道病毒检测结果的多因素分析.该分析通过可视化展示了不同特征变量对呼吸道病毒检测结果的影响。色带越长,表示该特征变量对预测结果的贡献越大;不同颜色代表不同的病毒类别(如流感病毒、腺病毒、呼吸道合胞病毒等)该模型不仅适用于中国地区的呼吸道病毒风险预测,还具备扩展到其他地区和人群的潜力。通过结合环境数据和个体基本信息,模型可以为临床决策和公共卫生规划提供有力支持。依托金域医学全国范围内呼吸道感染病毒检测大数据以及空气污染物和气象数据,该研究探索空气污染和气象因素对呼吸道病毒的影响机制,为临床医生提供更直观、可信的诊断依据,有望实现对病原体传播趋势和潜在风险的实时精准评估,助力政府持续监测以及了解区域内呼吸道病毒的传播模式和流行病学特征。此前,在杨子峰教授团队的指导下,该呼吸道病毒流行风险预警模型还获得2024年广州市农业和社会发展科技专项项目的支持。金域医学将利用积累的全面、特有的大数据优势,以人工智能技术驱动,在数据挖掘、模型构建等方面重点发力,不断精进模型各项功能,促进气象科学、医学和人工智能的交叉融合,为人类健康的发展作出更大贡献。