应用数学论文

您当前的位置:学术堂 > 数学论文 > 应用数学论文 >

从聚类分析的角度探索新型冠状病毒肺炎的发展阶段

来源:宁德师范学院学报(自然科学版) 作者:陈本晶
发布于:2021-02-08 共6754字

  摘要:搜集从2020年1月20日到3月14日共55 d我国境内“新型冠状病毒肺炎”(简称“新冠肺炎”)累计确诊病例,现有疑似病例,累计治愈出院病例,累计死亡病例数据,使用SPSS22.0进行k平均值聚类分析;对中国34个省区市的累计确诊病例变量进行系统聚类分析.从聚类结果来看,我国疫情经历了集中暴发期、高峰期、缓解期3个阶段;从各省区市聚类的最终归属类别来看,各地疫情情况与接触重点疫区人员密切程度,地域关系呈显着正相关,充分说明控制传染源,切断传播途径的重要性.

  关键词:新冠肺炎; k平均值聚类分析; 系统聚类分析; 正相关; 疫情分析;

  Clustering analysis of novel coronavirus pneumonia confirmed cases

  CHEN Ben-jing

  Guangdong Vocational College of Environmental Protection Engineering

  Abstract:Corona virus disease 19(COVID-19) cases in China were collected during the 55 days from January 20, 2020 to March 14, 2020, including cumulative confirmed cases, existing suspected cases,cumulative cured and discharged cases, and cumulative dead cases. k-means clustering analysis was carried out by SPSS22.0, and a systematic clustering analysis was made on the cumulative confirmed case variables in 34 provinces in China. The epidemic situation has experienced three stages: concentrated outbreak period,peak period and remission period. According to the final classification of clustering in each provincial administrative region, the epidemic situation in each region is closely related to the personnel in contact with the key epidemic areas, and the regional relationship is significantly positive, which fully shows the importance of controlling the source of infection and cutting off the transmission path.

  2019年12月,湖北省武汉市发现不明原因肺炎,后来确定为“新型冠状病毒肺炎”(COVID-19),随后疫情在全国范围内暴发,截至2020年3月21日24时,全国31个省(自治区、直辖市)和新疆生产建设兵团(不包含港澳台)累计确诊病例81 054例,累计治愈出院病例72 244例,累积死亡病例3 261例,现有确诊病例5 549例.新增报告境外输入确诊病例45例,累计报告境外输入确诊病例314例,湖北已经连续2日新增确诊病例为0[1],国内疫情得到有效控制.然而此时,国外疫情正在井喷暴发,来自世界卫生组织报告,截至2020年3月21日,国外累计确诊已达191 614例,新增确诊20 065例.疫情发生以来,中国政府采用控制传染源,切断传播途径的指导方针对疫情的判断、决策、控制起了关键作用.中国政府应对疫情的探索和经验,给国外的疫情防控工作提供了十分宝贵的经验.

  1 问题的提出

  从2019年12月新冠肺炎疫情发生以来,专家学者们利用新冠肺炎的资料在临床医学、流行病学和疫情防控管理等方面,得到了许多科研成果,例如《新型冠状病毒肺炎诊疗方案(试行第六版)》中指出经呼吸道飞沫和密切接触传播是新冠肺炎的主要传播途径,人群普遍易感[2];基于SEIR模型分析相关干预措施在新冠肺炎疫情中的作用[3];全国各地城市(除武汉外)71%的感染病例和从武汉输出的人口相关[4]等.新冠肺炎在多个领域的研究为临床应用、公共卫生防控和政策决策等提供了重要依据,充分展示了科学研究对疫情防控的重要意义.本文从聚类分析的角度探索我国疫情的发展阶段,各地疫情与接触重点疫区人员密切程度,重点疫区区域的关系.

  2 聚类分析的原理和方法

  将认识对象进行分类是人类认识世界的一种重要方法,聚类分析是统计学研究中“物以类聚”问题的多元统计分析方法,是对样本或变量进行定量分析的一种统计方法,目的是根据事物本身的特性将相似的事物进行归类.被归为一类的事物具有较高的相似性,而不同类间的事物有着较大的差异.根据分类过程的不同,可以分为快速聚类、系统聚类和两步聚类3种方法[5].对样本进行分类为Q型聚类分析,对指标进行分类为R型聚类分析.SPSS快速聚类利用k平均值分类法对样本进行分类且只可以实现对样本进行Q型聚类分析,系统聚类可以实现对样本进行Q型聚类分析和对变量进行R型聚类分析.

  3 国内新冠肺炎疫情的聚类分析

  3.1 数据指标选取

  本文选取新冠肺炎累计确诊病例,现有疑似病例,累计治愈出院病例,累计死亡病例,新增确诊病例,现有确诊病例,新增治愈出院病例作为数据指标进行分析.

  3.2 数据来源与处理

  本文引用的全国每天累计确诊病例、现有疑似病例、累计治愈出院病例、累计死亡病例数据来源于国家卫健委官方网站(http://www.nhc.gov.cn),经过狗熊会成员人工整理可以在其网站(http://www.xiong99.com.cn)下载,其中国家卫健委未公布1月21日现有疑似病例数据,本文根据前后2日现有疑似病例数据采用求算术平均值的方法计算得出缺失数据.中国34个省区市的累计确诊病例数据来自国家及各地卫健委官方网站,和鲸社区(http://h-s.www.kesci.com)专业数据分析人员从腾讯新闻网网络爬虫收集整理而得.经过笔者核实,数据权威有效,准确率在95%以上,笔者在校正和补充部分数据后采用.

  3.3 聚类结果与讨论

  3.3.1 对全国疫情按发展阶段进行k平均值聚类分析

  使用SPSS22.0对从2020年1月20日到3月14日共55 d中国累计确诊病例,现有疑似病例,累计治愈出院病例,累计死亡病例四个变量进行k平均值聚类分析[5].取k=3,将55天中国新冠肺炎疫情划分为3个阶段:集中暴发期、高峰期、缓解期.

  由表1可以看出:四个变量的聚类均方值都远远大于误差均方值,并且显着性水平均小于0.05,说明拒绝四个变量使各类之间无差异的假设,表明参与聚类分析的4个变量能够良好地区分各类,类间的差异足够大.

  表1 方差分析     

  

  由表2、表3可以看出三个阶段分别为:

  第1阶段:2020年1月20日—2月11日,为疫情集中暴发期,第1类的聚类中心为(16 633,14 363,983,368).其中,1月25日到1月30日每日新增确诊1 000~2 000例,1月31日到2月11每日新增确诊2 000~3 000例.现有疑似病例也和每日新增确诊病例一样快速增加,2月8日达到最大值(28 942例)[1],之后每日新增病例大幅下降.累计治愈出院和累计死亡病例在这阶段还较少.由于疫情初期对新冠肺炎的高度传染性认识不够,导致很多人被感染,加上春节的到来,全国人民开始一年一度的春运“大迁徙”,疫情迅速从湖北扩散到全国各地,防控工作面临严峻挑战.疫情早期武汉医疗资源供应严重不足,很多确诊和疑似病例无法顺利就医,供需矛盾突出.1月23日,武汉封城,1月29日,全国31个省区市(不包括港澳台)全部启动重大突发公共卫生事件一级响应.广大人民群众众志成城、在家严防死守,打响了疫情防控阻击战,全国形成了全面动员、全面部署、全面加强疫情防控工作的局面[6].

  第2阶段:2020年2月12日—2月26日,为疫情高峰期,第2类的聚类中心为(72 358,6 016,17 346,2 095).2月12日,按照《新型冠状病毒肺炎诊疗方案(试行第五版修正版)》,湖北省增加了“临床诊断病例”分类,对疑似病例具有肺炎影像学特征者,确定为临床诊断病例,以便患者能及早按照确诊病例相关要求接受规范治疗,进一步提高救治成功率.湖北省报告的13 332例临床诊断病例纳入确诊病例统计[1].与第1类聚类中心相比,累计确诊病例、累计治愈出院病例大幅增加,现有疑似病例大幅降低.现有确诊病例在这阶段是最多的,为4万~6万例,2月17日达到最大值(58 016例)[1].从2月16日以后,新增治愈出院病例每日2 000例以上.累计死亡人数占累计确诊人数的比例低于5%.武汉和湖北是疫情防控的重中之重,是打赢疫情防控阻击战的决胜之地.武汉胜则湖北胜,湖北胜则全国胜.党中央举全国之力予以支援,组织各省区市和军队,调派三百多支医疗队、四万多名医护人员驰援,10 d建成的火神山医院、18 d建成的雷神山医院也在这时投入使用.优先保障武汉和湖北的医用物资,并组织19个省份对口支援湖北(除武汉外)的16个市州[7].春节已过,针对节后人员大范围流动可能带来的疫情扩散风险,全国大部分企业、机关事业单位灵活复工,错峰上班,在健康监测、人员管理等方面采取了严格措施.学校全部延迟开学.

  第3阶段:2020年2月27日—3月14日,为疫情缓解期,第3类的聚类中心为(80 364,591,53 873,3 041),与第2类聚类中心比较,每日新增确诊数量迅速下降,全国除武汉市外,其余大部分省市新增确诊病例已实现零增长或个位数增长.3月1日之后全国每日新增确诊低于200例,3月8日之后全国每日新增确诊低于30例,现有疑似病例大幅下降,累计治愈出院病例大幅增加,截至3月14日24时,现有确诊病例10 734例,累计治愈出院66 911例[1],累计治愈出院病例占累计确诊病例的比例达到82.76%.治愈出院率除湖北省为80%以外,其余各省为均在95%以上,治疗效果良好.疫情拐点出现,武汉和湖北疫情防控形势发生积极向好变化,取得阶段性重要成果,初步实现了稳定局势、扭转局面的目标.但是武汉和湖北疫情防控任务依然艰巨繁重,要继续把疫情防控作为当前头等大事,离疫情结束还有很长一段时间.大部分企业已经有序复工复产,但是所有学校仍然延迟开学,全国小学、中学、大学利用网络教学平台上课,采用“停课不停教,停课不停学”的在线模式教学.

  表2 每个聚类中的个案数量     

 

  表3 最终聚类中心   

 

  3.3.2 对中国疫情按省区市进行系统聚类分析

  由于累计确诊病例、累计治愈出院病例、累计死亡病例三个变量具有高度正相关性,见表4.因此仅使用全国34个省区市的累计确诊病例,对2020年1月20日—3月14日共55 d的数据进行R型系统聚类[5],取k=2、3、4、5,表5得到聚类个数为2~5的各个案的最终归属类别.

  表4 相关系数矩阵     

 

  注:**表示相关性在0.01上显着(双尾).

  表5 各聚类组员     

 

  由表5可得,k=2时,分类如下:湖北自成一类,其余各省、自治区、直辖市、港澳台为一类.

  k=3时,分类如下:(安徽、广东、河南、湖南、江西、浙江),(北京、福建、甘肃、广西、贵州、海南、河北、黑龙江、吉林、江苏、辽宁、内蒙古、宁夏、青海、山东、山西、陕西、上海、四川、天津、新疆、云南、重庆、西藏、澳门、台湾、香港),(湖北).

  k=4时,分类如下:(安徽、广东、河南、湖南、江西、浙江),(北京、福建、甘肃、广西、贵州、海南、河北、黑龙江、吉林、辽宁、内蒙古、宁夏、青海、山西、陕西、上海、天津、新疆、云南、西藏、澳门、台湾、香港),(湖北),(江苏、山东、四川、重庆).

  k=5时,分类如下:(安徽、湖南、江西),(北京、福建、甘肃、广西、贵州、海南、河北、黑龙江、吉林、辽宁、内蒙古、宁夏、青海、山西、陕西、上海、天津、新疆、云南、西藏、澳门、台湾、香港),(广东、河南、浙江),(湖北),(江苏、山东、四川、重庆).

  从聚类分析结果来看,首先,湖北省是全国疫情防控的重中之重,聚类不管分成几类,湖北都自成一类.湖北疫情看武汉,武汉是决胜之地的主战场,湖北省其他市州也是决胜之地的重要战场.截至2020年3月14日,湖北的累积确诊病例占全国的83.9%,武汉的累积确诊病例占全国的61.8%.只有集中力量把重点地区的疫情控制住,才能从根本上扭转全国疫情的局面.由百度地图所得数据[8]:在武汉下达封城的1月23日前后,有500万人离开武汉,高于2019年同时期的离开人口.由于在1月23日出了封城令后,高速公路并没有关闭,导致更多的人选择了高速公路离开武汉,可以推断出封城令导致一部分人恐慌,导致更多的人选择离开了武汉,这对疫情的控制很不利.百度地图数据显示,武汉封城后,76.57%的人迁出武汉的人选择了湖北省内,其中,31%的人去了孝感市和黄冈市,5.32%的人去了河南,3.07%的人去了湖南.分析湖北省确诊病例的市州,可以发现,武汉与周边的孝感、黄冈、荆州、咸宁、襄阳、随州、荆门、鄂州等城市,构成了武汉都市圈,人员流动十分频繁,这些城市都成为了疫情重灾区.其中,孝感累积确诊病例3 518人,黄冈累积确诊病例2 907人,武汉、孝感、黄冈累积确诊病例排名全国前三.由此可以推断出,离开武汉的人带着肺炎病毒进入了新的城市,导致了新城市被感染.在离开武汉去了河南省和湖南省后,河南省和湖南省也成为了患者较多的省份.其次,广东、河南、浙江三省累积确诊病例都超过1 200例,这是因为广东珠三角、浙江温州和湖北的人员流动较为频繁,在广东工作的湖北籍人员有300万之多,温州有20万人在武汉从事商贸工作,而河南和湖北相邻,河南是劳务输出大省,在武汉工作的河南籍人员也很多.安徽、湖南、江西的累积确诊病例仅次于广东、河南、浙江,三省累积确诊病例均超过900例,这是因为此三省和湖北地理位置相邻,但是彼此的贸易往来,人员流动不如广东、浙江、河南活跃,因此累积确诊病例比广东、河南、浙江少.江苏、山东、四川、重庆四地累积确诊病例也较多,各约600例,这是因为江苏经济发达,是劳务输入大省,和湖北虽然不相邻但是距离较近.而重庆和湖北接壤,很多从华东地区开往重庆、四川的高铁、火车都要从湖北经过,因此重庆、四川的疫情也较为严重,但是因为湖北各地封城,重庆距离武汉较远,所以疫情还不算严重.山东距离湖北较远,但是山东因为一个监狱感染新冠肺炎病毒就确诊207例而使得山东的累计确诊病例也较多.北京、福建、甘肃、广西、贵州、海南、河北、黑龙江、吉林、辽宁、内蒙古、宁夏、青海、山西、陕西、上海、天津、新疆、云南、西藏、澳门、台湾、香港等地疫情较轻,各地累积确诊病例低于400例,累积确诊病例最少的西藏仅1例,大部分省份累积确诊病例在几十例到一百多例.这是因为这些省份距离湖北较远,很多省份和湖北的贸易往来、人员流动没有那么频繁,而北京、上海这两个国际大都市人员流动大,累计确诊病例较少应该归功于北京市、上海市政府对疫情的高效有序管理,有效阻止了疫情的大规模蔓延.香港、澳门、台湾因为离湖北较远,人员往来还要办理通行证,人员流动少,所以疫情也较轻微.

  聚类分析的结果表明,各地疫情情况与和湖北的人员往来密切程度、地域关系呈显着正相关,这充分说明控制传染源、切断传播途径的重要性.中国政府把人民群众生命安全和身体健康放在第一位,坚决遏制疫情蔓延势头[6].一方面中国政府调动全国人民的力量投入疫情防控,严防死守;另一方面为了防止疫情迅速蔓延,湖北省内下辖至少18个市(县、区)宣布采取封城措施,这从源头上控制了疫情的扩散.

  4 结语

  全国疫情防控形势持续向好,生产生活秩序加快恢复的态势不断巩固和拓展[9].目前新冠疫情在全球蔓延开来,国际疫情带来的输入性风险增加.国内外疫情形势具有复杂性和严峻性,要毫不松懈各项防控工作,决不能让来之不易的疫情防控持续向好形势发生逆转.完善和加强防控,严格落实早发现、早报告、早隔离、早治疗措施,加强疫情监测,集中救治患者,防止疫情向外扩散.落实人员流入地和流出地的防控责任.中国构建起的全方位多层次的疫情防控体系,最大程度遏制疫情蔓延,值得各国借鉴.加强疫情防控国际合作,同世界卫生组织紧密合作,加强同有关国家在疫情防控上的交流合作,继续提供力所能及的帮助.中国秉持人类命运共同体理念,既是对本国人民生命安全和身体健康负责,也是对全球公共卫生事业尽责,展现出负责任大国的担当.全球战“疫”中,中国向世界传递信心和力量,共筑扞卫生命安全的防疫之墙.

  参考文献

  [1] 中华人民共和国国家卫生健康委员会.新型冠状病毒肺炎疫情防控疫情通报[EB/OL].(2020-03-14)[2020-03-25].http://www.nhc.gov.cn.forest.naihes.cn/.

  [2]国家卫生健康委员会.《新型冠状病毒肺炎诊疗方案(试行第六版)》解读[J].中国医刊, 2020, 55(3):347-348.

  [3]曹盛力,冯沛华,时朋朋.修正SEIR传染病动力学模型应用于湖北省2019冠状病毒病(COVID-19)疫情预测和评估[J].浙江大学学报(医学版), 2020, 49(2):178-184.

  [4]赵序茅,李欣海,聂常虹.基于大数据回溯新冠肺炎的扩散趋势及中国对疫情的控制研究[J].中国科学院院刊, 2020,35(3):248-255.

  [5]李昕,张明明. SPSS22.0统计分析[M].北京:电子工业出版社, 2015:258-264.

  [6] 习近平.习近平在中央政治局常委会会议研究应对新型冠状病毒肺炎疫情工作时的讲话[EB/OL].(2020-02-03)[2020-03-25]. http://www.12371.cn.forest.naihes.cn/2020/02/15/ARTI1581751297199694.shtml.

  [7] 习近平.习近平在统筹推进新冠肺炎疫情防控和经济社会发展工作部署会议上的讲话[EB/OL].(2020-02-03)[2020-03-25]. http://www.12371.cn.forest.naihes.cn/2020/02/23/ARTI1582469087910876.shtml.

  [8] 佚名.对疫情的一点数据分析[EB/OL].(2020-02-05)[2020-03-25]. http://h-s.www.zhihu.com.forest.naihes.cn/people/purity.

  [9] 中共中央政治局常务委员会.分析国内外新冠肺炎疫情防控和经济形势研究部署统筹抓好疫情防控和经济社会发展重点工作中共中央总书记习近平主持会议[EB/OL].(2020-03-18)[2020-03-25]. http://www.12371.cn.forest.naihes.cn/2020/03/18/ARTI1584529483471705.shtml.

作者单位:广东环境保护工程职业学院
原文出处:陈本晶.新型冠状病毒肺炎确诊病例的数据聚类分析[J].宁德师范学院学报(自然科学版),2020,32(04):346-351.
相关内容推荐
相关标签:聚类分析论文
返回:应用数学论文