第二十届华为杯数学建模竞赛E题思路、实现过程与最终论文

第二十届华为杯数学建模竞赛E题思路、实现过程与最终论文

狮子阿儒 Lv4

​ 第二十届华为杯数学建模竞赛比赛时间是2023年9月22日上午8:00至2023年9月26日12:00,具体日程表如下图:

image-20231214203757846

比赛赛题共有A、B、C、D、E、F共六个赛题,其中主题分别为:

  • A:WLAN网络信道接入机制建模
  • B:DFT类矩阵的整数分解逼近
  • C:大规模创新类竞赛评审方案研究
  • D:区域双碳目标与路径规划研究
  • E:出血性脑卒中临床智能诊疗建模
  • F:强对流降水临近预报

其中A、B为华为专项赛题,A题属于物理物联网问题,B题属于数学矩阵解题,

C题为现实问题解决方案类,D属于地理经济类题,E题属于经典的数据分析类题,F题属于物理类数据分析题

虽然E题数据较多较为复杂,但本质上E题解题思路较为固定,有规律可依,因而我们队伍选择了E题,并且绝大多数队伍也选择了E题

选题人数参考:A题:619B题:558C题:3377D题:5144E题:8200F题:1535

E题完整赛题:

image-20231214214951312

image-20231214215019509

image-20231214215049075

image-20231214215128391

image-20231214215155593

问题一分析:

a问

​ 基于后续检查中患者的血肿体积是否增加 6ml 判断前 100 名患者是否在 48 小时内发生血肿扩张,并记录发生血肿扩张的时间。第一步,筛选原始数据,对数据进行数据预处理,包括对缺失值的补全和对异常值的剔除。第二步,对照各病患的入院流水号,提取各病患的发病到首次影像检查时间间隔和后续影像检查时间间隔所对应的血肿体积,计算其在入院检查到首次随访及后续随访检查中血肿体积的绝对变化量。同时,通过建立关于血肿体积和患者发病时间与随访时间间隔的函数关系式,根据各病患发病到首次影像的时间间隔和后续影像检查时间的间隔,判断血肿体积的绝对变化量在发病 48 小时内是否超过 6ml,若超过,则发生了血肿扩张事件,并记录血肿扩张发生时间。

b问

​ 要求在第a问的基础上,构建预测所有患者是否发生血肿扩张的模型。首先进行数据预处理,利用 Stata 对照患者入院首次影像检查流水号将原始数据进行匹配合并,得到前 100 名患者的个人史、疾病史、发病及治疗相关的临床信息,将患者首次检查的影像信息如血肿和水肿的体积、位置等临床信息作为输入变量,在此基础上,利用因子分析方法将原始变量精简为少数几个综合变量,构建以是否出现血肿扩张情况为目标变量的 CatBoost 预测模型,预测所有患者发生血肿扩张事件的概率。

问题二分析

a问

​ 该题是一个典型的预测问题,要求对患者血肿周围水肿的发生及发展进行模型的建立与求解,首先提取水肿体积和重复检查的时间点等信息,建立多项式函数回归模型构建一条全体患者的血肿周围水肿体积随发病到多次重复影像检查时间段内的进展曲线,利用多项式回归等曲线拟合算法进行数据拟合,并对拟合出的曲线规律进行描述,最后利用 Python 比较真实数据点与拟合值进行数据计算与评估,得到前 100 名患者水肿体积的真实值与拟合曲线之间的残差。

b问

​ 首先用 K-means 算法进行聚类,按年龄特征将患者分成 3 个亚组。在此基础上,利用 XGBoost 回归模型,对原始数据点拟合,将拟合结果可视化。将每组患者的检查时间间隔代入模型中,得到各组患者的水肿体积预测值,用对应时间点水肿体积的真实值与该时间点水肿体积的预测值作差,得到相应时间间隔的残差,最后对所有残差取均值,得到各亚组的残差。

c问

​ 本问所涉及数据表中脑室引流、止血治疗、降颅压治疗、降压治疗、镇静镇痛治疗、止吐护胃、营养神经共 7 种治疗方法。水肿体积进展模式指的是水肿体积的变化量,本问根据首次检查到第八次随访检查的水肿体积值,通过对各次随访检查的水肿体积值与首次检查的水肿体积值作差,得到了不同时间下的八次水肿体积的变化量,用该类数据来来代表水肿体积进展模式,可以比较明显地看出水肿体积的变化,有利于探究治疗方法对水肿体积进展模式的影响。在对数据进行上述预处理以后,本问决定使用独立样本 T 检验来分析不同治疗方法与水肿体积变化量之间的关系,而在做独立样本 T 检验之前,需要确定样本数据是否符合正态分布,是否通过方差齐性检验。

d问

​ 利用斯皮尔曼相关系数模型来分析患者血肿体积、水肿体积和治疗方法相关的 25 个特征之间的相关性,根据相关系数表和相关系数热力分布情况描述以上特征和指标之间的相关关系,期望筛选出影响出血性脑卒中患者的血肿体积扩张和水肿发生发展的显著性因素,为临床治疗提出合理建议。

问题三分析

a问

​ 该题是一个预测问题,要求对患者 90 天 mRS 评分进行模型的建立与求解,首先提取患者个人史、疾病史、发病相关及首次影像等信息,建立 Catboost 回归模型。通过 CatBoost 算法模型构建以前 100 名患者的个人史,疾病史,发病及治疗相关特征及首次影像检查结果为变量,以 90 天 mRS 评分为输出的预测模型,以输出结果作为 90 天mRS 评分结果的预测模型。

b问

​ 该题与问题 3.a 的思路类似,区别在于该题用到的影像数据是首次加八次随访影像记录的数据。通过因子分析将数据中合并的 103 个变量降维为 7 个因子。本题中的目标函数是判断 90 天 mRS 评分,输入特征为 1-100 名患者的个人史、发病史、发病及治疗相关等临床信息指标,通过 LightGBM 多分类模型构建以前 100 名患者的个人史,疾病史,发病及治疗相关特征及首次加随访影像检查结果为变量,以 90 天 mRS 评分为输出的预测模型,以输出结果作为评分结果。

c问

​ 该题为分析多个特征间的关联关系,选择灰色关联分析作为本题的解决方法。在对数据做灰色关联分析时,应注意数据间是否存在较大的差异。首先做数据标准化处理,以确保不同因素之间具有相同的尺度。然后利用 PCA 进行数据降维,有效地减少数据的维度,同时保留数据中的重要信息。经过降维后,数据表最终只保留了 90 天 mRS评分、PCA_个人史、PCA_疾病史、PCA_治疗方法、PCA_HM 灰度、PCA_HM 形状、PCA_HM位置、HM_volume、ED_volume 共 9 特征,最后进行灰色关联分析。

赛题文件:二十届华为杯数学建模赛题.zip

程序文件:pycode.zip

答案文件:答案文件.zip

  • 标题: 第二十届华为杯数学建模竞赛E题思路、实现过程与最终论文
  • 作者: 狮子阿儒
  • 创建于 : 2023-12-14 20:32:30
  • 更新于 : 2024-03-03 21:37:06
  • 链接: https://c200108.github.io/blog/2023/12/14/第二十届华为杯数学建模竞赛E题思路、实现过程与最终论文/
  • 版权声明: 本文章采用 CC BY-NC-SA 4.0 进行许可。
评论