
第四届华数杯数学建模竞赛C题思路、过程实现与最终论文
这次第四届华数杯比赛时间是2023年8月3日(周四)18:00至8月6日(周日)20:00,比赛组别共分为研究生组、本科生组和专科生组,这次竞赛题目分为A、B、C三个题目,主题分别为:
- A 题 隔热材料的结构优化控制研究
- B 题 不透明制品最优配色方案设计
- C 题 母亲身心健康对婴儿成长的影响
其中A题属于物理材料热传导类,B题属于物理光学调色类,C题属于社科母婴身心健康类。
从难度上来看,A题>B题>C题,从问题数量来看,C题>B题>A题。
本次比赛,我们小组选择的是C题。
C题 母亲身心健康对婴儿成长的影响
母亲是婴儿生命中最重要的人之一,她不仅为婴儿提供营养物质和身体保护,还为婴儿提供情感支持和安全感。母亲心理健康状态的不良状况,如抑郁、焦虑、压力等,可能会对婴儿的认知、情感、社会行为等方面产生负面影响。压力过大的母亲可能会对婴儿的生理和心理发展产生负面影响,例如影响其睡眠等方面。
附件给出了包括 390名 3 至 12 个月婴儿以及其母亲的相关数据。这些数据涵盖各种主题,母亲的身体指标包括年龄、婚姻状况、教育程度、妊娠时间、分娩方式,以及产妇心理指标CBTS(分娩相关创伤后应激障碍问卷)、EPDS(爱丁堡产后抑郁量表)、HADS(医院焦虑抑郁量表)和婴儿睡眠质量指标包括整晚睡眠时间、睡醒次数和入睡方式。
请查阅相关文献,了解专业背景,根据题目数据建立数学模型,回答下列问题。
许多研究表明,母亲的身体指标和心理指标对婴儿的行为特征和睡眠质量有影响,请问是否存在这样的规律,根据附件中的数据对此进行研究。
婴儿行为问卷是一个用于评估婴儿行为特征的量表,其中包含了一些关于婴儿情绪和反应的问题。我们将婴儿的行为特征分为三种类型:安静型、中等型、矛盾型。请你建立婴儿的行为特征与母亲的身体指标与心理指标的关系模型。数据表中最后有20组(编号391-410号)婴儿的行为特征信息被删除,请你判断他们是属于什么类型。
对母亲焦虑的干预有助于提高母亲的心理健康水平,还可以改善母婴交互质量,促进婴儿的认知、情感和社交发展。CBTS、EPDS、HADS的治疗费用相对于患病程度的变化率均与治疗费用呈正比,经调研,给出了两个分数对应的治疗费用,详见表1。现有一个行为特征为矛盾型的婴儿,编号为238。请你建立模型,分析最少需要花费多少治疗费用,能够使婴儿的行为特征从矛盾型变为中等型?若要使其行为特征变为安静型,治疗方案需要如何调整?

婴儿的睡眠质量指标包含整晚睡眠时间、睡醒次数、入睡方式。请你对婴儿的睡眠质量进行优、良、中、差四分类综合评判,并建立婴儿综合睡眠质量与母亲的身体指标、心理指标的关联模型,预测最后20组(编号391-410号)婴儿的综合睡眠质量。
在问题三的基础上,若需要让238号婴儿的睡眠质量评级为优,请问问题三的治疗策略是否需要调整?如何调整?
上述是华数杯数学建模竞赛原题及附件,一共五个问题,
问题一分析
由于已经指出母亲的身体指标和心理指标对婴儿的行为特征和睡眠质量有影响,需要我们所做的工作便是证明确实存在影响。
该问是研究自变量与因变量之间是否存在一定规律性的关系,通过给出的数据进行判断。
探究多个特征之间是否存在规律,这种问题可以采用相关性分析。
相关性分析是指对两个或多个具备相关性的变量元素进行分析,从而衡量两个变量因素的相关密切程度。相关性的元素之间需要存在一定的联系或者概率才可以进行相关性分析。
常用的相关性分析方法有:
- 皮尔逊相关(Pearson correlation)
- 斯皮尔曼相关(Spearman correlation)
在做相关性分析之前,首先要对数据预处理,像缺失值处理,异常值处理,数据编码等。
问题二分析
主要任务为建立关系模型(分类模型),并根据所建立的模型预测表中数据。
该问一共包含两个小问题:建立关系模型与预测后20组婴儿行为特征。
母亲的身体指标与心理指标包含多个特征,属于多变量,婴儿的行为特征属于单个变量。
而且行为特征属于离散型变量,不连续,因而模型采用分类模型
观察数据表中的母亲身体指标与心理指标可以看出,
身体指标包含了年龄、婚姻状况、教育程度、妊娠时间和分娩方式。
年龄为连续型变量
婚姻状况为离散型变量
教育程度为离散型变量
妊娠时间为连续型变量
分娩方式为离散型变量
心理指标包含了CBTS、EPDS和HADS三个特征
- CBTS为连续型变量
- EPDS为连续型变量
- HADS为连续型变量
该题数据表中已对婚姻状况、教育程度和分娩方式做了标签编码,
婴儿行为特征可以采用标签编码,将安静型、中等型、矛盾型分别编码为1、2、3。
分类模型种类较多,有决策树分类、随机森林分类、AdaBoost分类、GBDT分类、KNN分类、BP神经网络分类、SVM分类、XGBoost分类、朴素贝叶斯分类、逻辑回归。
根据所给数据的特点,选择合适的分类模型,将数据预处理为模型所需的格式,代入模型中训练。
本问我们选择了AdaBoost模型,建立了基于AdaBoost 集成学习算法的三分类模型。在数据划分过程中训练集与测试集比例在 0.7,随机种子设置为 2225,在创建 AdaBoost 分类器过程中,设置决策树最大深度为 4,弱分类器个数设置为 67,学习率设置为 1.0,随机种子设置为 42,模型准确率最高,为64.1%
在对模型做5折交叉验证后,得到平均准确率55.64%
混淆矩阵图见论文P22
由于所给数据的特征间关联性不是特别强,因而所得结果不是特别准确。除此之外随机森林、GBDT、KNN分类模型也都能用于解决本问。
问题三分析
主要任务为建立模型(优化模型),根据模型计算最优结果。
该问一共需要解决三个小问题:建立模型、计算最少费用以及调整治疗方案。
使用最小二乘法求解婴儿特征与母亲身心健康指标的函数关系,建立婴儿行为特征与年龄、心理指标的多元回归模型。
计算各个变量的回归系数,并根据回归系数构建婴儿行为特征与年龄、心理指标的函数关系式w,形如y = kx+b
将函数表达式w作为线性规划的目标函数,约束条件有:
- CBTS线性函数表达式y
1,形如y1= kx1+b - EPDS线性函数表达式y
2,形如y2= kx2+b - HADS线性函数表达式y
3,形如y3= kx3+b - 目标函数中因变量 婴儿行为特征 y 取值范围
- 决策变量 **x
母亲年龄**的取值范围 - 决策变量 CBTS、EPDS、HADS治疗后的现有值x
CBTS,xEPDS,xHADS与治疗值x1,x2,x3**的关系
问题四分析
主要任务为综合评判,建立关联模型,并预测结果。
该问一共需要解决三个小问题:对婴儿睡眠质量做综合评判;建立婴儿综合睡眠质量与母亲的身体指标、心理指标的关联模型;预测后20组婴儿综合睡眠质量。
由于睡眠时间与入睡方式属于离散型变量,需要做预处理,睡眠时间可以转化为小数,入睡方式已经做了标签编码。
问题指出婴儿睡眠质量指标包含整晚睡眠时间、睡醒次数和入睡方式。
我们在解决问题之前,便做出假设:整晚睡眠时间与睡眠质量成正比,睡醒次数与睡眠质量成反比,入睡方式与睡眠质量成正比。
实际通过查阅相关资料,数据表中给出的入睡方式从哄睡法【1】、抚触法【2】、安抚奶嘴法【3】、环境营造法【4】到 定时法【5】,在一定程度上婴儿的睡眠效果是由差到好;根据生活经验和相关资料也可以得到,一个人的睡醒次数越多,睡眠时间越少,睡眠质量越差,反之,睡眠质量越好
确定睡眠时间、睡醒次数与入睡方式这三个特征与睡眠质量之间存在怎样的关系,可以利用相关性分析解决。
在运用斯皮尔曼相关系数检验各睡眠质量特征间的相关性之后,可以发现:
- 整晚睡眠时间与入睡方式存在强正相关
- 整晚睡眠时间与睡醒次数存在强负相关
- 入睡方式与睡醒次数存在强负相关
相关性分析结果在一定程度上也证实了我们的假设。
具体实现过程为:
将整晚睡眠时间和入睡方式作为正向指标,将睡醒次数作为逆向指标,利用Critic赋权法(依据为特征数值标准差、特征间相关系数与信息量)确定各部分权重:整晚睡眠时间、睡醒次数、入睡方式分别占比为 0.297、0.419 和 0.284。
选用一种综合评价方法,这里我们选择的是TOPSIS优劣解距离法,将正向指标、逆向指标与权重系数代入后得到数据表中婴儿睡眠质量综合得分。
TOPSIS优劣解距离法基本过程为基于归一化后的原始数据矩阵,采用余弦法找出有限方案中的最优方案和最劣方案,然后分别计算各评价对象与最优方案和最劣方案间的距离,获得各评价对象与最优方案的相对接近程度,以此作为评价优劣的依据
运用K-means对婴儿睡眠质量得分进行分类,最终确定数据表中婴儿睡眠质量属于哪一类。由于问题中睡眠质量为优、良、中、差四分类,因而聚类个数选择为4。
- 优 >=0.777871971989136
- 0.777871971989136>良 >=0.641337057538619
- 0.641337057538619>中>=0.497799826945968
- 0.497799826945968>差>=0
分别求得整晚睡眠时间、睡醒次数与入睡方式关于母亲年龄、CBTS、EPDS、HADS的回归方程,建立偏最小二乘法回归模型,预测最后20组婴儿的整晚睡眠时间、睡醒次数与入睡方式。
最后建立基于KNN的睡眠质量分类模型,根据上一步所求得的最后20组婴儿睡眠时间、睡醒次数与入睡方式,预测最后20组婴儿的综合睡眠质量
问题五分析
第五问是第三问与第四问的结合,问题提示是在问题三的基础上,这说明本问需要利用到第三问治疗费用关系表。
不过第三问所建立的治疗策略模型是关于婴儿行为特征转变的,第五问则是关于婴儿睡眠质量转变的问题。
首先需要根据第四问的综合评分表,得到238号婴儿的睡眠质量评级为中(见数据表8.6数据(新) )
按照第三问的方法,构建婴儿综合睡眠质量函数表达式f = 0.29X*
睡眠时间* + 0.28X*入睡方式* + 0.41X*睡醒次数*(系数为各部分权重)利用偏最小二乘法回归建立婴儿综合睡眠质量与母亲心理指标关联模型,分别求得整晚睡眠时间、睡醒次数、入睡方式与母亲心理指标的回归方程X*
睡眠时间* ,X*入睡方式* ,X*睡醒次数* 。目标函数最优解即治疗费用最小值min w = y
1+ y2+ y3,其中y1, y2, y3分别为CBTS、EPDS、HADS的治疗费用,约束条件为:- X
睡眠时间,X*入睡方式* ,X*睡醒次数*** 回归方程 - y
1, y2, y3回归方程 - 婴儿行为特征关于母亲年龄、心理指标的回归方程 y
- 行为特征 y 取值范围
- 睡眠质量评分 f 取值范围
- CBTS、EPDS、HADS治疗后的现有值 x
CBTS,xEPDS,xHADS与治疗值 x1,x2,x3的关系 - x
1,x2,x3为整数
- X
第三问治疗策略有两种,两种策略目标函数相同,不同处在于约束条件中的行为特征 y 取值范围,一种 y<=2,另一种 y <= 1
第三问中治疗策略使238号行为特征由矛盾型转为中等型,以及由中等型转为安静型。问题五问“第三问的治疗策略是否调整,如何调整?” 判断第三问的两种治疗策略能否同时使婴儿睡眠质量评级由中转变为优,在满足婴儿行为特征符合第三问要求情况下,同时实现睡眠质量评级转变的治疗费用最小值,四种情况:
- 第三问的治疗策略,使婴儿行为特征由矛盾型转变为中等型,同时可以使得睡眠质量评级转变为优
- 第三问的治疗策略,使婴儿行为特征由矛盾型转变为中等型,但不能使睡眠质量评级转变为优
- 第三问的治疗策略,使婴儿行为特征由中等型转变为安静型,同时可以使得睡眠质量评级转变为优
- 第三问的治疗策略,使婴儿行为特征由中等型转变为安静型,但不能使睡眠质量评级转变为优
四种情况需要根据目标函数的可行域判断。
竞赛组评价
评价一:摘要简明,条理清晰,解决方案和思路可行,结果有些偏差。符号说明那个表最好弄成三线表格式。在问题一中,阐明了各项指标的数据类型,进行了数据预处理,并进行相关性分析,相关系数表可以进行适当的调整。问题二中,用AdaBoost集成学习算法进行预测,给出了求解过程,给出了相应的算法设计,最终结果有些误差。问题三中,建立模型进行求解,模型部分解释恰当,未给出详尽的算法描述,模型求解结果有些偏差。问题四中,用Critic赋权法和TOPSIS模型进行评价,并用回归模型进行求解,未给出相应的算法描述,结果有些偏差。问题五中,未先对238号婴儿的睡眠作出评估,建立模型求解,但未给出详细的算法设计,结果偏差较大。
评价二:论文摘要完整,但是需要给出具体的结论。问题一建议采用斯皮尔曼相关分析和独立性检验。文中给出了相关模型的具体求解算法,是一大优点。问题五结合问题三和问题四进行求解的思路正确。论文整体较为完整,排版规范整齐。
过程文件:
- 标题: 第四届华数杯数学建模竞赛C题思路、过程实现与最终论文
- 作者: 狮子阿儒
- 创建于 : 2023-08-20 14:27:09
- 更新于 : 2024-03-03 21:36:34
- 链接: https://c200108.github.io/blog/2023/08/20/第四届华数杯数学建模竞赛C题思路、过程实现与最终论文/
- 版权声明: 本文章采用 CC BY-NC-SA 4.0 进行许可。