ISSN: 2319 - 9865
Rumana roi*, Faruk Hasan和Mst。Nilufar娅斯敏
孟加拉国达卡萨瓦尔贾汉吉纳加尔大学统计系
收到日期:23/11/2021接受日期: 01/122021发表日期:08/12/2021
更多相关文章请访问rayapp3
婴儿死亡率,机器学习,决策树,随机森林,支持向量机,逻辑回归,准确性,精密度,敏感性,特异性,ROC, K-fold交叉验证。
婴儿死亡率是衡量一个国家经济和卫生部门发展的最重要指标之一。这反映了IM的原因与可能影响整个人口健康状况的其他因素,如经济发展、生活条件、社会福利、发病率和环境质量之间的明显联系[1].它被定义为婴儿在他或她的第一个生日之前死亡。婴儿死亡率是指每1,000名活产婴儿死亡人数[2].千年发展目标的一项重要目标是在全世界降低儿童死亡率,特别是婴儿死亡率[3.].2018年,全球新生儿死亡率已从每1000例活产65例降至每1000例活产29例[4].
当然,新生儿和儿童死亡率是孟加拉国这样的发展中国家发展的一个重要指标。尽管孟加拉国在过去几十年里大幅降低了儿童死亡率,实现了千年发展目标4(千年发展目标4)的具体目标,但急性IM仍然相当高。例如,孟加拉国的IM率已从1993年的87下降到2014年的38 [5].婴儿死亡率降低三分之二,表明在实现千年发展目标4方面取得了进展[6].为实现可持续发展目标3的具体目标:“到2030年,消除新生儿和5岁以下儿童可预防的死亡,所有国家的目标是将新生儿死亡率至少降至每千名活产12人,将5岁以下儿童死亡率至少降至每千名活产25人”,降低急性呼吸障碍发病率将为改善儿童健康做出重大贡献[7].
IM的原因和预测因素是不同的人口和社会经济因素,包括与婴儿本身有关的因素。IM的独立决定因素之一是婴儿出生时体重过低[8,9,10].低收入家庭的母亲患IM的可能性明显高于中等和富裕家庭的母亲。11].在孟加拉国,没有在医疗机构分娩的母亲和来自贫困阶层家庭的母亲比其他人更有可能发生婴儿死亡[12,5].此外,母亲在怀孕期间的产前护理,以及孩子的性别[5].通常,卡方检验常用来检测IM的风险或保护因素。然而,我们有动力使用机器学习(ML)方法,这是一种涉及人工智能的科学方法,从大量数据中探索更多隐藏的信息[13],以检测该病的风险或保护因素,并预测孟加拉国的该病。与传统研究相比,ML在健康研究中的应用改善了研究结果[14,15].因此,使用支持向量机识别与IM相关的显著因素。此外,不同的知名ML技术,如决策树(DT)、随机森林(RF)、支持向量机(SVM)和LR已在本研究中应用于孟加拉国IM的预测。
数据和变量
本研究使用二级数据调查孟加拉国IM的潜在因素,这些数据提取自2014年在国家人口研究与培训研究所(NIPORT)授权下进行的具有全国代表性的孟加拉国人口与健康调查(BDHS) [16].该调查由Mitra and Associates于2014年6月至11月进行。资金由美国国际开发署(美援署)/孟加拉国提供。ICF国际通过美国国际开发署资助的DHS项目提供技术援助。本研究使用出生记录文件,该数据的详细信息可在https://dhsprogram.com/data/available-datasets.cfm上获得。在剔除所有缺失病例后,从育龄母亲中收集了与IM相关的信息,43772名婴儿被纳入本研究。本研究的主要结局变量为“婴儿死亡”,定义为1岁前活产死亡(编码为0=no, 1=yes)。婴儿死亡率是多种因素共同作用的结果。各种母亲、社会经济、人口和环境因素被视为暴露变量,如母亲年龄、母亲第一胎年龄、最高教育水平、居住地类型、划分、财富指数、出生顺序数、孩子性别、出生时孩子的大小、获得媒体的渠道、烹饪燃料的类型、丈夫的教育水平、与其他家庭共用的厕所设施、体重指数、体重指数类别、丈夫的职业、出生的孩子总数、告知妊娠并发症、怀孕期间产前检查次数、死亡年龄、一周岁前死亡、母亲体重、接触非政府组织活动、分娩地点和母亲身高。
统计模型
本研究旨在评估与IM相关的潜在预测因子,并使用不同的ML分类模型(如决策树(DT)、随机森林(RF)、支持向量机(SVM)和LR)预测孟加拉国的IM。我们的方法包括相应的数据预处理,使用Boruta算法选择特征(风险因素),将整个数据集分为训练数据集和测试数据集-在训练数据集中应用ML模型(DT, RF, SVM, LR)并评估这些模型在测试数据集上的性能,最后使用性能最好的模型来预测基于整个数据集的IM。使用混淆矩阵中的四个性能参数,如准确性、敏感性、特异性和精密度、受试者工作特征(ROC)曲线下面积(AUC)和K-fold交叉验证来评估性能。使用Python编程语言中的scikit-learn模块执行所有ML模型。
决策树(DT)
ML中最简单直观的技术之一是DT,它基于分而治之的范式[17].DT的叶节点是(模式的)类别,其输入节点是(对输入模式的)测试,DT通过在树中的测试中向下过滤模式,将类号(或输出)分配给输入模式[18].每个测试都有互斥和详尽的结果[18].
随机森林(RF)
射频算法具有超参数,指定树的数量和每棵树的最大深度(实际上是模型中考虑的交互次数),而决策规则是参数[19].一种使用大量去相关DT集合进行分类的集成学习方法是RF [20.].为了在python中实现RF算法,我们使用了100 DT和Gini作为杂质指标。
支持向量机(SVM)
一种分析数据和识别模式的监督学习方法被称为SVM [21,22].对于两类学习任务,SVM训练算法生成一个模型或分类函数,该模型或分类函数将新的观测值分配给超平面两侧的两个类之一,使其成为非概率二元线性分类器。SVM模型使用核技巧将数据映射到高维空间,然后将ML任务作为凸优化问题来解决[20.-24].然后,根据新的观察结果落在分区的哪一边,预测它们属于一个类。支持向量是距离划分类的超平面最近的数据点[20.].我们使用不同核的支持向量机来检验支持向量机模型。
逻辑回归
LR是一种概率统计分类模型,用于预测事件发生的概率[20.].LR对分类因变量和二分类结果或特征之间的关系进行建模。它被用作二进制(多个)模型来预测二进制(多个)响应,即基于一个或多个自变量的分类因变量的结果[17].
混淆矩阵性能参数
混淆矩阵提供了实际与预测类精度的可视化表示[20.].为了使分类算法的性能可视化,它以假阳性、真阳性、假阴性和真阴性信息的形式将预测分类与实际分类进行比较[20.].因此,性能参数为:精度是分类器正确分类的数据点的数量,灵敏度是衡量分类算法对正类数据点分类的好坏,特异性是衡量分类算法对负类数据点分类的好坏,精度是正确分类的正类数据点的数量[20.].
受试者工作特征(ROC)曲线
ROC曲线为在数据集上操作的分类器提供了另一种有用的图形表示。福西特(24]提供了ROC分析的全面介绍,强调了常见的误解。ROC曲线通过绘制真阳性率与假阳性率的比值来显示分类器的敏感性。如果分类器优秀,真阳性率会增加,曲线下面积(AUC)会接近1 [17].
K-fold交叉验证
交叉验证是一种验证技术,用于评估一个模型对独立数据集[20]的泛化能力。它评估各种预测函数的性能。在k-fold交叉验证中,训练数据集被任意划分为k个大小相等的互斥子样本(或折叠)。该模型被训练k次(或折叠),其中每次迭代使用k个子样本中的一个进行测试(交叉验证),其余的k-1个子样本用于训练模型。对交叉验证的k个结果取平均值,以估计精度为单个估计[20.].对于如此大的样本量,我们应用了3倍、5倍、10倍和30倍交叉验证技术来评估分类器的性能。
介绍了15-49岁育龄母亲和43772名婴儿的人口统计学、社会经济和人体计量学特征。研究结果显示,根据2014年的BDHS,孟加拉国一周岁前的儿童死亡率为7.41%。婴儿死亡率在农村地区相对较高(7.9%),在Sylhet区(8.9%),财富指数最低的家庭(9.1%),男婴(8%),无法接触媒体的家庭(8.7%),母亲没有接触非政府组织活动(7.5%),与其他家庭共用厕所设施的受访者(8%),使用农作物作为烹饪燃料的受访者(9%),不知道怀孕并发症的受访者(25%)和体重不足的受访者(8.5%)。表1.
特征 | 一岁前死亡 | 假定值 | ||
---|---|---|---|---|
编号40529 (92.59%) | 是的,3243 (7.41%) |
|||
最高教育水平 | ||||
没受过教育 | 13407例(90.1%) | 1472例(9.9%) | 313.868 | < 0.001 * |
主要的 | 13207例(92.4%) | 1088例(7.6%) | ||
二次 | 11731例(94.9%) | 630例(5.1%) | ||
更高的 | 2184 (92.6) | 53 (2.4%) | ||
居住地类型 | ||||
城市 | 12660例(93.7%) | 855例(6.3%) | 33.401 | < 0.001 * |
农村 | 27869例(92.1%) | 2388例(7.9%) | ||
部门 | ||||
博里萨尔 | 5046例(92.7%) | 397例(7.3%) | 45.221 | < 0.001 * |
吉大港 | 7097例(93.5%) | 491例(6.5%) | ||
达卡 | 6596例(93.1%) | 487例(6.9%) | ||
战争怎样惊人地扩大 | 5296例(93.4%) | 376例(6.6%) | ||
Rajshahi | 5165例(91.7%) | 468例(8.3%) | ||
Rangpur | 5514例(92.3%) | 457例(7.7%) | ||
Sylhet | 5815例(91.1%) | 567例(8.9%) | ||
财富指数 | ||||
贫穷 | 8425例(90.9%) | 844例(9.1%) | 147.822 | < 0.001 * |
贫穷 | 8351例(91.6%) | 770例(8.4%) | ||
中间 | 8337例(92.2%) | 704例(7.8%) | ||
更丰富的 | 7977例(93.5%) | 558例(6.5%) | ||
最富有的 | 7439例(95.3%) | 367例(4.7%) | ||
出生顺序号 | ||||
总计 | 40529例(92.6%) | 3243例(7.4%) | 120.676 | < 0.001 * |
孩子的性别 | ||||
男性 | 20597例(92.0%) | 1799例(8.0%) | 26.017 | < 0.001 * |
女 | 19932 (93.2) | 1444 (6.8) | ||
婴儿出生时的大小 | ||||
非常大的 | 101例(97.1%) | 3 (2.9%) | ||
高于平均水平 | 481例(93.9%) | 31 (6.1%) | ||
平均 | 3089例(97.0%) | 95例(3.0%) | 19.956 | < 0.001 * |
小于平均水平 | 599例(96.5%) | 22 (3.5%) | ||
非常小的 | 287例(93.5%) | 20 (6.5%) | ||
接触媒体 | ||||
没有 | 17689例(91.3%) | 1683例(8.7%) | 82.865 | < 0.001 * |
是的 | 22840例(93.6%) | 1560例(6.4%) | ||
接触非政府组织活动 | ||||
没有 | 35275例(92.5%) | 2851例(7.5%) | 2.051 | 0.157 |
是的 | 5254例(93.1%) | 392例(6.9%) | ||
与其他住户共用厕所设施 | ||||
没有 | 26937例(92.9%) | 2072例(7.1%) | 17.667 | < 0.001 * |
是的 | 10912例(92.0%) | 954例(8.0%) | ||
不是dejure居民 | 1468例(99.1%) | 86例(5.5%) | ||
烹饪燃料的种类 | ||||
电 | 115例(92.7%) | 9 (7.3%) | 90.029 | < 0.001 * |
液化石油气 | 617例(96.0%) | 26 (4.0%) | ||
天然气 | 4175例(94.3%) | 252例(5.7%) | ||
沼气 | 61例(98.4%) | 1 (1.6%) | ||
煤油 | 27 (96.4%) | 1 (3.6%) | ||
煤、褐煤 | 111例(91.7%) | 10 (8.3%) | ||
木炭 | 122例(94.6%) | 7 (5.4%) | ||
木 | 21356例(92.9%) | 1634例(7.1%) | ||
草、灌木、草 | 413例(92.4%) | 34 (7.6%) | ||
农作物 | 8852例(91.0%) | 871例(9.0%) | ||
动物粪便 | 3139例(91.1%) | 305例(8.9%) | ||
家里不做饭 | 1 (100%) | 0 (0.0%) | ||
其他 | 72例(91.1%) | 7 (8.9%) | ||
不是dejure居民 | 1468例(94.5%) | 86例(5.5%) | ||
丈夫/伴侣的教育程度 | ||||
没受过教育 | 14490例(91%) | 1441例(9%) | 166.168 | < 0.001 * |
主要的 | 11487例(92.4%) | 949例(7.6%) | ||
二次 | 10001例(93.8%) | 665例(6.2%) | ||
更高的 | 4548例(96%) | 188例(4%) | ||
被告知妊娠并发症 | ||||
没有 | 1813例(97.7%) | 43 (2.3%) | 8.934 | 0.093 |
是的 | 1626例(97.7%) | 39 (2.63%) | ||
不知道 | 3 (75%) | 1 (25%) | ||
身体质量指数 | ||||
体重过轻 | 7807例(91.5%) | 727例(8.5%) | 40.928 | < 0.001 * |
表1。基于2014年BDHS的孟加拉国婴儿死亡率的社会人口学特征。
表1.根据卡方检验的p值,母亲的最高教育水平、身体质量指数(BMI)、接触媒体的途径、居住地类型、部门、财富指数、出生顺序号、孩子性别、出生时孩子大小、与其他家庭共用厕所设施、烹饪燃料类型和丈夫/伴侣的教育水平与IM显著相关。然而,我们有兴趣利用ML技术探索与IM相关的风险因素。因此,使用SVM来识别IM的决定因素。
SVM特征选择
利用支持向量机探索IM的重要风险预测因子。一旦有了线性核拟合的支持向量机,就可以通过使用。coef_参数值比较分类器系数的大小来确定重要特征。图1用蓝色条显示已识别的风险预测因子,用绿色条显示不显著的风险预测因子(方差较小)。随后,使用支持向量机确定了8个主要特征变量(风险预测因子),例如V701(丈夫/伴侣的教育水平)、V190(财富指数)、V024 (Division)、V212(母亲第一胎年龄)、V201(曾经出生的孩子总数)、V161(烹饪燃料类型)、V704(丈夫/伴侣的职业)和BMI(身体质量指数)来预测孟加拉国的IM图1.
机器学习模型的评估
使用混淆矩阵的四个性能参数(表2),即ROC曲线下面积(图2),以及k-fold交叉验证方法(表3).以70%的观测数据作为训练数据,30%的观测数据作为测试数据,随机种子为100,基于BDHS-2014数据集,使用python中的scikit-learn模块对孟加拉国的IM进行预测。
模型 | 精度 | 灵敏度 | 特异性 | 精度 |
---|---|---|---|---|
DT | 0.802 | 0.882 | 0.315 | 0.886 |
射频 | 0.836 | 0.869 | 0.352 | 0.953 |
高斯核支持向量机 | 0.840 | 0.861 | 0.360 | 0.970 |
LR | 0.854 | 0.854 | N/A | 1.00 |
Ã‑Â Ã‑Â N/A:不适用
表2:不同ML模型的准确性、敏感性、特异性和精密度。
-:不适用
表2基于BDHS-2014数据集,探讨了不同机器学习模型的准确性、敏感性、特异性和精度。在这些模型中,高斯核支持向量机在所有情况下都具有较高的性能参数值,是预测孟加拉国IM的有效模型。例如,高斯核支持向量机提供了84%的准确预测(准确度=0.840),86.1%的阳性病例被预测为阳性(敏感性=0.861),36%的阴性病例被预测为阴性(特异性=0.360),97%的阳性预测正确(准确度=0.970)。虽然在讨论的机器学习模型中,逻辑回归给出了最高的准确性分数(85.4%),但由于收敛问题,它无法计算出特异性分数。因此,高斯核支持向量机在所有模型中性能更好表2.
使用Python 3.7.3中的scikit-learn模块运行DT、RF、SVM和LR模型,将70%的观测数据作为训练数据,30%的观测数据作为随机种子100的测试数据。为了预测孟加拉国的IM,使用DT、RF、具有高斯核的SVM和LR,估计的AUC分别为0.5395、0.6003、0.6082和0.54515。在该图中,带有高斯核的支持向量机在所有测试的ML模型中表现得更好,其AUC最大。因此,高斯核模型支持向量机的性能被认为是一种较好的支持向量机图2。
以粗体表示的最高值表示不同ML模型的K-Fold交叉验证,重复执行3倍、5倍、10倍和30倍的K-Fold交叉验证。结果表明,支持向量机(高斯核)在5-Fold、10-Fold和30-Fold交叉验证中表现较好。因此,在预测BDHS-2014孟加拉国的IM时,基于精度、敏感性、特异性和准确性测量、ROC和k-fold交叉验证方法,SVM(高斯核)算法表现更好表3.
模型 | 准确率(%)ÃⅱÂ ' Â ' K-Fold | ||||
---|---|---|---|---|---|
三倍 | 5倍 | 10倍 | 30倍 | ||
决策树 | 0.705 | 0.711 | 0.708 | 0.702 | |
随机森林 | 0.805 | 0.806 | 0.806 | 0.805 | |
支持向量机(高斯核) | 0.805 | 0.808 | 0.807 | 0.808 | |
逻辑回归 | 0.803 | 0.803 | 0.803 | 0.803 |
表3。ML模型的K-Fold交叉验证结果。
本研究使用不同的ML模型来寻找孟加拉国IM的显著因素和预测。根据BDHS 2014数据,常规卡方检验显示,母亲的最高教育水平、BMI、接触媒体的渠道、居住地类型、部门、财富指数、出生顺序号、孩子性别、出生时孩子的大小、与其他家庭共用的厕所设施、烹饪燃料类型、丈夫/伴侣的教育水平与孟加拉国的IM显著相关。然而,选择丈夫/伴侣的教育水平和职业、母亲的第一胎年龄和BMI、出生的孩子总数、烹饪燃料类型、财富指数和分工作为使用支持向量机预测IM的显著特征。
我们使用混淆矩阵、AUC (ROC)和k-fold交叉验证方法的四个性能参数,评估了DT、RF、SVM和LR等ML模型在预测孟加拉国IM方面的性能。支持向量机(高斯核)模型在所有3倍、5倍、10倍和30倍交叉验证技术中预测IM的性能参数最高,即准确率为84%,精密度为97%,灵敏度为86%,特异性为36%,AUC为60.8%,准确度为80.8%。另一方面,RF和DT模型的性能参数比SVM少。LR模型由于收敛性问题,无法估计特异性。支持向量机模型预测准确率高,性能好,对孟加拉国IM的预测信息量更大。因此,研究结果可能有助于家庭成员和卫生决策者了解和预防这一重大公共卫生问题。