2021年研究生数模B题论文记录
*
– 1.常见数据处理方法:
– 2.相关性系数选择
– 3.聚类算法
– 4.一种数据降维方式
– 5.预测模型
文章来源 2021年全国大学生研究生数学建模竞赛优秀论文集合,B题,文章编号:B21100130067
1.常见数据处理方法:
- 针对缺失值,文章使用的是 拉格朗日插值法,相较于平均值插值法,更加适用于有时间序列性质的数据,同时插值后的数据属于预测的一部分,文章中的观点是保留小数
- 针对异常值,一种是不符合实际意义的数据,需要通过文献查找进行删除,一方面可以通过 箱线图进行判断,也可以使用 3σ准则进行判断,3σ准则解释:
; 2.相关性系数选择
常见的有三种, 皮尔森相关系数,肯德尔相关系数,斯皮尔曼相关系数,知乎解释
; 3.聚类算法
文章中主要提到了两类, 基于EM的GMM聚类,K-means聚类
K-means聚类算法
GMM聚类算法
; 4.一种数据降维方式
论文中提到的将22维的数据进行降维处理,判断降维后的数据是否容易进行聚类,进而推论出高维是否容易聚类,提到的算法是 t-SNE t-SNE算法
; 5.预测模型
文中使用的是 XGBoost算法,论文中的第三问和第四问都是用的这个算法,使用时候,作者将数据进行纵向合并,数据集划分等操作,同时由于输入的维度过高,达到22维,而输出维度很低,还通过了输入特征与输出值的相关性,将维度进行降低,提出相关性不高的特征,最后图像看起来很好。XGBoost算法讲解
该系列文章主要是为了整理数模中常用的方法,仅仅作为记录,其中提供的很多链接也是为了方便以后自己回过头来的学习。
Original: https://blog.csdn.net/qq_44864833/article/details/126650997
Author: Philo`
Title: 2021年研究生数模B题论文记录
原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/563183/
转载文章受原作者版权保护。转载请注明原作者出处!