什么是数据挖掘

2023年6月19日上午10:42 • 人工智能 • 阅读 83

文章目录

什么是数据挖掘
*
–
数据挖掘相关的标准库
数据挖掘
模型训练
*
分类问题
聚类问题
回归问题
关联问题
模型集成
模型评估
*
评估指标
混淆矩阵与标准率指标
泛化能力评估

什么是数据挖掘

数据挖掘就是寻找数据中隐含的知识并用于生产产业价值。我们在数据中（尤其在大量的数据中）找到一些价值。

数挖掘有什么用处？

数据挖掘是一种方法，就用它去解决一些问题，比较常见的问题有

1.分类问题

分类问题就是判断一个事物是否符合相关的标准，如判断一条新闻是社会新闻还是时政新闻，就是对已知类别的数据进行学习，为新的内容注明一个类别。

2.聚类问题

聚类与分类不同，聚类的类别预先是不清楚的。聚类就是要去发现这些类别，适合一些不确定的类别场景。

3.回归问题

简单来说，回归问题可以看作解线性方程，最大的特点就是生成的结果是连续的，而分类和聚类的结果是分散的。

通过使用回归的方法构建一个模型拟合已知的数据，然后测量因变量的结果。

数据挖掘相关的标准库

python的标准库是其核心的扩展，有两个能帮助学习的常用包的方法：

第三方库

基础模块

名称含义NumPyPython 语言扩展程序库，支持大量的维度数组与矩阵运算。SciPy集成了数学、科学和工程的计算包，它用于有效计算 Numpy 矩阵，使 Numpy 和 Scipy 协同工作。Matplotlib专门用来绘图的工具包，可以使用它来进行数据可视化。pandas数据分析工具包，它基于 NumPy 构建，纳入了大量的库和标准数据模型。

机器学习机器学习常用的库也有 4 个，包含了基础数据挖掘、图像处理与自然语言处理常用算法。它们可以支撑日常工程中的常见算法处理方案

名称含义scikit-learn基于 SciPy 进行延伸的机器学习工具包，包含大量的机器学习算法模型，有 6 大基本功能：分类、回归、聚类、数据降维、模型选择和数据预处理。OpenCV非常庞大的图像处理库，实现了非常多的图像和视频处理方法，如图像视频加载、基础特征获取、边缘检测等，处理图像通常都需要其支持。NLTK比较传统的自然语言处理模块，自带很多语料，以及全面的传统自然语言处理算法，比如字符串处理、卡方检验等，非常适合自然语言入门使用。Gensim包含了浅层词嵌入的文本处理模块，以及常用的自然语言处理相关方法，如 TF-IDF、 word2vec 等模型。

深度学习平台平台名称开发平台优点TensorFlow谷歌相对成熟、应用广泛、服务全面、提供学习视频和其认证计划。PyTorchFacebook支持更加快速地构建项目。PaddlePaddle百度中文文档全面，对于汉语的相关模型比较丰富。

; 数据挖掘

根据前人总结的方法论，我们在开始做数据挖掘的时候需要有一些准备。

模型训练

对于要解决的问题往往有共同点，针对每一类型的问题，就可以用相对应的算法，比如

分类问题

比如：电影质量是好还是差，风险内容是有风险还是无风险，情感是正向的还是负向的。

分类是有监督的学习过程，分类问题首先要有一批已经有标签结果的数据，经过分类算法的学习，就可以预测新的数据和新的未知数据的分类。如果缺少这些数据信息，就没有办法进行分类，就要考虑使用其他的算法，如聚类算法。或者处理数据，通过人工进行标注。

分类方法中包含3中情况：

二分法 ：这是最简单的一种，问题答案只有”是”，”否”。在处理用户内容时，首先要做一个较大的判断。eg：判断一群人是否是旅游的
多分类 ：在二分类的基础上，将标签可选范围扩大。要给一条内容标注它的玩法，那种类就有很多种了，eg：跑步，游泳，登山，骑车等等
多标签分类 ：在多分类的基础上再升级的方法。对于二分法和多分类，一条内容最后的结果只有一个，标签之间是互斥的关系。但是多标签分类下的一条数据可以被标注上多个标签。eg：一个人可以打篮球，也可以踢足球，还可以跑步。这两者并不冲突

由于分类问题众多，所以用来解决分类问题的算法也非常多，比如：KNN算法，决策树算法，随机森林，SVM等等，都可以解决分类问题。

聚类问题

跟聚类不同， 聚类是无监督的，简单来说就是，只知道一些数据，而且需要为这些数据分类，划分的类有多少个不清楚，数量的基数很大。

聚类就是要划分小组，通常小组之间可能有4中情况：

互斥：小组和小组之间没有交集，只能存在于一个小组中。划分的方法通常用于互斥的小组，划分的方法就好像在数据之间画几条线，把数据分成几个小组。划分完之后，数据都会有自己的类别。
相交：小组和小组之间有交集。可以使用 基于密度的聚类，用来解决数据形状不均匀的情况，有些数据集分布并不均匀，而是呈现不规则的形状，而且组和组之间有一片空白区域，这个时候用划分的方法就很难处理，但是基于密度的聚类不会受到分布形状的影响，只是根据数据的紧密程度去聚类。
层次：一个大组还可以细分成若干个小组，包含的关系。 基于层次的聚类，需要使用对数据细分情况，
模糊：一个用户并不绝对属于某个小组，只是用概率来表示某个小组的关系。这种聚类方法首先假设我们的数据符合某种概率分布模型，比如说高斯分布或者正态分布，那么对于每一种类别都会有一个分布曲线，然后按照这个概率分布对数据进行聚类，从而获得模糊聚类的关系。

回归问题

与分类十分相似，都是根据已知的数据去学习，然后为新的数据进行预测， 不同的地方是，分类方法输出的结果是离散的，回归的方法输出的结果是连续的

这张图说明不管是线性的还是非线性的数据，都可以使用回归分析。

可以看到，数据散落在坐标系上，通过学习你可以得到一条线，较好地拟合了这些数据。这条线可能不通过任何一个数据点，而是使得所有数据点到这条线的距离都是最短的，或者说是损失最小的。根据这条线，如果给出一个新的 x，那么你就能算出对应的 y 是多少。

; 关联问题

关联问题的方法就是关联分析，这是一种 无监督学习，它的目标就是挖掘隐藏在数据中的关联模式并加以利用， 分析关联是要在已有的数据中寻找数据的相关关系，所以，关联分析被广泛地用于各种商品销售分析、相关推荐系统分析、用户行为分析等情况。

模型集成

每个问题都可以通过相应的机器学习算法来进行解决。但是，在实践的时候，很多问题不是靠一个算法、一个模型就能解决的，往往要针对具体的细节使用多个模型以获得最佳效果，所以就要用到模型集成。

模型集成也叫做集成学习，就是整合多个模型来提升整体的效果。

既然是要合并多个模型，那么很容易想到训练多个并列的模型，或者串行地训练多个模型。

Bagging（装袋法）：比如多次随机抽样构建训练集，每构建一次，就训练一个模型，最后对多个模型的结果附加一层决策，使用平均结果作为最终结果。随机森林算法就运用了该方法，

Boosting（增强法）：这个就是串行的训练，即每次把上一次训练的结果也作为一个特征，不断地强化学习的效果

Stacking（堆叠法）：这个方法比较宽泛，它对前面两种方法进行了扩展，训练的多个模型既可以进行横向扩展，也可以进行串行增强，最终再使用分类或者回归的方法把前面模型的结果进行整合。其中的每一个模型可以使用不同的算法，对于结构也没有特定的规则。所以，在使用堆叠法时，就需要你在具体业务场景中不断地去进行尝试和优化，以达到最佳效果。

; 模型评估

评估指标

混淆矩阵与标准率指标

标准率相关指标是在模型评估时最受关注的指标，它直接反映了一个模型对于样本数据的学习情况，是一种标准化的检验。

我们把这 1000 张图放进分类器进行分类计算，每张图都会得到一个预测结果，通过对预测结果的统计可以知道，被模型预测为 “是” 的图片有 770 张，被模型预测为 “否” 的图片有 230 张。这个时候每张图上会有两个结果：一个人工标注结果、一个模型预测结果。根据这两个数据的统计，可以得到一个混淆矩阵：

样本 1000 份模型预测：是模型预测：否人工标注：是745（TP）55（FN）人工标注：否25（FP）175（TN）

矩阵中包含以下 4 种数值：

真阳性（True Positive，TP）：小猪图被判定为小猪图。样本的真实类别是正例，并且模型预测的结果也是正例（在本案例中此数值为 745）。
真阴性（True Negative，TN）：不是小猪图被判定为不是小猪图。样本的真实类别是负例，并且模型将其预测成为负例（在本案例中此数值为 175）。
假阳性（False Positive，FP）：不是小猪图被判定为小猪图。样本的真实类别是负例，但是模型将其预测成为正例（在本案例中此数值为 25）。
假阴性（False Negative，FN）：小猪图被判定为不是小猪图。样本的真实类别是正例，但是模型将其预测成为负例（在本案例中此数值为 55）。

泛化能力评估

泛化能力反映的是模型对未知数据的判断能力，因为在数据挖掘中，数据的维度通常有很多，而且数据也都是非标准值，任意记录之间的数据都会存在着差异，所以泛化能力好的模型在数据存在着波动的情况下，仍然能够做出正确的判断。

过拟合与欠拟合

我们通过两个指标可以评估模型的泛化能力是好还是坏，那就是过拟合（overfitting）和欠拟合（underfitting）。

过拟合：模型在训练集上表现良好，而在测试集或者验证集上表现不佳。这就是说，模型对样本学习有些过度了，已经进入了死记硬背的程度，而不是掌握了普适规律，这个时候可以说泛化能力比较差。

欠拟合：在训练集和测试集上的表现都不好。这就是说模型连最基本的内容都没有学到，比如老师教你 1+1=2、1+2=3，考试也考 1+1=2，结果还是做错了。

eg：通常情况下，我们的小猪图都像左侧一样，右侧有两张图，上面一张可以看出仍然是小猪图，但是后背上的线条有一个缺口，如果此时模型告诉我们，这个后背上有个缺口，这不是小猪图，那么这时就出现了过拟合（判断条件过于苛刻）。右下侧是一张小羊图，如果模型告诉我们这个也有四条腿，这个是小猪，那就是欠拟合（特征学习不完全）。

考试也考 1+1=2，结果还是做错了。

Original: https://blog.csdn.net/zzxzzxking/article/details/126272066
Author: 菜鸟长安
Title: 什么是数据挖掘

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/638827/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

唐宇迪学习笔记20：聚类算法——DBSCAN

目录一、DBSCAN聚类算法 (Density-Based Spatial Clustering of Applications with Noise) 二、DBSCAN工作流程…

人工智能 2023年5月31日
0099
【吴恩达deeplearning.ai】Course 5 – 2.5 学习词嵌入

学习词嵌入 (Learning Word Embeddings) 在本节视频中，你将要学习一些具体的算法来学习词嵌入。在深度学习应用于学习词嵌入的历史上，人们一开始使用的算法比较复…

人工智能 2023年5月28日
0086
遥感航拍影像25篇CVPR39个数据集

摘要本文讲解了39个数据集，关于高空卫星图和低空无人机航拍图像。本文汇总了25篇CVPR2020年和2021年的论文。本文详细介绍了这25篇论文的任务是什么，难点是什么，场景…

人工智能 2023年7月26日
00101
一阶目标检测（one-stage object detection）整理归纳

本文不详细介绍各种神经网络的细节和具体流程，主要在于归纳其特点并加以比较，希望让大家对一阶目标检测的发展过程和改进方法有个比较清晰的认知。目录一阶目标检测和二阶目标检测的区别 …

人工智能 2023年7月12日
0064
安川控制器MP3300与C# 上位机通讯

第一步：打开模块定义构成开启控制器服务器端口本站端口：指的是服务器端口; 被呼叫站点IP地址：控制器做服务端设定为0 做客户端填对应的IP; 被呼叫站点：做服务端设定…

人工智能 2023年6月18日
00125
深度学习中模型计算量(FLOPs)和参数量(Params)的理解以及四种计算方法总结

接下来要分别概述以下内容：１首先什么是参数量，什么是计算量２如何计算参数量，如何统计计算量３换算参数量，把他换算成我们常用的单位，比如:mb ４对于各个经典网络，…

人工智能 2023年6月13日
0073
机器学习基础(Machine Learning,ML)

什么是机器学习机器学习是人工智能的一个子集，目前已经发展出许多有用的方法，比如支持向量机，回归，决策树，随机森林，强化方法，集成学习，深度学习等，一定程度上可以帮助人们完成一些数…

人工智能 2023年5月31日
0081
机器学习【基于sklearn库】-回归、分类、聚类

机器学习-回归、分类、聚类 1.是什么？ 2.一些基础概念（建议先看具体例子再返过来看概念） * mse均方误差、r2等等衡量标准过拟合和欠拟合 – 为了防止过拟合方…

人工智能 2023年5月31日
0077
jetson nano 安装pytorch和pytorchvision

文章目录前言一、Jetson nano 的镜像系统二、修改镜像源 * 1.在终端里使用vim /etc/apt/sources.list将原来的内容注释掉换成中科大源（清华源…

人工智能 2023年7月22日
0074
全球与中国核桃牛奶行业市场现状分析及投资竞争态势研究报告2022-2028年

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月15日
0056
openlayers6踩坑系列（六）历史轨迹和实时跟踪的绘制

重要：博客内使用地图全替换为WMap，想使用的请参考我这篇博客WMap 最近都没发博客，因为一直在写关于小车历史轨迹这部分的逻辑，目前已经可以了，分别实现了历史双轨迹，历史单轨迹…

人工智能 2023年6月2日
00123
【PyTorch】PyTorch深度学习实践|视频学习笔记|P6-P9

PyTorch深度学习实践逻辑斯蒂回归及实现背景与概念基于分类问题中属性是类别性的，所以不能采取基于序数的线性回归模型，而提出了新的分类模型——逻辑斯蒂回归模型，输出每个…

人工智能 2023年7月3日
0055
主成分分析应用实例(Matlab)：鸢尾花分类

1、主成分分析（PCA）简介 PCA（principal components analysis）即主成分分析技术，又称主分量分析。主成分分析也称主分量分析，旨在利用降维的思想，把…

人工智能 2023年6月19日
0078
论文阅读（一）——ServeNet：基于深度神经网络的Web服务分类

都是自己的理解以及借助的翻译！！！如有不对的地方，欢迎指正！！！原文链接： ServeNet: A Deep Neural Network for Web Services Cl…

人工智能 2023年7月2日
0085
springboot 技术图谱_springboot2.0+Neo4j+d3.js构建知识图谱

Welcome to the Neo4j wiki! 这是一个知识图谱构建工具,最开始是对产品和领导为了做ppt临时要求配合做图谱展示的不厌其烦,做着做着就抽出一个目前看着还算通用…

人工智能 2023年6月5日
0070
NLP论文中出现的名词解释（不断更新）

目录前言 * Distantly supervised （远程监督） Axial Attention（轴向注意力） Focal Loss（局部损失函数） Knowledge Di…

人工智能 2023年5月27日
0064

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

什么是数据挖掘

文章目录

数挖掘有什么用处？

1.分类问题

2.聚类问题

3.回归问题

数据挖掘相关的标准库

分类问题

聚类问题

回归问题

; 关联问题

评估指标

混淆矩阵与标准率指标

泛化能力评估

大家都在看