数据挖掘（一）

2023年7月17日上午1:52 • 人工智能 • 阅读 63

系列文章目录

数据挖掘之初识数据挖掘（一）

文章目录

系列文章目录
前言
一、分类实践任务起点
*
基本流程
代码示例
sklearn之train_test_split()函数各参数含义
–
二、初识数据之基于直方图柱状图的特征选择
*
任务：
案例背景：
结果

前言

提示：这里可以添加本文要记录的大概内容：

例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。

提示：以下是本篇文章正文内容，下面案例可供参考

一、分类实践任务起点

贝叶斯分类算法是统计学的一种分类方法，它是一类利用概率统计知识进行分类的算法。在许多场合，朴素贝叶斯(Naïve Bayes，NB)分类算法可以与决策树和神经网络分类算法相媲美，该算法能运用到大型数据库中，而且方法简单、分类准确率高、速度快。

基本流程

1读数据；
2数据划分；
3训练；
4模型评估；
5预测。

贝叶斯分类器本质上是同时考虑了先验概率和似然概率的重要性。
原理参考链接：link:贝叶斯分类器

; 代码示例

import sklearn
导入高斯朴素贝叶斯分类器
from sklearn.naive_bayes import GaussianNB
from sklearn.model_selection import train_test_split
import numpy as np
import pandas as pd

def knn_test():
    data_url = "/data/workspace/myshixun/step1/iris_train.csv"
    df = pd.read_csv(data_url)
    X = df.iloc[:,1:4]
    y=df.iloc[:,4]
    #将数据分成两部分训练集与测试集
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)
    # 使用高斯朴素贝叶斯进行计算
    clf=GaussianNB()
    clf.fit(X_train, y_train)
    # 评估
    y_pred = clf.predict(X_test)
    acc = np.sum(y_test == y_pred) / X_test.shape[0]
    return acc

sklearn之train_test_split()函数各参数含义

在机器学习中，我们通常将原始数据按照比例分割为”测试集”和”训练集”.简单用法如下：

X_train,X_test, y_train, y_test =sklearn.model_selection.train_test_split(train_data,train_target,test_size=0.4, random_state=0,stratify=y_train)

train_data：

所要划分的样本特征集

train_target：

所要划分的样本结果

test_size：

样本占比，如果是整数的话就是样本的数量

random_state：

是随机数的种子。
随机数种子：填1时相当于固定了当前的结果，填0或者其他数则每次运行得到的结果都会不一样

stratify：

为了保持split前类的分布。比如有100个数据，80个属于A类，20个属于B类。如果train_test_split(… test_size=0.25, stratify = y_all), 那么split之后数据如下：
training: 75个数据，其中60个属于A类，15个属于B类。
testing: 25个数据，其中20个属于A类，5个属于B类。
用了stratify参数，training集和testing集的类的比例是 A：B= 4：1，等同于split前的比例（80：20）。通常在这种类分布不平衡的情况下会用到stratify。
将stratify=X就是按照X中的比例分配
将stratify=y就是按照y中的比例分配

二、初识数据之基于直方图柱状图的特征选择

任务：

利用直方图和柱状图进行特征选择。

案例背景：

泰坦尼克号遭遇的灾难震惊世界，如何避免灾难甚至预测灾难呢？要实现首先要做好泰坦尼克号的损失数据统计，才能为数据分析打下基础。

观察数据特点

观共有891行、12列。这代表本训练集共有891条数据，每条数据有12类信息。区别于前述鸢尾花数据集，该数据集涉及到的属性字段更多。
目标：预测泰坦尼克号上的乘客是幸存还是遇难，每个乘客对应一个乘客Id，用0表示遇难，用1表示幸存。

代码如下（示例）：

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import matplotlib.image as mpimg

def test():

    data_url = "/data/workspace/myshixun/step1/train.csv"
    df = pd.read_csv(data_url)
    S=df[df.Survived==1]
    D=df[df.Survived==0]
    #绘制根据S、D的前9列数据绘制直方图
    ########## Begin ##########
    plt.hist(S.iloc[:,9])
    plt.hist(D.iloc[:,9])
    ########## Begin ##########
    plt.savefig('/data/workspace/myshixun/step1/picture2/直方图.png')
    #sex = df.groupby('Sex')['Survived'].sum()
    #绘制柱状图
    sexNew =  df.groupby(['Sex','Survived'])['Survived'].count().unstack()
    ########## Begin ##########
    sexNew.plot(kind='bar')
    ########## End ##########
    plt.savefig('/data/workspace/myshixun/step1/picture2/柱状图.png')
    plt.show()
    img1=mpimg.imread('/data/workspace/myshixun/step1/picture2/直方图.png')
    img2=mpimg.imread('/data/workspace/myshixun/step1/picture2/柱状图.png')

    plt.subplot(121),plt.imshow(img1)
    plt.subplot(122),plt.imshow(img2)
    plt.savefig("/data/workspace/myshixun/step1/picture2/特征选择.png")

结果

柱状图描述分类变量，直方图描述数值变量。直方图的x轴是一条线，直方图的x轴是分类变量。

Original: https://blog.csdn.net/weixin_49032475/article/details/123845425
Author: weixin_49032475
Title: 数据挖掘（一）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/697652/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

数据分析面试：业务题

文章目录 0. 相关概念 1. 你怎么理解数据分析的？数据分析的主要流程是什么？ 2. 指标的异常波动变化（例如日活下跌），你会如何分析？ * 2.1 电商GMV下降该如何分析？ …

人工智能 2023年7月15日
0094
论文笔记：Improving Conversational Recommender Systems via Knowledge Graph based Semantic Fusion(KDD2020)

两个问题：会话数据本身缺乏足够的语境信息，无法准确理解用户的偏好；自然语言表达与item级用户偏好之间存在语义差距。本文提出的解决办法：结合面向词和面向实体的知识图(KG)来…

人工智能 2023年6月1日
0088
HandlerAdapter具有什么功能呢？

转自: 下文笔者将讲述HandlerAdapter的功能简介说明，如下所示: HandlerAdapter的功能 HandlerAdapter:是一个处理器适配器Spring MV…

人工智能 2023年6月26日
0079
知识图谱关键技术与应用

今天的演讲主题是”知识图谱关键技术与应用”。分成几个环节：一、知识图谱的相关概述；二、知识图谱的基本概念；三、知识图谱行业方面的应用和场景介绍，着重讲一…

人工智能 2023年6月1日
0071
1. 知识图谱原理及应用概述

知识点 ; 一、什么是知识图谱（What is it?）本质上是基于图的语义网络，表示实体与实体之间的关系。二、知识图谱研究的多个维度领域本体的构建：面向特定领域的形式化地…

人工智能 2023年6月1日
0067
Java&线程&协程

目录线程的实现（OS&&JVM） 1.内核线程实现 2.用户线程实现 3.混合实现 4.Java线程的实现 ——如何实现不受Java虚拟机规范的约束 Java线程…

人工智能 2023年6月27日
0084
Comparison of Graph Database: Neo4j, JanusGrraph and HugeGraph

Main Features Neo4j JanusGraph HugeGraphOpen Source EcologyThe community version is open s…

人工智能 2023年6月1日
0073
TPH-YOLOv5简述

引言无人机捕获场景下的目标检测技术已广泛应用于植物保护、野生动物保护和城市监测等实际应用中，在无人机捕获的图像上的目标检测性能，并为上述众多的应用提供洞察力。本文专注于在无人机上…

人工智能 2023年5月28日
0062
git如何删除github上的文件，亲测有效

目录问题描述：问题解决：问题描述： github是一个很好的代码托管网站，但是有一个不太好的地方，只能删除仓库，不能删除仓库中的文件。一旦上传错误，就跟尴尬，纪录下踩过的坑。…

人工智能 2023年6月28日
0069
Hadoop 综合揭秘——HBase的原理与应用

前言现今互联网科技发展日新月异，大数据、云计算、人工智能等技术已经成为前瞻性产品，海量数据和超高并发让传统的 Web2.0 网站有点力不从心，暴露了很多难以克服的问题。为此，Go…

人工智能 2023年6月4日
0088
李宏毅老师机器学习第二部分：回归问题

李宏毅老师机器学习第二部分：回归问题 Let’s go! 一、回归的定义二、回归模型建立步骤三、一元线性模型与多元线性模型 * 3.1 一元线性模型 3.2 多元线…

人工智能 2023年6月18日
00108
opencv的简单使用

opencv官方网址opencv 一、图像读取从 html canvas 或 img 元素中读取图像 imageSource：元素ID cv.imread (i…

人工智能 2023年7月18日
0047
知识增强的预训练语言模型系列之KEPLER：如何针对上下文和知识图谱联合训练

©原创作者 | 杨健论文标题： KEPLER: A unified model for knowledge embedding and pre-trained language …

人工智能 2023年6月1日
0084
直播预告|数据分析驱动的IT运维

进入大数据时代，IT运维工程师都不可避免地与数据分析打交道。每位IT运维工程师要想在基础运维工作之外，体现IT运维的价值，那么在数据分析领域，有很多可以探索的内容。这是谷歌 Da…

人工智能 2023年7月17日
0075
LSTM入门

文章目录 LSTM入门 * LSTM原理与应用及训练方法 – Sequence Prediction Sequence Classification. Sequence…

人工智能 2023年5月25日
0087
【机器学习】二分类算法实现及算法精度比较

文章目录 * – 一.数据集选择 – + 1.感知机 + 2.K近邻（knn） + 3.朴素贝叶斯 + 4.决策树id3 + 5.逻辑斯蒂回归 + 总结一…

人工智能 2023年6月30日
0094

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31