sklearn-SVM-乳腺癌诊断分类

2023年7月2日下午8:27 • 人工智能 • 阅读 124

目录
01 | SVM简介
02 | 乳腺癌诊断
1.先导入需要的库
2.设置seabon，matplotlib中文显示，pycharm显示行数扩大
3.svm实例化
4.数据集准备
5.数据集预处理
6.描述分析
7.模型训练

01 | SVM简介

SVM(支持向量机)算法是通过对数据的训练，利用间隔最大化找到一个最优分离超平面。下面我们用一个例子来说明。

我们生成一个男女身高体重的数据，现在拿到一个新的数据（x,y），利用已知的数据能否推断出新的数据是一名男性或者是女性吗。
①通过画一条直线，将已知的点分为两部分，直线以上是男生，直线以下是女生。
②这个是一个二维平面，可以画直线。但是在三维的平面中，它是面。在更高的维度中，我们称之为超平面
③面有若干个，最合适的被称之为最优分离超平面

import matplotlib.pyplot as plt
import seaborn as sns

women_heigth = [155,145,157,160,167]
women_weigth = [50,54,69,52,60]
men_heigth = [164,170,173,180,185]
men_weigth = [77,80,72,64,79]

sns.scatterplot(x = women_heigth,y = women_weigth,markers = '+',color = 'orange',label = 'women')
sns.scatterplot(x = men_heigth,y = men_weigth,markers = '^',color = 'blue',label = 'men')
plt.xlabel('cm')
plt.ylabel('kg',rotation = '0')
plt.legend()
plt.show()

02 | 乳腺癌诊断

数据集：
https://github.com/cystanford/breast_cancer_data/

1.先导入需要的库
①常规的数据预处理库pandas，numpy。图库matplotlib，seaborn
②SVM库
③数据处理归一化sklearn.preprocessing，数据集划分train_test_split
④模型评分metrics，模型参数选择GridSearchCV

from sklearn import svm
import pandas as pd
import sklearn.preprocessing
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn import metrics
from sklearn.model_selection import GridSearchCV
import numpy as np

2.设置seabon，matplotlib中文显示，pycharm显示行数扩大

pd.set_option('display.max_columns',1000)
pd.set_option('display.width',1000)
pd.set_option('display.max_colwidth',1000)
plt.rcParams['font.sans-serif'] = ['SimHei']
sns.set_style('whitegrid',{'font.sans-serif':['simhei','Arial']})

3.svm实例化
①kernel代表核函数的选择，有四种选择，默认rbf（即高斯核函数）
②C代表目标函数的惩罚系数，默认情况下为 1.0
③gamma代表核函数的系数，默认为样本特征数的倒数

model = svm.SVC(kernel = 'rbf',C = 1.0,gamma = '0.001')

4.数据集准备
除去id字段，实际上包含的字段有:
① mean结尾的代表平均值、se结尾的代表标准差、worst结尾代表最坏值(这里具体指肿瘤的特征最大值)。
② diagnosis代表特征

df = pd.read_csv(r'D:\pycharm\data\breast_cancer_data-master\data.csv')
print(df.info())
print(df.head())

5.数据预处理

① 因为特征diagnosis为字符串，在放进模型里面之前要转为数字类型
② mean,se,worst中,mean最能代表特征整体情况

le = sklearn.preprocessing.LabelEncoder()
le.fit(df['diagnosis'])
df['diagnosis'] = le.transform(df['diagnosis'])
print(df['diagnosis'])

df_X = df.filter(regex = '_mean')
df_Y = pd.DataFrame(data = df['diagnosis'],columns = ['diagnosis'])

6.描述分析

① 查看mean各要素之间的关系
② 通过热力图可以发现,radius_mean、perimeter_mean和area_mean这三个特征强相关，那么只保留一个最高的perimeter_mean
③ 因为是连续数值，最好通过preprocessing.StandardScaler()对其进行标准化

plt.figure(figsize = (8,15))
sns.heatmap(df_X.corr(),linewidths = 0.1,vmax=1.0,square=True,cmap=sns.color_palette('RdBu', n_colors=256),
            linecolor='white', annot=True)
plt.xticks(fontsize = 5)
plt.yticks(fontsize = 5)
plt.title('各特征之间的相关性')
plt.show()

df_X.drop(['radius_mean', 'area_mean'], axis=1)

df_X = sklearn.preprocessing.StandardScaler().fit_transform(df_X)
df_Y = sklearn.preprocessing.LabelEncoder().fit_transform(df['diagnosis'])
print(df_X)
print(df_Y)

7.模型训练

① 方法一：LinearSVC 自动调参
② 方法二：主动调参

'''
方法①
X_train, X_test, y_train, y_test = train_test_split(df_X,df_Y,test_size = 0.3,random_state = 0)
svm_model = svm.LinearSVC().fit(X_train,y_train)
pred = svm_model.predict(X_test)
print('准确率:',metrics.accuracy_score(pred,y_test))
'''

parameters = {
        'gamma': np.linspace(0.0001, 0.1),
        'kernel': ['linear', 'poly', 'rbf', 'sigmoid'],
    }
svm_model1 = svm.SVC()

grid_model = GridSearchCV(svm_model1,parameters,cv=10,return_train_score=True)
X_train, X_test, y_train, y_test = train_test_split(df_X,df_Y,test_size = 0.2)
grid_model.fit(X_train,y_train)
pred_label = grid_model.predict(X_test)

print(grid_model.best_params_)

print('准确率:',metrics.accuracy_score(pred_label,y_test))

Original: https://blog.csdn.net/weixin_52730784/article/details/116177407
Author: 冷淡的蛋黄酱
Title: sklearn-SVM-乳腺癌诊断分类

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/666163/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

虚拟机基本使用 IV

虚拟机基本使用 IV 1.实现虚拟机搜索功能之前我我们已经修改了yml文件,将搜索的目标更换为虚拟机中的ES 在虚拟机的连接环境中,我们使用SpuEntity来实现ES的连接我…

人工智能 2023年6月28日
0076
[opencv]学习之帧差法实现运动物体检测

一、帧差法 1.概念：帧差法是一种通过对视频图像序列中相邻两帧作差分运算来获得运动目标轮廓的方法，它可以很好地适用于存在多个运动目标和摄像机移动的情况。它可以很好地适用于存在多…

人工智能 2023年6月19日
0098
Pandas基础题一百道（前15）

目录 1、使用List创建Series 2、使用Dict创建Series 3、将Series转换成List 4、将Series转换成DataFrame 5、借助Numpy创建Ser…

人工智能 2023年7月6日
0081
在训练CNN模型时，损失函数是如何定义的？常用的损失函数有哪些

问题背景在训练卷积神经网络（Convolutional Neural Network, CNN）模型时，损失函数扮演着关键的角色。损失函数用来衡量模型的预测结果和真实值之间的差异…

人工智能 2024年1月5日
0072
主成分分析（PCA）：通过图像可视化深入理解

点击上方” 小白学视觉“，选择加” 星标“或” 置顶“ 重磅干货，第一时间送达主成分分析简介主成分分析（…

人工智能 2023年6月16日
00109
Transformer模型入门详解及代码实现

目录前言一.什么是Transformer 二.Encoder的组成 1.输入部分 2.注意力机制 2.1注意力机制的含义 2.2在TRM中的实现 3.前馈神经网络 3.1 前馈…

人工智能 2023年7月26日
0094
UE4 UE5 opencv插件获取摄像头画面

本插件在UE4.26、UE4.27、UE5.0.3等版本亲测有效，谢谢各位前辈朋友，这里就不一一鸣谢了。插件地址：UE5OpenCV插件-C++文档类资源-CSDN下载 1.项目…

人工智能 2023年5月26日
0099
机器学习:线性回归/感知机/Logistic回归

文章目录 0 前言 1 线性回归模型 * 1.1 数据集的形式化描述 1.2 模型的形式化描述 1.3 模型的评价策略 – 1.3.1 经验风险函数 1.3.2 结构风…

人工智能 2023年7月3日
00100
CASIA WebFace、WIDDER FACE、FDDB、AFLW、CelebA训练集详解

目录 CASIA-WebFace 简介优势缺点获取数据集 WIDDER FACE 简介优势缺点获取数据集 FFDB 简介优势缺点获取数据集 AFLW 简介优势 …

人工智能 2023年7月16日
0070
虚拟环境安装Pytorch详细教程

目录一、创建 PyTorch 虚拟环境 1.1 打开 Anaconda 自带的 Anaconda Prompt 1.2 打开 Anaconda Prompt 之后，在命令行输入命…

人工智能 2023年6月23日
0082
NCCL通信函数库相关资料整理

NCCL 内部想参考NCCL库开发一套针对性的函数库。通过官方文档、源码、网上博客，整理了一些有关资料。图片都来源于网络，比较直观的介绍了NVIDIA GPU互联互通的底层硬件架构…

人工智能 2023年7月14日
0078
cudart64_110.dll not found windows解决方法

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年5月26日
0077
Yolo-Z：改进的YOLOv5用于小目标检测（附原论文下载）

关注并星标从此不迷路计算机视觉研究院公众号ID｜ ComputerVisionGzq 学习群｜扫码在主页获取加入方式论文地址： https://arxiv.org/pdf…

人工智能 2023年5月28日
0086
进程替换(跑路人笔记)

文章目录进程替换函数介绍 * execl – execel小结剩余函数 – execlp execle函数 execv execvp + execvp…

人工智能 2023年6月27日
0099
ADC动态性能

定义总谐波失真(THD)：指的是基波信号的均方根值与其谐波(一般仅前5次谐波比较重要)的和方根的平均值之比。无杂散动态范围(SFDR)：指的是信号的均方根值与最差杂散信号(无论…

人工智能 2023年6月28日
0072
tensorflow出现报错： Could not locate zlibwapi.dll或者Could not load library cudnn_cnn_infer64_8.dll.

Could not locate zlibwapi.dll 原因：没有安装zlip. 1.安装并配置zlib下载地址：http://www.winimage.com/zLibDll…

人工智能 2023年7月6日
0070

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

sklearn-SVM-乳腺癌诊断分类

大家都在看