机器学习进阶 day4

2023年7月17日上午9:32 • 人工智能 • 阅读 47

AUC以及ROC曲线

TPR和FPR的概念
TPR真正率
分类正确的数量占总的正确的数量
FPR假正率
分类错误的数量占总的错误的数量

图例解释
equal error rate
该点是FPR=TPR相等的点
random chace
指的是随机分类时，TPR和FPR的线
图中FPR为0.1时，TPR为0.8，有种类似于以0.1的FPR换取了TPR的正确率

AUC
ROC曲线所覆盖的面积
来评估模型的分类能力

精度Precision
也就是TPR
预测正例的总数量中正确的数量
召回率Recal
真正为正例的样本有多少被预测出来

; 自回归

类概念：用前n天的数据预测当前的值
也就是之前的值与今天的值是相关的

L1 L2正则算法的比较

Ridge(L2)比Lasso(L1)效果好 L2正则
Lasso(L1)具有特征选择的能力
Elastic Net 是Ridge和Lasso的结合算法
当模型复杂时，模型偏Lasso

代码的实践以及技巧

Lasso
model = lasso()
参数alpha
alpha_can = np.logspace(-3,2,10) 0.01-100
lasso_model = GridsearchCV(model,param_grid={‘alpha’:alpha_cal},cv = 5)
lasso.model.fit(x_train,y_train)
lasso_model.score(就是R^2)

对数据进行从小到大的排序
order = y_test.argsort(axis=0)
argsort带号排序
y_test = y_test,values[order]按照order顺序重新选数字
x_test = x_test.values[order,:]

决策树

特征选择的标准：1.ID3 2.ID4.5 3.CART

信息熵
H§ = -∑ Pi log Pi
ID3
信息增益——互信息
g（X,Y） = I（X,Y） = H（X） – H（X|Y）
ID4.5
信息增益率
g（X,Y）/H（Y）
信息增益/原来的熵
CART
基尼系数

决策树的评价
纯节点Hp = 0 minH
均节点 Hu = lnk maxH

均节点也就是将k个节点分为k类

; 随机森林(bagging)

bagging集成方法
通过boostrap的方法，对样本进行随机有放回抽样，将未参与模型训练的数据称为oob(out of bag)
oob可用于取代测试集进行误差估计
bagging可以降低各个决策树的噪声

样本不均匀的处理方法
1.降采样(某类样本过多)
从某类较多的样本中抽取5%-10%的采样率不断地有放回的进行采样

2.重采样(某类样本过少)
对小类样本重复采样

3.对小类样本进行数据合成
随机插值形成新的样本

尽量不采用重采样，原因如下：
1.样本带有噪声，重复会增加噪声。
2.重复采样使得训练变得麻烦

随机森林的其他功能
使用随机森林计算特征的重要度
rf.feature_importance_

利用oob数据取代测试集
rf.oob_score_

Original: https://blog.csdn.net/nendie1/article/details/123400508
Author: 阿泽学习日记
Title: 机器学习进阶 day4

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/698355/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【数据处理学习笔记】pandas

import pandas as pd data = pd.read_csv(‘./docs/test.csv’) print(data) 控制台打印如下： Unnamed: 0 …

人工智能 2023年7月7日
0053
标准化与归一化

标准化（Standardization ）和归一化（Nomalisation）网上对他们的描述纷繁复杂，有些人认为他们是等价的，有些人认为他们是完全不同的，我这里更倾向于认为他们…

人工智能 2023年6月23日
00108
关于TensorFlow和PyTorch共同安装的兼容版本尝试的记录 – env_name: tftorch

所用命令简述 安装 TensorFlow 和 Pytorch conda create –name tftorc…

人工智能 2023年5月23日
00110
Python实现朴素贝叶斯分类器

朴素贝叶斯分类器文章目录朴素贝叶斯分类器一、贝叶斯分类器是什么？ * 贝叶斯判定准则朴素贝叶斯分类器举个栗子二、相关代码 * 1.数据处理 2.生成朴素贝叶斯表（字典）…

人工智能 2023年7月27日
0039
论文阅读-多任务(2021)-YOLOP:用于自动驾驶目标检测与语义分割的实时多任务模型

YOLOP 论文：YOLOP: You Only Look Once for Panoptic Driving Perception地址：https://paperswithcod…

人工智能 2023年7月9日
0052
文本匹配算法综述

文本匹配，顾名思义，就是描述两段文本之间的关系，是否指向同一语义；比如两句话是否描述同一件事，或者两句话是否是上下文/问题与答案的关系。例：小宝宝生病怎么办狗宝宝生病怎么办明天…

人工智能 2023年5月27日
00130
力扣（203.1）补9.2

203.移除链表元素第二次做这题，会做，上次做还用的C语言呢。。。 class Solution {public ListNode removeElements(ListNode…

人工智能 2023年6月26日
0082
概率统计笔记：威沙特分布（Wishart Distribution）

1 威沙特分布定义 1.1 中心威沙特分布假设X是一个n×p维的矩阵，其中每一行的p元向量均为满足p维正态分布的向量，即：当p=1，即每个X维为1维的时候，威沙特分布就变成了一…

人工智能 2023年6月16日
00104
小样本图像分类之 Prototypical Networks 复现

深度学习最大的诟病就是靠海量的数据就行驱动，与人的认知过程不一样，人可以只通过少量的训练样本就可以快速泛化到目标任务上。受人认知过程的影响。小样本学习被提出并成为当前一个比较热门的…

人工智能 2023年6月30日
0085
python: 开始使用tensorflow 出现的一些问题即解决办法

python 用了快一年了，想试用一下tensorflow, 了解一下深度学习(deep learning), 但是与其他的模块不同， tensorflow用起来并不容易，或许…

人工智能 2023年7月5日
0066
python数据可视化（饼图、世界地图、折线图、柱状图）

一、数据说明数据有每个国家对应的近20年的对于儿童超重和营养不良占比和人数的三种类型（estimate字段）评估数据，一共四个sheet，就是儿童超重比例、儿童超重人数、儿童营养…

人工智能 2023年7月7日
0057
MPai数据科学平台随机森林分类回归参数调整讲解

决策树的个数（n_estimators ）：这是森林中树木的数量，即基评估器的数量。这个参数对随机森林模型的精确性影响是单调的，决策树的个数越大，模型的效果往往越好。但是相应的，…

人工智能 2023年7月3日
0075
综述：联邦学习隐私保护

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月16日
0071
GAN-生成对抗网络-生成手写数字(基于pytorch)

什么是GAN GAN(Generative Adversarial Network)，网络也如他的名字一样，有生成，有对抗，两个网络相互博弈。我们给两个网络起个名字，第一个网络用来…

人工智能 2023年7月22日
0055
#轻量级网络 MobileNetV1+V2+V3（原理+结构详解+代码）

目录 MobileNetV1 Depthwise separable convolution：深度可分离卷积原理介绍：深度可分离网络结构： MobileNet网络结构：控制模…

人工智能 2023年6月22日
00105
SPSS安装教程

SPSS安装教程 [软件名称]：SPSS 26 [软件语言]：简体中文 [软件大小]：2.18G [安装环境]： Win10/Win8/Win7 [硬件要求]： CUP@2GHZ内…

人工智能 2023年7月15日
00120

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31