R语言机器学习mlr3：特征选择和hyperband调参

2023年7月17日上午7:56 • 人工智能 • 阅读 57

获取更多R语言和生信知识，请关注公众号：医学和生信笔记。
公众号后台回复 R语言，即可获得海量学习资料！

Hyperband调参

Hyperband调参可看做是一种特殊的随机搜索方式，俗话说：”鱼与熊掌不可兼得”，Hyperband就是取其一种，感兴趣的小伙伴可以自己学习一下。

在这里举一个简单的小例子说明：
假如你有8匹马，每匹马需要4个单位的食物才能发挥最好，但是你现在只有32个单位的食物，所以你需要制定一个策略，充分利用32个单位的食物（也就是你的计算资源）来找到最好的马。
两种策略，第一种：直接放弃4匹马，把所有的食物用在另外4匹马上，这样到最后你就能挑选出4匹马中最好的一匹。但是这样的问题就是你不知道被你舍弃的那4匹马会不会有更好的。
第2种策略：在最开始时每匹马给1个单位食物，然后看它们表现，把表现好的4匹留下，表现不好的就舍弃，给予剩下4匹马更多的食物，然后再把表现好的2匹留下，如此循环，最好把剩下的食物给最后1匹马。

我们主要介绍通过 mlr3hyperband包实现这一方法。

library(mlr3verse)

set.seed(123)

ll = po("subsample") %>>% lrn("classif.rpart")

search_space = ps(
  classif.rpart.cp = p_dbl(lower = 0.001, upper = 0.1),
  classif.rpart.minsplit = p_int(lower = 1, upper = 10),
  subsample.frac = p_dbl(lower = 0.1, upper = 1, tags = "budget")
)

instance = TuningInstanceSingleCrit$new(
  task = tsk("iris"),
  learner = ll,
  resampling = rsmp("holdout"),
  measure = msr("classif.ce"),
  terminator = trm("none"),
  search_space = search_space
)

接下来进行hyperband调参：

library(mlr3hyperband)

tuner  tnr("hyperband", eta = 3)

lgr::get_logger("bbotk")$set_threshold("warn")

tuner$optimize(instance)

查看结果：

instance$result

instance$result_learner_param_vals

instance$result_y

特征选择

特征选择也是一门艺术，当我们拿到一份数据时，有很多信息是冗余的，是无效的，对于建模是没有帮助的。这样的变量用于建模只会增加噪声，降低模型表现。把冗余信息去除，挑选最合适的变量的过程被称为 特征选择。

这种方法首先把所有预测变量计算一个分数，然后按照分数进行排名，这样我们就可以根据分数挑选合适的预测变量了。

查看支持的计算分数的方法：

mlr_filters

特征工程是很复杂的，想要详细了解的可阅读相关书籍。

目前只支持分类和回归。

filter  flt("jmim")

task  tsk("iris")
filter$calculate(task)

filter

可以看到每个变量都计算出来一个分数。


filter_cor  flt("correlation")

filter_cor$param_set


filter_cor$param_set$values  list(method = "spearman")
filter_cor$param_set

所有支持 importance参数的 learner都支持这种方法。

比如：

lrn  lrn("classif.ranger", importance = "impurity")

task  tsk("iris")
filter  flt("importance", learner = lrn)
filter$calculate(task)
filter

和超参数调优很相似， mlr3fselect包提供支持。

library(mlr3fselect)

task  tsk("pima")
learner  lrn("classif.rpart")
hout  rsmp("holdout")
measure  msr("classif.ce")

evals20  trm("evals", n_evals = 20)

instance  FSelectInstanceSingleCrit$new(
  task = task,
  learner = learner,
  resampling = hout,
  measure = measure,
  terminator = evals20
)
instance

目前 mlr3fselect支持以下方法：

Random Search(FSelectRandomSearch)
Exhaustive Search (FSelectorExhaustiveSearch)
Sequential Search (FSelectorSequential)
Recursive Feature Elimination (FSelectorRFE)
Design Points (FSelectorDesignPoints)

我们挑选一个随机搜索：

fselector  fs("random_search")

开始运行：

lgr::get_logger("bbotk")$set_threshold("warn")

fselector$optimize(instance)

查看选中的变量：

instance$result_feature_set

查看结果：

instance$result_y

as.data.table(instance$archive)

instance$archive$benchmark_result$data

应用于模型，训练任务：

task$select(instance$result_feature_set)
learner$train(task)

learner = lrn("classif.rpart")
terminator = trm("evals", n_evals = 10)
fselector = fs("random_search")

at = AutoFSelector$new(
  learner = learner,
  resampling = rsmp("holdout"),
  measure = msr("classif.ce"),
  terminator = terminator,
  fselector = fselector
)
at

比较不同的子集得到的模型表现：

grid = benchmark_grid(
  task = tsk("pima"),
  learner = list(at, lrn("classif.rpart")),
  resampling = rsmp("cv", folds = 3)
)

bmr = benchmark(grid, store_models = TRUE)

bmr$aggregate(msrs(c("classif.ce", "time_train")))

获取更多R语言和生信知识，请关注公众号：医学和生信笔记。
公众号后台回复 R语言，即可获得海量学习资料！

Original: https://blog.csdn.net/Ayue0616/article/details/123421580
Author: 医学和生信笔记
Title: R语言机器学习mlr3：特征选择和hyperband调参

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/698208/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Jetson AGX Orin上部署YOLOv5_v5.0+TensorRT8

一．首先是捋请思路 ①刷机后的Orin上环境是：CUDA11.4+CUDNN8.3.2使得后续需要的部署环境只能为TensorRT8.x（这是根据cuda和cudnn的版本确定的，…

人工智能 2023年7月21日
0068
Pandas中创建DataFrame对象以及相关的列操作，行操作

创建DataFrame对象 pd.DataFrame(data=None,index=None,columns=None,dtype=None,copy=None) 使用嵌套列表创…

人工智能 2023年7月15日
0072
2022年JAVA短信加语音组合方案API

在一些重要信息通知的场景，需要用户能收到且关注到信息，采用短信+语音通知同步推送的方式，能很好的解决这个问题。场景一：相同内容的短信通知+语音通知同步发送在推送短信的同时，同步…

人工智能 2023年5月23日
0075
C#讯飞实时语音识别和语音合成

目录 MSC模块导入及添加枚举常量等语音识别模块语音合成模块最终结果工程使用说明代码下载最近由于需要做一个关于语音的c#项目，经老师推荐使用了讯飞的语音识别和合成的接口…

人工智能 2023年5月27日
00207
2021-11-14 Covins跑euroc数据集

此Covins是2021年苏黎世联邦理工大学机器人实验室出的COVINS – A Framework for Collaborative Visual-Inertial SLAM …

人工智能 2023年6月11日
0075
MATLAB学习笔记_Day05相关性分析、偏相关分析、主层次分析(聚类、相关系数矩阵热图)

学习视频：【零基础教程】老哥：数学建模算法、编程、写作和获奖指南全流程培训！文章目录 1. 相关性分析 * 1.1 相关概念 1.2 SPSS软件简单使用 2. 偏相关性分析 …

人工智能 2023年5月31日
0071
PIL.image保存图片

1.原图 1.首先PIL保存图片的时候,图片类型一定要是ndarray类型,不能是tensor类型,否则报错 img=cv2.imread("./epoch034_ite…

人工智能 2023年7月4日
0065
为Jupyter notebook创建新kernel

在新的虚拟环境中创建kernel 进入需要创建kernel的虚拟环境 conda activate pytorch 安装ipykernel ipykernel是必须安装的，也可以直…

人工智能 2023年6月4日
0077
【时序】动态时间规整（DTW）算法原理及Python实现

DTW 简介 DTW 定义动态时间规整（Dynamic Time Warping，DTW）用于比较具有不同长度的两个阵列或时间序列之间的相似性或距离。假设您要计算两个等长数组…

人工智能 2023年5月27日
0099
模式识别（3）Kmeans和FCM

Kmeans和FCM Kmeans算法作为应用最广泛的基于划分的聚类算法之一，适用于处理大样本数据。是一种典型的基于相似性度量的方法，目标是根据输入参数K将数据集划分为K类。由于初…

人工智能 2023年6月2日
0088
深度学习——多分类问题(SOFTMAX MNIST)-学习笔记

深度学习——多分类问题在深度学习里有个经典的数据集MNIST-dataset ，它是一个手写的数字照片集合，也是一个经典的多分类的问题这个集合是由0～9 10个数组成的集合，我…

人工智能 2023年6月30日
0084
深度学习面试基础–BN层

一、BN层的由来训练深度学习网络是一个相当复杂的过程，每个层的输入分布在训练中会随着前一层的参数变化而变化。使用更好的参数初始化或者使用较低的分辨率能够一定程度上缓和这个问题，但…

人工智能 2023年6月15日
0097
C语言：写好代码减少debug

一、如何写好代码减少debug 以编写图像Mat矩阵的基本操作为例要求：一些建议：二.示例以编写图像Mat矩阵的基本操作为例 1.全部使用C语言利用struct定义矩阵数据…

人工智能 2023年6月22日
0076
【论文笔记】Combining Reinforcement Learning and Rule-based Method to Manipulate Objects in Clutter

Abstract To reduce the complexity of strategy learning, we propose a framework for robots …

人工智能 2023年7月10日
0080
物理信息驱动的深度学习相比于传统数值方法的潜在优势

物理驱动的神经网络相比于传统数值方法在哪些问题上有潜在优势？刚接触到物理驱动的神经学习方法时，总会有一些疑惑：物理驱动的深度学习方法在求解一些物理系统（由物理方程所描述控制的系统…

人工智能 2023年6月24日
0077
Python中的True和False详解

Python中的 True和 False总是让人困惑，一不小心就会用错，本文总结了三个易错点，分别是逻辑取反、if条件式和pandas.DataFrame.loc切片中的条件式。 …

人工智能 2023年7月6日
0071

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

R语言机器学习mlr3：特征选择和hyperband调参

Hyperband调参

特征选择

大家都在看