主动学习(Active Learning，AL)的理解以及代码流程讲解

2023年7月13日上午3:37 • 人工智能 • 阅读 91

为什么要使用主动学习(Active Learning，AL)

针对有监督的学习任务，存在 标记成本较为昂贵且标记难以大量获取的问题。
在此问题背景下，主动学习（Active Learning, AL）尝试通过 选择性的标记较少数据而训练出表现较好的模型。

例如，此时我们有大量的猫和狗的数据，假设人为标记他们的类别是成本非常高的事情，这时需要用到主动学习从中挑选部分数据对他们进行标注以节约成本， 用主动模型选取出的标注数据训练的模型比 随机选取出的相同数量的标注数据训练的模型精度更高。

如图所示，图(a)是全部数据集，图©中使用主动学习策略仅选取30个样本训练出的逻辑回归模型即可达到90%的准确率，而图(b)中随机选取的30个样本训练出的模型却相对表现较差。

; 主动学习的工作流程

主动学习的关键是你 选择的模型、 使用的不确定性度量以及 应用于请求标注的查询策略。

1.收集数据&选取模型

开始先选择一定数量的数据进行标注，选取我们需要训练的模型（比如逻辑回归模型）。

2.训练模型

将标注好的数据放入模型中进行训练，此时精度不会很高。

3.判断精度是否达到要求

①若精度达到要求（比如99%），则表示模型以及训练好，可以应用。
②若精度没有达到要求（比如只有12%），则表示模型未被训练好，这是需要利用主动学习选取 对模型精度的提高最有用的数据进行人工标注。

4.定义查询策略

包括度量预测的不确定度和应用于请求标注的查询策略，返回策略选择出的需要标注的数据，进行人工标注，转至第2步。
例如：

def custom_query_strategy(classifer, X):
    utility = utility_measure(classifer, X)
    query_idx = select_instances(utility)
    return query_idx,X[query_idx]

主动学习的pytorch编码流程

主动学习的编写代码流程如下：

; 代码实战

接下来我们以一个主动回归例子为主，实现主动学习的编码。

1.导入相应的包

import numpy as np
import matplotlib.pyplot as plt
from sklearn.gaussian_process import GaussianProcessRegressor
from sklearn.gaussian_process.kernels import WhiteKernel, RBF
from modAL.models import ActiveLearner
%matplotlib inline

2.数据集准备以及初始数据集的选取


X = np.random.choice(np.linspace(0, 20, 10000), size=200, replace=False).reshape(-1, 1)
y = np.sin(X) + np.random.normal(scale=0.3, size=X.shape)


with plt.style.context('seaborn-white'):
    plt.figure(figsize=(10, 5))
    plt.scatter(X, y, c='k', s=20)
    plt.title('sin(x) + noise')
    plt.show()


n_initial = 5
initial_idx = np.random.choice(range(len(X)), size=n_initial, replace=False)
X_training, y_training = X[initial_idx], y[initial_idx]

3.定义主动学习器ActiveLeaner

（参数包括模型的选取estimator、应用于请求标注的查询策略query_stategy以及初始数据）
我们使用高斯回归作为模型进行训练GaussianProcessRegressor


kernel = RBF(length_scale=1.0, length_scale_bounds=(1e-2, 1e3)) \
         + WhiteKernel(noise_level=1, noise_level_bounds=(1e-10, 1e+1))


def GP_regression_std(regressor, X):
    _, std = regressor.predict(X, return_std=True)
    query_idx = np.argmax(std)
    return query_idx, X[query_idx]


regressor = ActiveLearner(
    estimator=GaussianProcessRegressor(kernel=kernel),
    query_strategy=GP_regression_std,
    X_training=X_training.reshape(-1, 1), y_training=y_training.reshape(-1, 1)
)


X_grid = np.linspace(0, 20, 1000)
y_pred, y_std = regressor.predict(X_grid.reshape(-1, 1), return_std=True)
y_pred, y_std = y_pred.ravel(), y_std.ravel()
with plt.style.context('seaborn-white'):
    plt.figure(figsize=(10, 5))
    plt.plot(X_grid, y_pred)
    plt.fill_between(X_grid, y_pred - y_std, y_pred + y_std, alpha=0.2)
    plt.scatter(X, y, c='k', s=20)
    plt.title('Initial prediction')
    plt.show()

4.定义n_queries（要标记数据的数量）进行主动学习


n_queries = 10
for idx in range(n_queries):
    query_idx, query_instance = regressor.query(X)
    regressor.teach(X[query_idx].reshape(1, -1), y[query_idx].reshape(1, -1))

5.最终结果可视化

y_pred_final, y_std_final = regressor.predict(X_grid.reshape(-1, 1), return_std=True)
y_pred_final, y_std_final = y_pred_final.ravel(), y_std_final.ravel()
with plt.style.context('seaborn-white'):
    plt.figure(figsize=(10, 8))
    plt.plot(X_grid, y_pred_final)
    plt.fill_between(X_grid, y_pred_final - y_std_final, y_pred_final + y_std_final, alpha=0.2)
    plt.scatter(X, y, c='k', s=20)
    plt.title('Prediction after active learning')
    plt.show()

可见，使用主动学习的方法让我们仅使用了25个点就拟合出1000个点生成的图像，大大节约了人工标记的成本。

参考链接：
https://zhuanlan.zhihu.com/p/377045943

Original: https://blog.csdn.net/weixin_45928096/article/details/123791389
Author: 来包番茄沙司
Title: 主动学习(Active Learning，AL)的理解以及代码流程讲解

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/688995/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【Python】matplotlib.pyplot显示图片

1.figure语法及操作(1)figure语法说明 figure(num=None, figsize=None, dpi=None, facecolor=None, edgeco…

人工智能 2023年5月26日
0084
数据分析——Pandas的用法（Series,DataFrame）

我们先要了解，pandas是基于Numpy构建的，pandas中很多的用法和numpy一致。pandas中又有series和DataFrame，Series是DataFrame的基…

人工智能 2023年6月2日
0065
并发系统：作业一

2 From LTS to FSP 2.1 For each of the following processes, give the Finite State Process (…

人工智能 2023年6月26日
0082
生态系统类型空间分布数据/土地利用数据/植被类型数据/NPP数据/土壤侵蚀数据/土壤质地分类/降雨量栅格数据

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月3日
0084
知识蒸馏(Knowledge Distillation)

知识蒸馏(Knowledge Distillation) 从大型、深层的教师网络中提炼知识并转移到小型、简单的学生网络中更深更广→更浅更薄 ; 知识(Knowledge) 基于响…

人工智能 2023年6月1日
0074
VisionTrain 1.4.2 目标检测

训练及预测要求目标检测训练建议采用6G及以上显卡训练，单个目标检测模块运行检测需2G显存，多模块或多流程则需2G以上显存，推荐使用GTX1660Ti、GTX1080、GTX108…

人工智能 2023年7月10日
0069
多模态知识图谱构建和推理技术王萌东南大学

Multimodal knowledge：对某种东西从不同魔台上的意识或理解。对相同事实抽取出多模态知识。用不同模态知识表示相同个体（描述相同时事情）。e.g.1 上海天气晴。传…

人工智能 2023年6月1日
00112
vscode搭建Verilog HDL开发环境

工欲善其事，必先利其器。应该没有多少人会使用Quartus和vivado这些软件自带的编辑器吧，原因在于这些编辑器效率很低，Verilog HDL代码格式比较固定，通常可以利用代码…

人工智能 2023年7月29日
0078
[源码解析] TensorFlow 分布式环境(3)— Worker 静态逻辑

[源码解析] TensorFlow 分布式环境(3)— Worker 静态逻辑文章目录 [源码解析] TensorFlow 分布式环境(3)— Worker 静态逻辑…

人工智能 2023年5月25日
0075
Mel频率倒谱系数-MFCC

MFCC：Mel频率倒谱系数的缩写。目的：模拟人耳对不同频率语音的感知 Mel频率和Hz频率的关系人类对不同频率语音有不同的感知能力: 1kHz以下，与频率成线性关系。 1kH…

人工智能 2023年5月25日
0071
引入注意力机制

在模型中引入注意力机制深度学习attention 机制是对人类视觉注意力机制的仿生，本质上是一种资源分配机制。生理原理就是人类视觉注意力能够以高分辨率接收于图片上的某个区域，并…

人工智能 2023年5月31日
0090
使用vite和Element Plus，实现部署后不修改代码/打包，新增主题/皮肤包

Web前端界面切换主题/皮肤，是一个常见的需求。如果希望在打包部署后实现皮肤的修改甚至增加皮肤，不需要修改源码或者重新打包，类似于我们常见的皮肤包扩展，又该如何实现呢？我使用类似上…

人工智能 2023年7月30日
0084
树莓派串口简单测试语音识别模块

1.LDV7 语音识别模块主要参数模块参数:型号：YS-LDV7名称：集成语音识别模块 [En] Name: integrated speech recognition modu…

人工智能 2023年5月27日
00108
机器学习库Scikit-Learn（线性模型、岭回归、插入一列数据（insert）、提取所需列、向量机（SVM）、聚类）

本文来自《Python数据分析从入门到精通》-明日科技编著机器学习顾名思义就是让机器（计算机）模拟人类学习，有效提高工作效率。Python提供的第三方库Scikit-Learn融…

人工智能 2023年6月2日
0074
加速度传感器原理、结构、使用方法等介绍

►加速度传感器原理 ►加速度传感器使用方法 ►加速度传感器型号分类 ►加速度传感器应用领域振动传感器的分类：振动测量中有加速度、速度、位移的测量。其中压电型加速度传感器在振动和…

人工智能 2023年6月2日
0094
【论文导读】 – 关于联邦图神经网络的3篇文章

文章目录 Federated Graph Neural Networks: Overview, Techniques and Challenges * 论文信息摘要主要内容 A…

人工智能 2023年6月25日
00114

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31