机器学习学习笔记：sklearn.preprocessing.PolynomialFeatures偏置值inlude_bias设置，以及在Pipeline中的设置

2023年6月12日下午5:54 • 人工智能 • 阅读 94

在人工智能课程中学习线性回归一章时，高阶线性回归需要用到PolynomialFeatures方法构造特征。

先看一下官方文档对于sklearn.preprocessing.PolynomialFeatures方法的解释：

Generate polynomial and interaction features.

Generate a new feature matrix consisting of all polynomial combinations of the features with degree less than or equal to the specified degree. For example, if an input sample is two dimensional and of the form [a, b], the degree-2 polynomial features are [1, a, b, a^2, ab, b^2].

简单翻译一下，意思就是：

生成多项式交互特征。

生成一个新的特征矩阵，包含特定阶数及以下的全部多项式组合。例如，样本特征为二维的，包含[a, b]。其全部二阶多项式特征为[1, a, b, a^2, ab, b^2]。

解释一下，其中包含0阶特征[1]，一阶特征为[a， b]，二阶特征[a^2, ab, b^2]。也就是说，你只要输入[a, b]，自动生成并返回[1, a, b, a^2, ab, b^2]这样一个特征矩阵。（偏置值设为默认值include_bias=True）

在用线性模型LinearRegression拟合时，输入新生成的特征矩阵和标签值矩阵，便可以拟合训练为一个相应高阶的模型。

下面展示一下PolynomialFeatures的使用：

1、首先创建一个数据集。

将其分为训练集和验证集，由于这里用不到所以先不生成测试集了。

import numpy as np
from sklearn.model_selection import train_test_split

生成训练集与验证集，数据带有标准差为0.1的噪声
n = 100
n_train = int(0.8 * n)
n_valid = int(0.2 * n)
x = 6 * np.random.rand(n, 1) - 3
y = 1.2 * x - 3.4 * (x ** 2) + 5.6 * (x ** 3) + 5 + 0.1 * np.random.randn(n, 1)
x_train_set, x_valid_set, y_train_set, y_valid_set = train_test_split(x, y, test_size=0.2, random_state=5)

2、调用PolynomialFeatures方法生成特征矩阵。

由于我们的特征样本只有[x]，并且设为三阶（degree=3），所以生成的特征矩阵（include_bias=True）为[1, x, x^2, x^3]。

可以看到矩阵下标为0的这列全部为’1’，这就是偏置值的作用。

机器学习学习笔记：sklearn.preprocessing.PolynomialFeatures偏置值inlude_bias设置，以及在Pipeline中的设置

3、设置偏置值include_bias=False

生成的特征矩阵变为[x, x^2, x^3]

4.1、带入公式计算参数theta

此时的X_poly是include_bias=True时生成的

4.2、或是使用sklearn.linear_model.LinearRegression拟合模型

此时的X_poly是include_bias=False生成的

5、Pipeline中inlude_bias的设置

根据上面的例子，我们可以看到，使用sklearn的LinearRegression方法进行模型拟合时，输入的是不含偏置值的特征矩阵，即include_bias=False。

同理，可以理解，在使用sklearn.pipeline.Pipeline是，如果需要生成多项式特征矩阵，LinearRegression方法的偏置值设置也是include_bias=False。

如下图

Original: https://www.cnblogs.com/mumuxin-gv/p/15393598.html
Author: 木心95
Title: 机器学习学习笔记：sklearn.preprocessing.PolynomialFeatures偏置值inlude_bias设置，以及在Pipeline中的设置

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/604889/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

sklearn入门——聚类算法KMeans

概述聚类算法是无监督学习的代表算法之一，也叫”无监督分类”。目的是将数据分为若干有意义或有用的组，通常根据实际需求来进行划分。聚类可以用于降维和矢量量化（…

人工智能 2023年5月31日
0069
读《EMOQ-TTS: EMOTION INTENSITY QUANTIZATION FOR FINE-GRAINED CONTROLLABLE EMOTIONAL TEXT-TO-SPEECH》

0 Abstract虽然近年来文本到语音(TTS)的研究取得了显著进展，但仍局限于情感语音合成。为了产生情感话语，大多数作品都利用了从情感标签或参考音频中提取的情感信息。然而，由…

人工智能 2023年5月23日
0086
中文三元组联合标注工具LAnn介绍

中文三元组联合标注工具LAnn介绍摘要 1. 安装部署 2. 标注界面 3. 使用方法 * 3.1 配置实体类型和关系类型 – 配置实体类型配置关系类型配置按键映…

人工智能 2023年6月1日
00147
量化投资作业的R实现——收益率相关图形绘制

Tushare ID：482621Tushare是一个免费的大数据平台，你可以很方便地在上面获取各种各样的数据，包括但不限于股票数据（日度，月度，年度），公司财务数据（三大报表），…

人工智能 2023年7月15日
0055
Pandas中DataFrame的属性、方法、常用操作以及使用示例

; 前言系列文章目录[Python]目录视频及资料和课件链接：https://pan.baidu.com/s/1LCv_qyWslwB-MYw56fjbDg?pwd=1234提取…

人工智能 2023年7月7日
0044
用粉红噪声煲机_煲机知识 | 煲机常用的粉红噪音和白噪音是什么？

对于很多发烧友来说，他们也应该对烧机有一定的了解。购买新耳机后，他们会播放一些常用的电脑烧录音乐来烧机。但人们经常说，用粉色噪音和白色噪音烧毁机器。这是一种什么方式？ [En] F…

人工智能 2023年5月27日
00106
MacBook Pro使用小技巧，Mac及win操作功能对比

Original: https://www.cnblogs.com/aurora-123/p/16737486.htmlAuthor: 佛系女孩Title: MacBook Pro…

人工智能 2023年6月3日
0048
时序预测TCN模型

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月16日
0050
计算机视觉算法面试必备知识点（2022）

去年面试字节的时候，准备了一些算法常用的面试知识点，事实证明，准备的还不错。现在分享给大家，希望自己求职路也顺利些。目录优化算法，Adam, Momentum, Adagard…

人工智能 2023年5月26日
0099
深度学习基础学习-注意力机制（计算机视觉中）

在网上看到很多关于注意力机制的说明，下面自己总结一下。大佬绕道下面放几个文章的链接添深度学习中的注意力模型计算机视觉中的注意力机制图像处理注意力机制Attention汇总注意力机制…

人工智能 2023年6月16日
0071
一文读懂机器学习分类全流程

目录前言提出问题一、介绍 1.分类简介 2.imblearn的安装二、数据加载及预处理 1.加载并查看数据 ①导入Python第三方库 ②调用并查看数据 2.查看数据分布 …

人工智能 2023年7月4日
0050
举个栗子~Tableau 技巧（225）：制作事件节点时间轴

我们经常在汇报场景中，会用到事件时间轴：按照时间节点，呈现项目或事件各节点的完成时间及内容，如下图：这样的呈现在 Tableau 中如何实现呢？栗子方法，一睹为快吧~ 本期《举个…

人工智能 2023年7月16日
0053
【vision transformer】DETR原理及代码详解（一）

DETR: End-to-End Object Detection with Transformers 论文： https://arxiv.org/pdf/2005.12872.p…

人工智能 2023年7月12日
0068
知识点练习对话辅助器（简易版）

知识点练习对话辅助器（简易版）一、概述在专业面试的时候经常会有人（比如说我自己=_=）知识点理解的很好，且在平时中也能够比较清晰的讲述出来。但是到了面试的时候，在面试官的注视下…

人工智能 2023年5月25日
0088
[debug]PyTorch报错：ConnectionResetError:[Errno104]Connectionresetbypeer

问题描述：使用PyTorch 1.10.0，训练报错： ConnectionResetError: [Errno 104] Connection reset by peer 问题…

人工智能 2023年7月24日
0050
【OpenCV】OpenCV-Python实现相机标定+利用棋盘格相对位姿估计

写在前面：这次要实现的功能：实时检测棋盘格相对于摄像头的距离以及位姿。为此主要步骤可分为以下三个步骤：标定图片的拍摄、相机的标定、以及棋盘格位姿的实时解算。目录 1. 标定图片…

人工智能 2023年6月18日
0075

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

机器学习学习笔记：sklearn.preprocessing.PolynomialFeatures偏置值inlude_bias设置，以及在Pipeline中的设置

大家都在看