学习笔记ing

2023年5月26日下午5:12 • 人工智能 • 阅读 54

动手深度学习tensorflow

Liner Regression
*
1.线性回归的基本要素
2.线性模型
3.损失函数
–
- 解析解
4.随机梯度下降（SGD)
–
- 用模型进行预测
5.矢量化加速
正态分布与平方损失
小结

Liner Regression

回归（regression）是能为一个或多个自变量与因变量之间关系建模的一类方法。在自然科学和社会科学领域，回归经常用来表示输入和输出之间的关系。
当我们想预测一个数值时，就会涉及到回归问题。常见的例子包括：预测价格（房屋、股票等）、预测住院时间（针对住院病人等）、预测需求（零售销量等）。但不是所有的预测都是回归问题。在后面的章节中，我们将介绍分类问题。分类问题的目标是预测数据属于一组类别中的哪一个。

1.线性回归的基本要素

线性回归基于几个简单的假设：

假设自变量 x 和因变量 y 之间的关系是线性的
这里通常允许包含观测值的一些噪声
我们假设任何噪声都比较正常，如噪声遵循正态分布。

举例说明:我们希望根据房屋的面积（平方英尺）和房龄（年）来估算房屋价格（美元）。
我们需要收集一个真实的数据集。
这个数据集包括了房屋的销售价格、面积和房龄。

该数据集称为训练数据集（training data set）或训练集（training set）。
一次房屋交易相对应的数据，称为样本(sample), 也可以称为数据点（data point）或数据样本（data instance）。
房屋价格称为labeling or target(标签或目标）
预测所依据的自变量（面积和房龄）称为特征（feature）或协变量（covariate）。

2.线性模型

p r i c e = w a r e a ⋅ a r e a + w a g e ⋅ a g e + b . \mathrm{price} = w_{\mathrm{area}} \cdot \mathrm{area} + w_{\mathrm{age}} \cdot \mathrm{age} + b.p r i c e =w a r e a ⋅a r e a +w a g e ⋅a g e +b .

warea 和wage 称为权重（weight）
b 称为偏置（bias）、偏移量（offset）或截距（intercept）可以增强模型表达能力。
仿射变换的特点是通过加权和对特征进行线性变换（linear transformation），并通过偏置项来进行平移（translation）

由于在机器学习中，我们经常使用高维数据集，所以通常我们用线性代数的方法进行表示：
y ^ = w 1 x 1 + . . . + w d x d + b . \hat{y} = w_1 x_1 + … + w_d x_d + b.y ^=w 1 x 1 +…+w d x d +b .
y ^ = w ⊤ x + b . \hat{y} = \mathbf{w}^\top \mathbf{x} + b.y ^=w ⊤x +b .
y ^ = X w + b {\hat{\mathbf{y}}} = \mathbf{X} \mathbf{w} + b y ^=X w +b

3.损失函数

损失函数（loss function）能够量化目标的实际值与预测值之间的差距。
线性回归中，我们通常使用均方差作为我们的loss function。

l ( i ) ( w , b ) = 1 2 ( y ^ ( i ) − y ( i ) ) 2 . l^{(i)}(\mathbf{w}, b) = \frac{1}{2} \left(\hat{y}^{(i)} – y^{(i)}\right)^2.l (i )(w ,b )=2 1 (y ^(i )−y (i ))2 .

在训练模型时，我们希望寻找一组参数（w ∗ , b ∗ \mathbf{w}^, b^w ∗,b ∗），
这组参数能最小化在所有训练样本上的总损失。如下式：

w ∗ , b ∗ = * ⁡ a r g m i n w , b L ( w , b ) . \mathbf{w}^, b^ = \operatorname{argmin}_{\mathbf{w}, b}\ L(\mathbf{w}, b).w ∗,b ∗=a r g m i n w ,b L (w ,b ).

解析解

首先，我们将偏置b b b合并到参数w \mathbf{w}w中，合并方法是在包含所有参数的矩阵中附加一列。
我们的预测问题是最小化∥ y − X w ∥ 2 \|\mathbf{y} – \mathbf{X}\mathbf{w}\|^2 ∥y −X w ∥2。
这在损失平面上只有一个临界点，这个临界点对应于整个区域的损失极小点。
将损失关于w \mathbf{w}w的导数设为0，得到解析解：

w ∗ = ( X ⊤ X ) − 1 X ⊤ y . \mathbf{w}^* = (\mathbf X^\top \mathbf X)^{-1}\mathbf X^\top \mathbf{y}.w ∗=(X ⊤X )−1 X ⊤y .

4.随机梯度下降（SGD)

在每一次更新参数之前，我们必须遍历整个数据集。因此，我们通常会在每次需要计算更新的时候随机抽取一小批样本，这种变体叫做小批量随机梯度下降（minibatch stochastic gradient descent）。

首先随机抽样一个小批量 B ，它是由固定数量的训练样本组成
我们计算小批量的平均损失关于模型参数的导数（也可以称为梯度）

我们用数学表达式表示该过程：
( w , b ) ← ( w , b ) − η ∣ B ∣ ∑ i ∈ B ∂ ( w , b ) l ( i ) ( w , b ) . (\mathbf{w},b) \leftarrow (\mathbf{w},b) – \frac{\eta}{|\mathcal{B}|} \sum_{i \in \mathcal{B}} \partial_{(\mathbf{w},b)} l^{(i)}(\mathbf{w},b).(w ,b )←(w ,b )−∣B ∣ηi ∈B ∑∂(w ,b )l (i )(w ,b ).

n为学习率

算法步骤如下：

初始化模型参数的值，如随机初始化；
从数据集中随机抽取小批量样本且在负梯度的方向上更新参数，并不断迭代这一步骤。

对于平方损失和仿射变换，我们可以明确地写成如下形式:
w ← w − η ∣ B ∣ ∑ i ∈ B ∂ w l ( i ) ( w , b ) = w − η ∣ B ∣ ∑ i ∈ B x ( i ) ( w ⊤ x ( i ) + b − y ( i ) ) , b ← b − η ∣ B ∣ ∑ i ∈ B ∂ b l ( i ) ( w , b ) = b − η ∣ B ∣ ∑ i ∈ B ( w ⊤ x ( i ) + b − y ( i ) ) . \begin{aligned} \mathbf{w} &\leftarrow \mathbf{w} – \frac{\eta}{|\mathcal{B}|} \sum_{i \in \mathcal{B}} \partial_{\mathbf{w}} l^{(i)}(\mathbf{w}, b) = \mathbf{w} – \frac{\eta}{|\mathcal{B}|} \sum_{i \in \mathcal{B}} \mathbf{x}^{(i)} \left(\mathbf{w}^\top \mathbf{x}^{(i)} + b – y^{(i)}\right),\ b &\leftarrow b – \frac{\eta}{|\mathcal{B}|} \sum_{i \in \mathcal{B}} \partial_b l^{(i)}(\mathbf{w}, b) = b – \frac{\eta}{|\mathcal{B}|} \sum_{i \in \mathcal{B}} \left(\mathbf{w}^\top \mathbf{x}^{(i)} + b – y^{(i)}\right). \end{aligned}w b ←w −∣B ∣ηi ∈B ∑∂w l (i )(w ,b )=w −∣B ∣ηi ∈B ∑x (i )(w ⊤x (i )+b −y (i )),←b −∣B ∣ηi ∈B ∑∂b l (i )(w ,b )=b −∣B ∣ηi ∈B ∑(w ⊤x (i )+b −y (i )).

用模型进行预测

给定”已学习”的线性回归模型w ^ ⊤ x + b ^ \hat{\mathbf{w}}^\top \mathbf{x} + \hat{b}w ^⊤x +b ^，
现在我们可以通过房屋面积x 1 x_1 x 1 和房龄x 2 x_2 x 2 来估计一个（未包含在训练数据中的）新房屋价格。
给定特征估计目标的过程通常称为预测（prediction）

5.矢量化加速

在训练我们的模型时，我们经常希望能够同时处理整个小批量的样本。
为了实现这一点，需要(我们对计算进行矢量化，
从而利用线性代数库，而不是在Python中编写开销高昂的for循环)。

正态分布与平方损失

%matplotlib inline
import math
import time
import numpy as np
import tensorflow as tf
from d2l import tensorflow as d2l

def normal(x, mu, sigma):
    p = 1 / math.sqrt(2 * math.pi * sigma**2)
    return p * np.exp(-0.5 / sigma**2 * (x - mu)**2)

x = np.arange(-7, 7, 0.01)

params = [(0, 1), (0, 2), (3, 1)]
d2l.plot(x, [normal(x, mu, sigma) for mu, sigma in params], xlabel='x',
         ylabel='p(x)', figsize=(4.5, 2.5),
         legend=[f'mean {mu}, std {sigma}' for mu, sigma in params])

y = w ⊤ x + b + ϵ , y = \mathbf{w}^\top \mathbf{x} + b + \epsilon,y =w ⊤x +b +ϵ,
其中，ϵ ∼ N ( 0 , σ 2 ) \epsilon \sim \mathcal{N}(0, \sigma^2)ϵ∼N (0 ,σ2 )。
因此，我们现在可以写出通过给定的x \mathbf{x}x观测到特定y y y的似然（likelihood）：

P ( y ∣ x ) = 1 2 π σ 2 exp ⁡ ( − 1 2 σ 2 ( y − w ⊤ x − b ) 2 ) . P(y \mid \mathbf{x}) = \frac{1}{\sqrt{2 \pi \sigma^2}} \exp\left(-\frac{1}{2 \sigma^2} (y – \mathbf{w}^\top \mathbf{x} – b)^2\right).P (y ∣x )=2 πσ2 1 exp (−2 σ2 1 (y −w ⊤x −b )2 ).

P ( y ∣ X ) = ∏ i = 1 n p ( y ( i ) ∣ x ( i ) ) . P(\mathbf y \mid \mathbf X) = \prod_{i=1}^{n} p(y^{(i)}|\mathbf{x}^{(i)}).P (y ∣X )=i =1 ∏n p (y (i )∣x (i )).

− log ⁡ P ( y ∣ X ) = ∑ i = 1 n 1 2 log ⁡ ( 2 π σ 2 ) + 1 2 σ 2 ( y ( i ) − w ⊤ x ( i ) − b ) 2 . -\log P(\mathbf y \mid \mathbf X) = \sum_{i=1}^n \frac{1}{2} \log(2 \pi \sigma^2) + \frac{1}{2 \sigma^2} \left(y^{(i)} – \mathbf{w}^\top \mathbf{x}^{(i)} – b\right)^2.−lo g P (y ∣X )=i =1 ∑n 2 1 lo g (2 πσ2 )+2 σ2 1 (y (i )−w ⊤x (i )−b )2 .
现在我们只需要假设σ \sigma σ是某个固定常数就可以忽略第一项，
因为第一项不依赖于w \mathbf{w}w和b b b。
现在第二项除了常数1 σ 2 \frac{1}{\sigma^2}σ2 1 外，其余部分和前面介绍的均方误差是一样的。
幸运的是，上面式子的解并不依赖于σ \sigma σ。
因此，在高斯噪声的假设下，最小化均方误差等价于对线性模型的极大似然估计。

小结

机器学习模型中的关键要素是训练数据、损失函数、优化算法，还有模型本身。
矢量化使数学表达上更简洁，同时运行的更快。
最小化目标函数和执行极大似然估计等价。
线性回归模型也是一个简单的神经网络。

Original: https://blog.csdn.net/YUNFanZ/article/details/122767931
Author: 林觉棉
Title: 学习笔记ing

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/520789/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

人工智能十大流行算法

人工智能是什么？很多人都知道，但大多又都说不清楚。事实上，人工智能已经存在于我们生活中很久了。比如我们常常用到的邮箱，其中垃圾邮件过滤就是依靠人工智能；比如每个智能手机都配备…

人工智能 2023年7月25日
0065
网站都变成灰色了，它是怎么实现的？

大家好，我是二哥呀。想必大家都感受到了，很多网站、APP 在昨天都变灰了。先来感受一下变灰后的效果。这种灰色的效果怎么实现的呢？如何做到图片、文字、按钮都变灰的效果呢？方案…

人工智能 2023年7月31日
0099
ELG: An Event Logic Graph

Xiao Ding, Zhongyang Li, Ting Liu∗, Kuo LiaoResearch Center for Social Computing and Infor…

人工智能 2023年6月5日
0059
【图像分类案例】(8) ResNet50 鸟类图像4分类，附Pytorch完整代码

大家好，今天和大家分享一些如何使用 Pytorch 搭建 ResNet50 卷积神经网络模型，并使用迁移学习的思想训练网络，完成鸟类图片的预测。 ResNet 的原理和 Tenso…

人工智能 2023年7月21日
0057
计算机视觉教程0-3：为何拍照会有死亡视角？详解相机矩阵与畸变

目录 0 拍照的死亡角度 1 透视相机模型 2 相机矩阵 3 镜头畸变 0 拍照的死亡角度拍照死亡角度一般指的是将自己脸盆子拍得特别大，拍出用鼻孔看人的狰狞面目，比如下面这张照片…

人工智能 2023年5月26日
0090
协同过滤算法有哪些不同的实现方法

问题背景协同过滤算法是一种常用的推荐系统算法，用于预测用户对物品的评分或对物品的喜好程度。它基于用户之间的相似性或物品之间的相似性来进行推荐。在协同过滤算法中，有几种不同的实现方…

人工智能 2024年1月2日
0057
使用tensorRT python API搭建MLP网络详解

本文详细说明，如何使用 tensorrt python API搭建MLP网络，实现推理，帮助与我类似的小白更快上手python版本的方法，我将介绍内容为：简单介绍、linux如何…

人工智能 2023年6月4日
00104
Python 实现计算moran莫兰指数和local morcan 局部莫兰指数

全局莫兰指数（莫兰指数）和局部莫兰是用于计算Spatial autocorrelation（空间自相关性）。所谓空间自相关性，是指特征信号是否与空间相邻位置存在相关性。（维…

人工智能 2023年6月19日
0078
【EMNLP 2021】Learning from Noisy Labels for Entity-Centric Information Extraction

原文链接：https://arxiv.org/abs/2104.08656代码：https://github.com/wzhouad/NLL-IE Abstract & I…

人工智能 2023年5月28日
0075
论文阅读：Generation-Augmented Retrieval for Open-Domain Question Answering

论文阅读：Generation-Augmented Retrieval for Open-Domain Question Answering 来源：ACL 2021 下载地址：ht…

人工智能 2023年5月28日
00104
卷积层中的通道注意力（Channe

介绍通道注意力是一种用于增强卷积神经网络（CNN）性能的技术。在卷积层中，每个卷积核（filter）会生成一个输出通道（channel），这些输出通道对应于提取的不同特征。然而，…

人工智能 2024年1月1日
0037
图数据库neo4j使用

零、预备备：启动数据库本机数据库版本 Neo4j 3.5.13以管理员身份运行控制台（win+A+X），在命令窗口切入到主目录%NEO4J_HOME%\bin执行neo4j.ba…

人工智能 2023年6月1日
0092
python实现简单的神经网络,python调用神经网络模型

python 有哪些神经网络的包。 1.Scikit-learnScikit-learn是基于Scipy为机器学习建造的的一个Python模块，他的特色就是多样化的分类，回归和聚…

人工智能 2023年7月12日
0080
昨晚，我用python帮学妹P证件照自拍，然后发现。。。

人生苦短，我用Python 前因后果 * 先上效果准备工作证件照尺寸调整证件照背景调整各种背景颜色图片完整代码结尾最后前因后果事情是这样的晚上我正在聚精会神写代…

人工智能 2023年6月26日
0078
【点云处理技术之open3d】第三篇：点云的高级操作篇——点云边界框、凸包、DBSCAN聚类、平面分割和隐点移除

文章目录 1. 点云边界框 2. 凸包(convex hull) 3. DBSCAN聚类 4. RANSAC平面分割 5. 隐点移除(Hidden point removal) 本…

人工智能 2023年5月31日
00112
MMDetection（三）：公开数据集上测试和训练模型

MMDetection（三）：公开数据集上测试和训练模型 1. 准备数据集 2. 测试数据集 * 2.1 举例 2.2 网络摄像头演示 2.3 测试图像和视频的同步接口 3. 训练…

人工智能 2023年7月9日
00124

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31