深度学习理论(李宏毅

2022 – 再探宝可梦、数码宝贝分类器 — 浅谈机器学习原理_哔哩哔哩_bilibili

more parameters, easier to overfit, why?

但是怎么定这个有未知数的function呢、那通常假设你没有什么想法的话、往往你需要先对你的资料做一些观察、想象一下,假设有一个function可以成功的分类宝可梦跟数码宝贝、那这个function它应该长什么样子

所以,开始进行机器学习之前,也许我们先对资料进行一些观察。

好在经过一番观察以后。我发现 他们虽然长得很像,但其实还是有显著差异:画风不同

深度学习理论(李宏毅

深度学习理论(李宏毅

很多package呢可以帮你把一个图片里面的线呢把它画出来。细节不重要,总之扣一个library自动会产生这种边线的图

那怎么知道一张图片的边线比较简单还是复杂呢?算一下图里白色的pixel有多少

e函数代表,线条的复杂程度

深度学习理论(李宏毅

func. f只有一个未知参数h

这个func. f完全可以一般化到更复杂的情景,比如 h可以换成之前录音里讲过的θ

未知参数 所有的可能性集合起来叫 H,他的可能性是你自己决定的,这里我们假设说做完边缘探测后白色点的数目不会超过1万,这里不需要考虑小数点

|H| 在H里有多少可能的选择,这个数叫做 模型的复杂程度

模型的复杂程度很高,代表说他现在定出来的这个含有未知数的func.里面,选择性很多

深度学习理论(李宏毅

接下来我们来定loss,

首先要有资料, loss是根据资料计算出来的,

给一个h,根据某一组dataset来计算loss

训练资料集,有个假设,训练资料集里的每一笔资料,是从一个更大的资料里被sample出来的,sample的过程有一个限制叫i.i.d.,独立同分布,即 sample每一笔资料时 每笔之间是independent,每次sample时分布永远是固定的,

有了D(train)之后,就可以找出一个h,让 用Dtrain所计算出的loss值 越小越好

深度学习理论(李宏毅

期待理想和现实越接近越好,理想是找到一个h(all),用在D(all)上得到一个loss

h(train)和h(all)显然不同,因为是从不同的资料里找出来的,他们要minimize的loss func.是不一样的,loss func.不只是和h有关,也和define这个loss func.的资料有关

h(all)是D(all)上最好的h,

h(train)和h(all)到底有多大差距?

深度学习理论(李宏毅

实际应用里,收集D(all)显然不切实际,所以常见做法是准备一个D(test),是从D(all)sample出来的,你期待这个D(test)对所有data是有代表性的

假设 图鉴里的819只宝可梦和971只digimon已经非常充足了,来看看分布长什么样?

我们把他的线条复杂程度画出来,分布如图,

纵轴代表有这种负责度的动物的个数

深度学习理论(李宏毅

问题:even lower than h(all)?

但是,h(all)最低是说他在D(all) 这组data上、他的loss最低。并不代表他在所有可能的资料集上,他的loss 是最低的。

我们真正关心的是如果我们把h(train)用在D(all)上时,错误率是多少。

深度学习理论(李宏毅

从D(train2)例子 我们得到结论,结果好坏 取决于你sample到什么样的资料

深度学习理论(李宏毅

什么叫好的trainning data 用数学式表示:

δ是一个你自己设的数值,看你希望理想跟现实有多接近。大一点可以是0.1,小一点可以是0.00001

你只要能够sample到一个trainning的资料,满足:

对所有的h而言,计算在D(train)上 跟计算在D(all)上面的loss 差距

Original: https://blog.csdn.net/linyuxi_loretta/article/details/127327104
Author: linyuxi_loretta
Title: 深度学习理论(李宏毅

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/628586/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球