机器学习概述

2023年6月4日上午8:19 • 人工智能 • 阅读 91

本文主要是对于阅读周志明《智慧的疆界》的章节笔记总结

机器学习是什么？有什么价值？

要谈机器学习是什么？这里直接给出比较代表定义不断发展的机器学习定义。

1）司马贺：”机器学习就是让机器能够从历史经验中不断改善自身的过程”

2）汤姆·米切尔：”假设某项评价指标可作为系统性能的度量（Performance，简称P），而这个指标可以在某类任务（Task，简称T）的执行过程中随着经验（Experience，简称E）增加而不断自我改进的话，那么我们就称该过程’Process＜P, T, E＞’是一种学习行为”。

3）李航：”机器学习 = 模型 + 策略 + 算法”

模型是指机器学习所要产出的内容，它一般会以一个可被计算的决策函数或者条件概率分布函数的形式存在。
策略是指要按照什么样的准则进行学习，具体一点是按照什么样的准则选择出最优的模型。
算法是指如何依靠历史数据，把正确的模型中涉及的未知参数都找出来。

它有什么价值呢？

让计算机参与任务思考和设计成为可能。
编写出可以”自发能够产生’解决问题程序’的程序”。

它能解决哪些问题？

人类认知世界的两种最基本手段是”演绎”和”归纳”，有什么样的工具、手段，就能解决什么样的问题，人类能够认知的知识的范围，是由这两种手段划定的。

人类的认识的知识可以划分为以下四个象限的知识。基于规则就是人类通过演绎（符号、规则）可以认识的知识，基于数据就是人类可以通过归纳（大数据、统计）可以认识的知识。

因此，机器学习可以解决的问题主要划分为以下四种：

第一类问题（We know what we know）：对这种可推理可统计的问题，无论用何种方法，原则上我们都可以寻找到答案。
第二类问题（We know what we don’t know）：对于能够通过已知规律推理得到未知现象的问题，例如我们身边的各种数学定理、宏观的物理定律都是依靠严格的逻辑推理得出的，我们知道了今天地球的位置、角度、速度、质量等，完全可以准确无误地预测出1000年之后地球的精确位置，这个预测依赖的就是根据人们已掌握的天体运行规律来推理得到的。
第三类（We don’t know what we know）：即不知道规律，但可以根据已知现象的统计结果去推测未知现象的问题。
第四类（We don’t know what we don’t know）：这类问题我们既不知道它蕴含的规律，也没有办法统计出任何有规律的特征。

准确来讲，第四种是目前的机器还无法真正解决的问题，这对于人来讲都是需要”顿悟”才能明白的问题。因此，有学者感慨”每当一个问题被计算机解决了之后，大家就不再认为这个是人工智能了。”因此，这样也更加深刻理解人工智能，其实是一种具备人一样拥有”顿悟”能力的才算是真正的人工智能。

它会经过哪些步骤来解决这些问题？

机器学习就是从数据采集、预处理、选取特征、确定损失函数、解决欠拟合和过拟合，到最后通过优化算法获得模型的过程。

一些基本名词

模型：从形式上说，模型就是一个可被计算的、有输出结果的方法或函数，这个函数可能是有科学含义的，也可能没有任何含义，可能用于决策，也可能用于预测。
模型训练：是指从真实世界的一系列历史经验中获得一个可以拟合真实世界的决策模型。
样本：是一种包含了若干关于某些事实或者对象的描述的数据结构

机器学习三类任务类型

聚类：
定义：是指机器通过训练集中获得的特征，自动把输入集合中的样本分为若干个分组（Cluster，簇，此处读者将其理解为”分组”即可），使得每个分组中存放具有相同或相近特征的样本。
目的：聚类通常是为了发现数据的内在规律，将它们同类的数据放到一起，为进一步深入分析和处理建立基础。
分类和回归的异同
都是根据样例训练集中得出的历史经验来推断新输入给模型的样本是否属于某一类。
主要差别是，回归做的是定量分析，输出的是连续变量的预测，而分类做的是定性分析，输出的是离散变量的预测。
分类的目的一般是用于寻找决策边界，用于做出决策支持，而回归的目标大多是希望找到与事实相符的最优化拟合，用于做事实模拟。

数据处理的两种手段

保证数据是正确的部分，称为”数据清洗”（Data Cleansing），而保证数据是合适的这部分，就称为”特征选择”（Feature Selection）。

数据清洗的常见操作：

数据集成，将多个数据源中获得的数据结合起来，形成一致的结构，存放在一个一致的数据存储中。
基础清洗操作，典型如对数据进行基本的去重过滤。
分层采样，对于样本数据较多，各样本之间差异较大的情况，会通过不同的办法保证采样平衡，抽出具有代表性的调查样本，增大各类型样本间的共同性。
数据分配，将数据集按照一定比例，分割为训练集、验证集、测试集等几部分，后续我们讲测试验证的时候会再介绍这些内容。
数据规范化，譬如将量纲表达式转化为纯量表达式（可简单理解成把数据”去掉单位”，譬如10厘米和1分米，归一化之后是一样的），然后缩放到同一数量级（典型的如0到1之间），提升指标之间的可比较性。
平滑化，缩小数据在统计下的噪声差异，典型的一种平滑化操作是分箱。分箱实际上就是按照属性值把样本划分到不同的子区间，如果一个属性值处于某个子区间范围内，就把该属性值放进这个子区间所代表的”箱子”内。在处理数据时采用特定方法分别对各个箱子中的数据进行处理。
数据填补，典型的如ID值生成、使用统计算法替换缺失的观察值等。

特征选择的两个纬度：

考虑特征的离散度：如果一个特征不发散，譬如说方差趋近于0，也就是各个样本在这个特征上基本上没有差异，这个特征对于样本的区分就没有什么意义。
考虑特征与目标的相关性：与目标相关性高的特征，更能作为分类决策的依据，肯定就应当优先选择，这里的关键是解决如何能判断出特征与目标的相关性。

泛化、误差及拟合

“泛化能力”（Generalization Ability），就是机器学习算法对新鲜样本的适应能力，作为衡量机器学习模型的最关键的性能指标，性能良好的模型，就意味着对满足相同分布规律的、训练集以外的数据也会具有良好的适应能力。
误差（Error）＝偏差（Bias）+方差（Variance）+噪声（Noise）
偏差的含义是指根据训练集数据拟合出来的模型输出结果与样本真实标记的差距。
方差的含义是指给出同样数量，但内容发生了变动后的样本数据所导致的模型性能变化。方差大小的本质是描述数据扰动对模型输出结果所造成的影响。

一些定理原则

“奥卡姆剃刀”法则（Occam’s Razor，拉丁文为”lex parsimoniae”，含义为”简约法则”）：作指导决策的行之有效的经验法则。通俗地说，这条法则应用在机器学习领域中的含义是指：”如果有两个模型可以产生相同性能的预测结果，那选择较简单的那个会是更好的。”
“没有免费的午餐定理”（No Free Lunch Theorem, NLFT）：如果一个算法对于某类型的问题比另外的算法效率高，那么它一定不具有普适性，一定存在另外某一类问题使得这个算法的性能低于随机选择的结果。具体问题具体分析。

Original: https://www.cnblogs.com/shuds/p/16452627.html
Author: 車轱辘
Title: 机器学习概述

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/566748/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

opencv Canny边缘检测(python)

Canny边缘检测是一种使用多级边缘检测算法检测边缘的方法。 OpenCV提供了函数cv2.Canny()实现Canny边缘检测。 Canny边缘检测分为如下几个步骤：去噪。噪声…

人工智能 2023年7月19日
0090
追涨行为因子：基于上交所投资者账户数据的散户交易行为量化策略

量化投资与机器学习微信公众号，是业内垂直于量化投资、对冲基金、Fintech、人工智能、大数据等领域的主流自媒体。公众号拥有来自公募、私募、券商、期货、银行、保险、高校等行…

人工智能 2023年7月15日
0068
《数字图像处理》实验五

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月20日
0087
利用聚类技术实现纹理图像分割

要求针对合成纹理图像中每一个像素提取纹理特征向量利用聚类技术（推荐用 k-均值聚类）对特征向量空间中的点进行聚类，类别数可根据图像中的实际纹理类数确定。最后把类属标签映射成…

人工智能 2023年5月31日
0074
基于深度学习的指针式仪表图像智能读数方法

针对传统图像处理的仪表识别方法鲁棒性较差，难以满足复杂环境下的指针式仪表图像读数，而深度学习的方法通过样本的训练能够适应更多的复杂场景，越来越多的仪表读数解决方案更偏向于使用深度学…

人工智能 2023年6月19日
0092
【语音信号处理】自适应滤波方法之LMS算法

自适应滤波器方法之最小均方（LMS）算法 1 定义 2 Wiener滤波器的优缺点 3 基本LMS算法 4 标准LMS算法的执行流程 5 总结 6 逼逼叨滤波器的功能：改变信号频…

人工智能 2023年5月27日
00138
【Python】全网最详细的Python入门基础教程（非常详细，整理而来）

在 Python 中，所有标识符可以包括英文（区分大小写的）、数字以及下划线(_)，但不能以数字开头。以单下划线开头 _foo 的代表不能直接访问的类属性，需通过类提供的接…

人工智能 2023年7月30日
0069
搞一下TDA4 | 02 TDA4VM的SDK使用入门分享

前言本系列请点击:《搞一下TDA4》所有系列请点击：《汽车电子系列分享》本文将会分享TDA4VM的SDK的安装和使用的一些入门经验，便于读者上手和开发这个SDK。主要内容会包…

人工智能 2023年6月2日
00220
【理论知识】实际部署中tensorrt的简单理解

搭建tensorrt的基本流程 ➢ 基本流程 ➢ 构建期 ➢ 建立 Builder（引擎构建器） ➢ 创建 Network（计算图内容） ➢ 生成 SerializedNetwor…

人工智能 2023年5月26日
0073
Python实现蒙特卡洛树黑白棋完整代码

Python实现的基于蒙特卡洛树搜索的完整代码最终效果：在控制台输入输出，实现3种玩家（AI或者人类或者随机）的对弈目录一、黑白棋简介二、蒙特卡洛树搜索简介 1.蒙特卡洛树搜…

人工智能 2023年7月6日
0072
C语言建立链表的函数

写一个建立链表的函数 #include #include #define LEN sizeof(struct Student) struct Student { long num;…

人工智能 2023年6月28日
0064
人工智能起步-反向回馈神经网路算法（BP算法）

本文出处人工智能分为强人工，弱人工。弱人工智能就包括我们常用的语音识别，图像识别等，或者为了某一个固定目标实现的人工算法，如：下围棋，游戏的AI，聊天机器人，阿尔法狗等。强人…

人工智能 2023年6月4日
0098
YOLO-Darknet目标检测最强实战教程

文章目录 * – 一、Darknet 简介 – 二、专栏介绍 – 三、性能比较 – 四、检测效果 – 五、推荐学习资料 …

人工智能 2023年5月28日
0080
数据处理之pandas库

什么是pandas Pandas是一个强大的分析结构化数据的工具集，基于NumPy构建，提供了高级数据结构和数据操作工具，它是使Python成为强大而高效的数据分析环境的重要因素之…

人工智能 2023年6月11日
0066
科学计算库 —— Pandas之DataFrame

Pandas之DataFrame 1 DataFrame介绍 2 创建DataFrame 3 常用属性 4 访问数据 5 处理重复数据 6 删除数据 7 添加数据 8 修改数据 9…

人工智能 2023年7月7日
0071
OpenCV（C++版本）基础相关（2）：图像的读取与显示、颜色空间转换、创建和赋值、像素的读写操作、像素的算术操作

文章目录一、图片的读取与显示二、颜色空间的转换 * 2.1 创建一个头文件quickopencv.h 2.2 创建一个C++文件quickdemo.cpp 2.3 测试文件te…

人工智能 2023年6月22日
00103

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31