机器学习算法原理归纳总结：回归、聚类、支持向量、推荐、降维与神经网络

2023年9月16日上午1:40 • Python • 阅读 32

机器学习算法原理归纳总结：回归、聚类、支持向量、推荐、降维与神经网络

本文重点参考： 唐宇迪博士的课程PPT [特别鸣谢]
完整版资料下载：机器学习算法原理详解+代码实战

; 1.回归算法

2.逻辑回归

; 3.决策树

决策树实际上是根据样本的特征个数对样本进行一步一步的细分，每个节点都将把样本按照一个衡量标准进行筛选，直到所有的样本筛选完成为止，而先筛选出来的样本将被作为前边的节点，后被筛选出的节点顺序也将往后排序
决策树的衡量标准为信息熵：
决策树过拟合风险很大

4.集成算法

Bagging模型，全称bootstrap aggregation，其实质为并行训练一堆分类器

典型代表：随机森林（随机：数据采样随机，特征选择随机；森林：很多个决策树并行放在一起）

; 4.1 随机森林

构造树模型
集成：之所以要进行随机，是要保证泛化能力，如果树都一样，那就没意义了
优势：
它能够处理很高维度（feature很多）的数据，并且不用做特征选择
在训练完后，它能够给出哪些feature比较重要
容易做成并行化方法，速度比较快
可以进行可视化展示，便于分析

4.2 Boosting模型

典型代表：AdaBoost， Xgboost
Stacking可以堆叠各种各样的分类器（KNN,SVM,RF等等），分阶段：第一阶段得出各自结果，第二阶段再用前一阶段结果训练

; 5.聚类算法

5.1 K-MEANS

; 5.2 DBSCAN

全称：Density-Based Spatial Clustering of Applications with Noise

6.贝叶斯算法

主要解决的问题：
正向概率：假设袋子里面有N个白球，M个黑球，你伸手进去摸一把，摸出黑球的概率是多大
逆向概率：如果我们事先并不知道袋子里面黑白球的比例，而是闭着眼睛摸出一个（或好几个）球，观察这些取出来的球的颜色之后，那么我们可以就此对袋子里面的黑白球的比例作出什么样的推测
贝叶斯公式：

; 7.支持向量机

分类问题：将两个集群分隔开来的距离最近的向量成为 支持向量，详解参考：https://blog.csdn.net/yohnyang/article/details/124081760

; 8.LDA与PCA算法

8.1 线性判别分析(LDA)

全称： Linear Discriminant Analysis
用途：用于数据预处理中的降维、分类任务
目标：LDA关心的是能够最大化类间区分度的坐标轴成分，将特征空间(数据集中的多维样本)投影到一个维度更小的K维子空间中，同时保持区分类别的信息
原理：投影到维度更低的空间中，使得投影后的点，会形成按类别区分，一簇一簇的情况，相同类别的点，将会在投影后的空间中更接近方法

; 8.2 主成分分析（PCA）

用途：降维中最常用的手段
目标：提取最有价值的信息(基于方差)

9.EM算法

全称：Expectation-Maximization，期望最大化
最大似然
EM算法推导
GMM（高斯混合模型）

9.1 最大似然估计

一个栗子：假如你去赌场，但是不知道能不能赚钱，你就在门口堵着出来一个人就问一个赚了还是赔了，如果问了5个人都说赚了，那么你就会认为，赚钱的概率肯定是非常大的。
已知：（1）样本服从分布的模型，（2）观测到的样本
求解：模型的参数
总的来说：极大似然估计就是用来估计模型参数的统计学方法。

; 9.2 EM算法

算法原理推导：
EM算法流程
初始化分布参数θ \theta θ
E-Step：根据参数θ \theta θ 计算每个样本属于 zi 的概率(也就是我们的Q)
M-Step：根据Q，求出含有θ \theta θ 的似然函数的下届并最大化它，得到新的参数θ \theta θ
不断的迭代更新下去

9.3 GMM（高斯混合模型）

数据可以看作是从数个 Gaussian Distribution 中生成出来的
GMM 由 K 个 Gaussian 分布组成，每个 Gaussian 称为一个”Component”
类似k-means方法，求解方式跟EM一样
不断的迭代更新下去

10. 神经网络

常规方法：
实现流程：
1.预处理你的数据：对你数据中的特征进行归一化（normalize），让其具有零平均值（zero mean）和单位方差（unit variance）。
2.如果数据是高维数据，考虑使用降维方法，比如PCA
3.将数据随机分入训练集和验证集。按照一般规律，70%-90% 数据作为训练集
4.在验证集上调优，尝试足够多的k值，尝试L1和L2两种范数计算方式。
关于损失函数：
神经网络，详解-> https://blog.csdn.net/yohnyang/article/details/124516301
举例：

Original: https://blog.csdn.net/yohnyang/article/details/128316144
Author: 明月醉窗台
Title: 机器学习算法原理归纳总结：回归、聚类、支持向量、推荐、降维与神经网络

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/777624/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【一文到底】【0基础】【快速上手】Django基本使用

Django web开发基础 1. Django的安装和之前python一样，通过pip来安装即可 pip install django django和其他第三方Python模…

Python 2023年8月3日
0055
Python 集合set详解（超详细）

集合（set）是一个无序的不重复元素序列。 1、构造集合可以使用大括号 { } 或者 set() 函数创建集合，注意：创建一个空集合必须用 set() 而不是 { }，因为 …

Python 2023年7月31日
0052
数据集：高考录取分数

数据集：高考录取分数下载地址，本文用于观察数据的变化趋势，对数据作相应的排序或可视化，为未来的录取分数做预测。 1. 字段描述字段名称字段类型字段说明ID数值型数据编号学校字符…

Python 2023年9月1日
0070
Pytest学习-yaml+parametrize接口实战

Pytest学习-yaml+parametrize接口实战原创我的事说来话长2022-08-06 20:03:54博主文章分类：Pytest ©著作权文章标签 pytest …

Python 2023年5月24日
0067
windows系统搭建Django虚拟环境

一、创建文件夹在e盘创建了一个文件夹作为虚拟环境的文件夹文件夹创建好后，打开文件夹，在上方网址栏输入cmd，打开命令提示符。二、搭建环境电脑中建议安装的是python3.6…

Python 2023年8月6日
0055
让最近爆火的ChatGPT来谈谈，作为一个技术人该如何写好一篇技术博文

ChatGPT 是由 OpenAI 训练的一个大型语言模型。专门设计用于回答用户提出的问题，我可以提供有价值的信息，并帮助用户解决问题下面的回答均来自ChatGPT 要写好一篇技术…

Python 2023年11月4日
0052
QT+Python人脸表情特征识别

程序示例精选QT+Python人脸表情特征识别前言 QT+Python是非常经典的窗体编程组合，功能完善，可视化界面美观易维护，这篇博客针对人脸表情特征识别方面编写代码，代码整洁…

Python 2023年8月1日
0053
rosbag录制数据与解包

文章目录一、rosbag录制数据二、bag数据播放三、bag解包出图像数据（三种方式） * 1.ROS Wiki提供的roslaunch文件解包 2.python解包 3.用…

Python 2023年8月16日
0092
为什么更推荐使用组合而非继承关系？

最近在看公司项目的代码，看到了大量的继承体系，而且还是继承了多层，维护、阅读都十分的困难。在查阅了一些资料以后，包括《Effective Java》一书中的第16条提到&#8221…

Python 2023年10月11日
0032
DataFrame(11)：数据转换——map()函数的使用

1、map()函数 1）map()函数作用将序列中的每一个元素，输入函数，最后将映射后的每个值返回合并，得到一个迭代器。 2）map()函数原理图原理解释：上图有一个列表，元素…

Python 2023年8月7日
0060
学了个学教育游戏与源码

仿羊了个羊做了个教学游戏课件，用于配对正确答案，可以自定义配对选项题库，并随机抽题；编写语言为python，主要使用了pygame框架和pyside2框架；主要目的让不会编程的老师…

Python 2023年9月24日
0056
python 飞机大战

第一个自己做的python小游戏 import pygame import random import math pygame.init() screen = pygame.dis…

Python 2023年9月24日
0064
6.3-Django第三天

官方文档：https://docs.djangoproject.com/zh-hans/2.1/ 可以将自己的属性作为条件值 from django.db.models impor…

Python 2023年8月4日
0057
动手学数据分析——task01

s1.1 载入数据 1 相对路径 相对路径:相对…

Python 2023年8月8日
0047
Java内部类初探

Java内部类初探之前对内部类的概念不太清晰，在此对内部类与外部类之间的关系以及它们之间的调用方式进行一个总结。 Java内部类一般可以分为以下三种：成员内部类静态内部类匿…

Python 2023年10月21日
0036
Python绘图（模板）

目录 2D绘图折线图条形图直方图散点图饼图堆积条形图编辑对称条形图 3D绘图 3D散点图 3D条形图附录：颜色表color=’ ‘ 图…

Python 2023年9月27日
0036

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

机器学习算法原理归纳总结：回归、聚类、支持向量、推荐、降维与神经网络

机器学习算法原理归纳总结：回归、聚类、支持向量、推荐、降维与神经网络

; 1.回归算法

2.逻辑回归

; 3.决策树

4.集成算法

; 4.1 随机森林

4.2 Boosting模型

; 5.聚类算法

5.1 K-MEANS

; 5.2 DBSCAN

6.贝叶斯算法

; 7.支持向量机

; 8.LDA与PCA算法

8.1 线性判别分析(LDA)

; 8.2 主成分分析（PCA）

9.EM算法

9.1 最大似然估计

; 9.2 EM算法

9.3 GMM（高斯混合模型）

10. 神经网络

大家都在看