机器学习算法原理归纳总结:回归、聚类、支持向量、推荐、降维与神经网络

机器学习算法原理归纳总结:回归、聚类、支持向量、推荐、降维与神经网络

本文重点参考: 唐宇迪博士的课程PPT [特别鸣谢]
完整版资料下载:机器学习算法原理详解+代码实战

机器学习算法原理归纳总结:回归、聚类、支持向量、推荐、降维与神经网络

; 1.回归算法

机器学习算法原理归纳总结:回归、聚类、支持向量、推荐、降维与神经网络

2.逻辑回归

机器学习算法原理归纳总结:回归、聚类、支持向量、推荐、降维与神经网络

; 3.决策树

  • 决策树实际上是根据样本的特征个数对样本进行一步一步的细分,每个节点都将把样本按照一个衡量标准进行筛选,直到所有的样本筛选完成为止,而先筛选出来的样本将被作为前边的节点,后被筛选出的节点顺序也将往后排序
  • 决策树的衡量标准为信息熵:
    机器学习算法原理归纳总结:回归、聚类、支持向量、推荐、降维与神经网络
    机器学习算法原理归纳总结:回归、聚类、支持向量、推荐、降维与神经网络
  • 决策树过拟合风险很大

机器学习算法原理归纳总结:回归、聚类、支持向量、推荐、降维与神经网络

4.集成算法

Bagging模型,全称bootstrap aggregation,其实质为并行训练一堆分类器

  • 典型代表:随机森林(随机:数据采样随机,特征选择随机;森林:很多个决策树并行放在一起)
    机器学习算法原理归纳总结:回归、聚类、支持向量、推荐、降维与神经网络

; 4.1 随机森林

  • 构造树模型
    机器学习算法原理归纳总结:回归、聚类、支持向量、推荐、降维与神经网络
  • 集成:之所以要进行随机,是要保证泛化能力,如果树都一样,那就没意义了
    机器学习算法原理归纳总结:回归、聚类、支持向量、推荐、降维与神经网络
  • 优势:
  • 它能够处理很高维度(feature很多)的数据,并且不用做特征选择
  • 在训练完后,它能够给出哪些feature比较重要
  • 容易做成并行化方法,速度比较快
  • 可以进行可视化展示,便于分析

4.2 Boosting模型

  • 典型代表:AdaBoost, Xgboost
    机器学习算法原理归纳总结:回归、聚类、支持向量、推荐、降维与神经网络
  • Stacking可以堆叠各种各样的分类器(KNN,SVM,RF等等),分阶段:第一阶段得出各自结果,第二阶段再用前一阶段结果训练
    机器学习算法原理归纳总结:回归、聚类、支持向量、推荐、降维与神经网络

; 5.聚类算法

5.1 K-MEANS

机器学习算法原理归纳总结:回归、聚类、支持向量、推荐、降维与神经网络

机器学习算法原理归纳总结:回归、聚类、支持向量、推荐、降维与神经网络

; 5.2 DBSCAN

  • 全称:Density-Based Spatial Clustering of Applications with Noise
    机器学习算法原理归纳总结:回归、聚类、支持向量、推荐、降维与神经网络
    机器学习算法原理归纳总结:回归、聚类、支持向量、推荐、降维与神经网络
    机器学习算法原理归纳总结:回归、聚类、支持向量、推荐、降维与神经网络

6.贝叶斯算法

  • 主要解决的问题:
  • 正向概率:假设袋子里面有N个白球,M个黑球,你伸手进去摸一把,摸出黑球的概率是多大
  • 逆向概率:如果我们事先并不知道袋子里面黑白球的比例,而是闭着眼睛摸出一个(或好几个)球,观察这些取出来的球的颜色之后,那么我们可以就此对袋子里面的黑白球的比例作出什么样的推测
  • 贝叶斯公式:
    机器学习算法原理归纳总结:回归、聚类、支持向量、推荐、降维与神经网络

; 7.支持向量机

; 8.LDA与PCA算法

8.1 线性判别分析(LDA)

  • 全称: Linear Discriminant Analysis
  • 用途:用于数据预处理中的降维、分类任务
  • 目标:LDA关心的是能够最大化类间区分度的坐标轴成分,将特征空间(数据集中的多维样本)投影到一个维度更小的K维子空间中,同时保持区分类别的信息
  • 原理:投影到维度更低的空间中,使得投影后的点,会形成按类别区分,一簇一簇的情况,相同类别的点,将会在投影后的空间中更接近方法

机器学习算法原理归纳总结:回归、聚类、支持向量、推荐、降维与神经网络

; 8.2 主成分分析(PCA)

  • 用途:降维中最常用的手段
  • 目标:提取最有价值的信息(基于方差)

机器学习算法原理归纳总结:回归、聚类、支持向量、推荐、降维与神经网络
机器学习算法原理归纳总结:回归、聚类、支持向量、推荐、降维与神经网络

9.EM算法

  • 全称:Expectation-Maximization,期望最大化
  • 最大似然
  • EM算法推导
  • GMM(高斯混合模型)

9.1 最大似然估计

  • 一个栗子: 假如你去赌场,但是不知道能不能赚钱,你就在门口堵着出来一个人就问一个赚了还是赔了,如果问了5个人都说赚了,那么你就会认为,赚钱的概率肯定是非常大的
  • 已知:(1)样本服从分布的模型, (2)观测到的样本
    求解:模型的参数
  • 总的来说:极大似然估计就是用来估计模型参数的统计学方法。
    机器学习算法原理归纳总结:回归、聚类、支持向量、推荐、降维与神经网络

; 9.2 EM算法

机器学习算法原理归纳总结:回归、聚类、支持向量、推荐、降维与神经网络
  • 算法原理推导:
    机器学习算法原理归纳总结:回归、聚类、支持向量、推荐、降维与神经网络
  • EM算法流程
  • 初始化分布参数θ \theta θ
  • E-Step:根据参数θ \theta θ 计算每个样本属于 zi 的概率(也就是我们的Q)
  • M-Step:根据Q,求出含有θ \theta θ 的似然函数的下届并最大化它,得到新的参数θ \theta θ
  • 不断的迭代更新下去

9.3 GMM(高斯混合模型)

  • 数据可以看作是从数个 Gaussian Distribution 中生成出来的
  • GMM 由 K 个 Gaussian 分布组成,每个 Gaussian 称为一个”Component”
  • 类似k-means方法,求解方式跟EM一样
  • 不断的迭代更新下去

10. 神经网络

机器学习算法原理归纳总结:回归、聚类、支持向量、推荐、降维与神经网络
  • 常规方法:
    机器学习算法原理归纳总结:回归、聚类、支持向量、推荐、降维与神经网络
  • 实现流程:
  • 1.预处理你的数据:对你数据中的特征进行归一化(normalize),让其具有零平均值(zero mean)和单位方差(unit variance)。
  • 2.如果数据是高维数据,考虑使用降维方法,比如PCA
  • 3.将数据随机分入训练集和验证集。按照一般规律,70%-90% 数据作为训练集
  • 4.在验证集上调优,尝试足够多的k值,尝试L1和L2两种范数计算方式。
  • 关于损失函数:
    机器学习算法原理归纳总结:回归、聚类、支持向量、推荐、降维与神经网络
  • 神经网络,详解-> https://blog.csdn.net/yohnyang/article/details/124516301
    机器学习算法原理归纳总结:回归、聚类、支持向量、推荐、降维与神经网络
    机器学习算法原理归纳总结:回归、聚类、支持向量、推荐、降维与神经网络
    机器学习算法原理归纳总结:回归、聚类、支持向量、推荐、降维与神经网络
    机器学习算法原理归纳总结:回归、聚类、支持向量、推荐、降维与神经网络
  • 举例:
    机器学习算法原理归纳总结:回归、聚类、支持向量、推荐、降维与神经网络
    机器学习算法原理归纳总结:回归、聚类、支持向量、推荐、降维与神经网络
    机器学习算法原理归纳总结:回归、聚类、支持向量、推荐、降维与神经网络

Original: https://blog.csdn.net/yohnyang/article/details/128316144
Author: 明月醉窗台
Title: 机器学习算法原理归纳总结:回归、聚类、支持向量、推荐、降维与神经网络

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/777624/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

  • 【一文到底】【0基础】【快速上手】Django基本使用

    Django web开发 基础 1. Django的安装 和之前python一样,通过pip来安装即可 pip install django django和其他第三方Python模…

    Python 2023年8月3日
    055
  • Python 集合set详解(超详细)

    集合(set)是一个 无序的 不重复元素序列。 1、构造集合 可以使用大括号 { } 或者 set() 函数创建集合,注意:创建一个空集合必须用 set() 而不是 { },因为 …

    Python 2023年7月31日
    052
  • 数据集:高考录取分数

    数据集:高考录取分数 下载地址,本文用于观察数据的变化趋势,对数据作相应的排序或可视化,为未来的录取分数做预测。 1. 字段描述 字段名称字段类型字段说明ID数值型数据编号学校字符…

    Python 2023年9月1日
    070
  • Pytest学习-yaml+parametrize接口实战

    Pytest学习-yaml+parametrize接口实战 原创 我的事说来话长2022-08-06 20:03:54博主文章分类:Pytest ©著作权 文章标签 pytest …

    Python 2023年5月24日
    067
  • windows系统搭建Django虚拟环境

    一、创建文件夹 在e盘创建了一个文件夹作为虚拟环境的文件夹 文件夹创建好后,打开文件夹,在上方网址栏输入cmd,打开命令提示符。 二、搭建环境 电脑中建议安装的是python3.6…

    Python 2023年8月6日
    055
  • 让最近爆火的ChatGPT来谈谈,作为一个技术人该如何写好一篇技术博文

    ChatGPT 是由 OpenAI 训练的一个大型语言模型。专门设计用于回答用户提出的问题,我可以提供有价值的信息,并帮助用户解决问题下面的回答均来自ChatGPT 要写好一篇技术…

    Python 2023年11月4日
    052
  • QT+Python人脸表情特征识别

    程序示例精选QT+Python人脸表情特征识别 前言 QT+Python是非常经典的窗体编程组合,功能完善,可视化界面美观易维护,这篇博客针对人脸表情特征识别方面编写代码,代码整洁…

    Python 2023年8月1日
    053
  • rosbag录制数据与解包

    文章目录 一、rosbag录制数据 二、bag数据播放 三、bag解包出图像数据(三种方式) * 1.ROS Wiki提供的roslaunch文件解包 2.python解包 3.用…

    Python 2023年8月16日
    092
  • 为什么更推荐使用组合而非继承关系?

    最近在看公司项目的代码,看到了大量的继承体系,而且还是继承了多层,维护、阅读都十分的困难。在查阅了一些资料以后,包括《Effective Java》一书中的第16条提到&#8221…

    Python 2023年10月11日
    032
  • DataFrame(11):数据转换——map()函数的使用

    1、map()函数 1)map()函数作用 将序列中的每一个元素,输入函数,最后将映射后的每个值返回合并,得到一个迭代器。 2)map()函数原理图 原理解释:上图有一个列表,元素…

    Python 2023年8月7日
    060
  • 学了个学教育游戏与源码

    仿羊了个羊做了个教学游戏课件,用于配对正确答案,可以自定义配对选项题库,并随机抽题;编写语言为python,主要使用了pygame框架和pyside2框架;主要目的让不会编程的老师…

    Python 2023年9月24日
    056
  • python 飞机大战

    第一个自己做的python小游戏 import pygame import random import math pygame.init() screen = pygame.dis…

    Python 2023年9月24日
    064
  • 6.3-Django第三天

    官方文档:https://docs.djangoproject.com/zh-hans/2.1/ 可以将自己的属性作为条件值 from django.db.models impor…

    Python 2023年8月4日
    057
  • 动手学数据分析——task01

    s1.1 载入数据 1 相对路径 相对路径:相对…

    Python 2023年8月8日
    047
  • Java内部类初探

    Java内部类初探 之前对内部类的概念不太清晰,在此对内部类与外部类之间的关系以及它们之间的调用方式进行一个总结。 Java内部类一般可以分为以下三种: 成员内部类 静态内部类 匿…

    Python 2023年10月21日
    036
  • Python绘图(模板)

    目录 2D绘图 折线图 条形图 直方图 散点图 饼图 堆积条形图 ​编辑 对称条形图 3D绘图 3D散点图 3D条形图 附录: 颜色表color=’ ‘ 图…

    Python 2023年9月27日
    036
亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球