Python-玩转数据-机器学习与建模概述

2023年6月11日下午2:37 • 人工智能 • 阅读 73

一、说明

机器学习的核心是”使用算法解析数据，从中学习，然后对世界上的某件事情做出决定或预测”。这意味着，与其显式地编写程序来执行某些任务，不如教计算机如何开发一个算法来完成任务。

二、机器学习与建模

; 三、监督学习算法

1. 决策树 (Decision Trees)

决策树是一个决策支持工具，它用树形的图或者模型表示决策及其可能的后果，包括随机事件的影响、资源消耗、以及用途。请看下图，随意感受一下决策树长这样的：

从商业角度看，决策树就是用最少的 Yes/No 问题，尽可能地做出一个正确的决策。它让我们通过一种结构化、系统化的方式解决问题，得到一个有逻辑的结论。

; 2. 朴素贝叶斯分类 (Naive Bayes Classification)

朴素贝叶斯分类器是一类简单概率分类器，它基于把贝叶斯定理运用在特征之间关系的强独立性假设上。下图是贝叶斯公式 ——P (A|B) 表示后验概率，P (B|A) 表示似然度，P (A) 表示类别的先验概率 (class prior probability)，P (B) 表示做出预测的先验概率 (predictor prior probability)。

现实生活中的应用例子：

一封电子邮件是否是垃圾邮件
一篇文章应该分到科技、政治，还是体育类
一段文字表达的是积极的情绪还是消极的情绪？
人脸识别

3. 普通最小二乘回归 (Ordinary Least Squares Regression)

如果你学过统计学，你可能听过线性回归。至少最小二乘是一种进行线性回归的方法。你可以认为线性回归就是让一条直线用最适合的姿势穿过一组点。有很多方法可以这样做，普通最小二乘法就像这样 —— 你可以画一条线，测量每个点到这条线的距离，然后加起来。最好的线应该是所有距离加起来最小的那根。

线性法表示建模线性模型，而最小二乘法可以最小化该线性模型的误差。

; 4. 逻辑回归 (Logistic Regression)

逻辑回归是一种非常强大的统计方法，可以把有一个或者多个解释变量的数据，建立为二项式类型的模型，通过用累积逻辑分布的逻辑函数估计概率，测量分类因变量和一个或多个独立变量之间的关系。

通常，回归在现实生活中的用途如下：

信用评估
测量市场营销的成功度
预测某个产品的收益
特定的某天是否会发生地震

5. 支持向量机 (Support Vector Machines)

SVM 是一种二分算法。假设在 N 维空间，有一组点，包含两种类型，SVM 生成 a (N-1) 维的超平面，把这些点分成两组。比如你有一些点在纸上面，这些点是线性分离的。SVM 会找到一个直线，把这些点分成两类，并且会尽可能远离这些点。

从规模看来，SVM（包括适当调整过的）解决的一些特大的问题有：广告、人类基因剪接位点识别、基于图片的性别检测、大规模图片分类…

; 6. 集成方法 (Ensemble Methods)

集成方法吸纳了很多算法，构建一个分类器集合，然后给它们的预测带权重的进行投票，从而进行分类。最初的集成方法是贝叶斯平均法 (Bayesian averaging)，但是最近的算法集还包括了纠错输出编码 (error-correcting output coding) ，bagging 和 boosting

那么集成方法如何工作的？为什么它们比单独的模型更好？

它们均衡了偏差：就像如果你均衡了大量的倾向民主党的投票和大量倾向共和党的投票，你总会得到一个不那么偏颇的结果。
它们降低了方差：集合大量模型的参考结果，噪音会小于单个模型的单个结果。在金融上，这叫投资分散原则 (diversification)—— 一个混搭很多种股票的投资组合，比单独的股票更少变故。
它们不太可能过度拟合：如果你有单独的模型不是完全拟合，你结合每个简单方法建模，就不会发生过度拟合 (over-fitting)

四、无监督学习算法

1. 聚类算法 (Clustering Algorithms)

聚类就是把一组对象分组化的任务，使得在同一组的对象比起其它组的对象，它们彼此更加相似。

每种聚类算法都不同，下面是其中一些：

基于图心（Centroid）的算法
基于连接的算法
基于密集度的算法
概率论
降维
神经网络 / 深度学习

; 2. 主成分分析 (Principal Component Analysis)

PCA 是一种统计过程，它通过正交变换把一组可能相关联的变量观察，转换成一组线性非相关的变量的值，这些非相关的变量就是主成分。

PCA 的应用包括压缩、简化数据使之易于学习，可视化。需要注意的是，当决定是否用 PCA 的时候，领域知识特别重要。它不适用于噪音多的数据（所有成分的方差要很高才行）

3. 奇异值分解 (Singular Value Decomposition)

线性代数中，SVD 是对一个特别复杂的矩阵做因式分解。比如一个 m*n 的矩阵 M，存在一个分解如 M = UΣV，其中 U 和 V 是酉矩阵，Σ 是一个对角矩阵。

PCA 其实是种简单的 SVD。在计算机图形领域，第一个脸部识别算法就用了 PCA 和 SVD，用特征脸 (eigenfaces) 的线性结合表达脸部图像，然后降维，用简单的方法把脸部和人匹配起来。尽管如今的方法更加复杂，依然有很多是依靠类似这样的技术。

; 4. 独立成分分析 (Independent Component Analysis)

ICA 是一种统计技术。它发掘随机变量、测量数据或者信号的集合中隐含的因素。ICA 定义了一种通用模型，用于观测到的多变量数据，通常是一个巨大的样本数据库。在这一模型中，假设数据变量是一些未知的、潜在的变量的线性组合，而组合方式也是未知的。同时假设，潜在的变量是非高斯分布且相互独立的，我们称之为观测数据的独立成分 (Independent components)。

ICA 与 PCA 有一定关联，但是一种更加有用的技术，在经典方法完全失效的时候，可以发现数据源中的潜在因素。它的应用包括数字图片，文件数据库，经济指数和心理测量。

五、机器学习改变世界

现在应该清楚的是，机器学习有巨大的潜力来改变和改善世界。通过像谷歌大脑和斯坦福机器学习小组这样的研究团队，我们正朝着真正的人工智能迈进一大步。但是，确切地说，什么是机器学习能产生影响的下一个主要领域？

1.物联网

; 2.聊天机器人

3.自动驾驶

Original: https://blog.csdn.net/s_unbo/article/details/123260342
Author: 人猿宇宙
Title: Python-玩转数据-机器学习与建模概述

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/600273/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

图像评价指标（python）

代码： import cv2 import numpy as np import math tmp = [] for i in range(256): tmp.append(0) …

人工智能 2023年7月4日
0090
机器学习_深度学习毕设题目汇总——关系抽取

下面是该类的一些题目：题目基于文本挖掘的生物医学实体关系抽取研究基于框架语义表示的关系抽取技术研究基于深度学习的联合实体关系抽取基于深度学习的自动文本摘要与关系抽取研究基于深度学…

人工智能 2023年5月30日
00106
自学Python，学不会怎么办？

Python近段时间一直涨势迅猛，在各大编程排行榜中崭露头角，得益于它多功能性和简单易上手的特性，让它可以在很多不同的工作中发挥重大作用。正因如此，目前几乎所有大中型互联网企业都…

人工智能 2023年6月27日
0095
基于OpenCV的车牌识别与分割

基于OpenCV的车牌识别与分割车牌识别的整个流程分为车牌位置查找, 车牌分割, 字符分割三部分, 车牌位置查找主要基于色彩空间查找的方法, 车牌分割主要基于位置查找之后的车牌二…

人工智能 2023年6月21日
0067
RNN模型与NLP应用笔记(3)：Simple RNN模型详解及完整代码实现

一、写在前面终于到RNN了，这篇文章首先介绍简易RNN模型，我们会以问题导向的方式一步一步对简易RNN模型进行改进。同样本文参考了王树森教授的深度学习课程内容，感谢大佬们提供的帮…

人工智能 2023年5月27日
00106
Speex的安装使用

* #include #include #include #include #include #include #include #def…

人工智能 2023年5月25日
0078
用户分析与RFM模型实战｜一个可以写在简历上的项目（下）

大家好，我是芒果。接上文：用户分析与RFM模型实战｜一个可以写在简历上的项目（上）本篇会继续对此数据对产品维度和用户分层维度进行分析。依然结论先行：重要结论🏅 3、产品维度…

人工智能 2023年7月17日
0079
【初学者入门系列】Tensorflow学习路线指引

语TensorFlow是业界广泛使用的开源机器学习框架，虽然有后起之秀不断挑战它的地位，凭借快速部署、适合产品级应用等特点，目前在AI开发者中仍然占据Top2的地位。目前神经网络…

人工智能 2023年5月23日
0077
什么是S-uniward？

要了解S-uniward，首先要知道uniward是什么东西，为了解决定义域以及嵌入域相同的问题，提出了通用小波相对失真函数Universal Wavelet Relative D…

人工智能 2023年6月22日
0080
基于SPSS的聚类分析原理概述

文章目录 1. 聚类分析的基本概念 * 1.1 方法概述 1.2 聚类方法 2. 系统聚类 * 2.1系统聚类的类型 2.2 两个距离概念 2.3亲疏程度的度量 – 2…

人工智能 2023年5月31日
0072
机翻《C-CAM: Causal CAM for Weakly Supervised Semantic Segmentation onMedical Image 》

前言《C-CAM: Causal CAM for Weakly Supervised Semantic Segmentation onMedical Image》CVPR2022…

人工智能 2023年6月17日
0089
「模型即服务AI」1分钟调用SOTA人脸检测，同时搭建时光相册小应用

时光相册应用效果一、物料 https://modelscope.cn/models/damo/cv_resnet101_face-detection_cvpr22papermog…

人工智能 2023年7月25日
0048
python 插值处理一维数据 interpolate

scipy库： 原码： https://docs.scipy.org/doc/scipy/reference/ge…

人工智能 2023年7月31日
0057
多分类模型roc-auc的计算以及precision、recall、accuracy等的计算

TP：True被预测成PositiveTN：True被预测成NegativeFP：False被预测成PositiveFN：False被预测成Negativea c c u r a …

人工智能 2023年7月2日
0059
【目标检测-YOLO】YOLOv5-6.1v实践过程

下载源码： wget https://github.com/ultralytics/yolov5/archive/refs/tags/v6.1.zip unzip v6.1.zip…

人工智能 2023年7月12日
0047
树莓派视觉跟踪小车_树莓派智能小车结合摄像头opencv进行物体追踪

在开发树莓派智能小车的路上已经走了一年多时间了，起初做了以下简单的远程控制和避障功能，后来慢慢加入黑线循迹以及语音识别，物体识别的功能。前段时间在刷新闻头条的时候，偶然看到一外国大…

人工智能 2023年5月27日
0056

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31