机器学习：基本流程

2023年6月15日下午12:52 • 人工智能 • 阅读 77

原文链接：https://blog.csdn.net/qq_27567859/article/details/79666969

简介：机器学习是一门多学科交叉专业，涵盖概率论知识，统计学知识，近似理论知识和复杂算法知识，使用计算机作为工具并致力于真实实时的模拟人类学习方式，并将现有内容进行知识结构划分来有效提高学习效率。

机器学习的定义：

1、机器学习是一门人工智能的科学，该领域的主要研究对象是人工智能，
特别是如何在经验学习中改善具体算法的性能。

2、机器学习是对能通过经验自动改进的计算机算法的研究。

3、机器学习是用数据或以往的经验，以此优化计算机程序的性能标准。

机器学习流程图：

1. 收集数据：

收集到的数据的质量和数量将直接决定预测模型是否能够建好。需要将收集的数据去重复、标准化、错误修正等，保存成数据库文件或者csv格式文件，为下一步数据的加载做准备。

2. 分析数据：

分析数据主要是数据发现，比如找出每列的最大、最小值、平均值、方差、中位数、三分位数、四分位数、某些特定值（比如零值）所占比例或者分布规律等等都要有一个大致的了解。了解这些最好的办法就是可视化，谷歌的开源项目facets可以很方便的实现。另一方面要确定自变量(x1…xn)和因变量y，找出因变量和自变量的相关性，确定相关系数。

3. 特征选择：

特征的好坏很大程度上决定了分类器的效果。将上一步骤确定的自变量进行筛选，筛选可以手工选择或者模型选择，选择合适的特征，然后对变量进行命名以便更好的标记。命名文件要存下来，在预测阶段的时候会用到。

4. 向量化：

向量化是对特征提取结果的再加工，目的是增强特征的表示能力，防止模型过于复杂和学习困难，比如对连续的特征值进行离散化，label值映射成枚举值，用数字进行标识。这一阶段将产生一个很重要的文件：label和枚举值对应关系，在预测阶段的同样会用到。

5. 拆分数据集：

需要将数据分为两部分。用于训练模型的第一部分将是数据集的大部分。第二部分将用于评估我们训练有素的模型的表现。通常以8:2或者7:3进行数据划分。不能直接使用训练数据来进行评估，因为模型只能记住”问题”。

6. 模型训练：

进行模型训练之前，要确定合适的算法，比如线性回归、决策树、随机森林、逻辑回归、梯度提升、SVM等等。选择算法的时候最佳方法是测试各种不同的算法，然后通过交叉验证选择最好的一个。但是，如果只是为问题寻找一个”足够好”的算法，或者一个起点，也是有一些还不错的一般准则的，比如如果训练集很小，那么高偏差/低方差分类器（如朴素贝叶斯分类器）要优于低偏差/高方差分类器（如k近邻分类器），因为后者容易过拟合。然而，随着训练集的增大，低偏差/高方差分类器将开始胜出（它们具有较低的渐近误差），因为高偏差分类器不足以提供准确的模型。

7. 模型评估：

训练完成之后，通过拆分出来的训练的数据来对模型进行评估，通过真实数据和预测数据进行对比，来判定模型的好坏。模型评估的常见的五个方法：混淆矩阵、提升图&洛伦兹图、基尼系数、ks曲线、roc曲线。混淆矩阵不能作为评估模型的唯一标准，混淆矩阵是算模型其他指标的基础。完成评估后，如果想进一步改善训练，我们可以通过调整模型的参数来实现，然后重复训练和评估的过程。

8. 文件整理：

模型训练完之后，要整理出四类文件，确保模型能够正确运行，四类文件分别为：Model文件、Lable编码文件、元数据文件（算法，参数和结果）、变量文件（自变量名称列表、因变量名称列表）。

9. 接口封装：

通过封装封装服务接口，实现对模型的调用，以便返回预测结果。

10. 上线：

微信公众号：玩转测试开发
欢迎关注，共同进步，谢谢！

Original: https://blog.csdn.net/hzblucky1314/article/details/123320780
Author: 玩转测试开发
Title: 机器学习：基本流程

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/614755/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

CASIA WebFace、WIDDER FACE、FDDB、AFLW、CelebA训练集详解

目录 CASIA-WebFace 简介优势缺点获取数据集 WIDDER FACE 简介优势缺点获取数据集 FFDB 简介优势缺点获取数据集 AFLW 简介优势 …

人工智能 2023年7月1日
0081
YoLoV5学习（4）–detect.py程序（预测图片、视频、网络流）逐段讲解~

本章博客主要分析YoloV5代码中的detect程序代码，按照程序运行步骤顺序主要分为3大部分。 1、包与库的导入 1.1 导入安装好的python库、torch库等等其中：ar…

人工智能 2023年7月5日
0072
OpenCV C++案例实战二十二《手势识别》

OpenCV C++案例实战二十二《手势识别》前言一、手部关键点检测 * 1.1 功能源码 1.2 功能效果二、手势识别 * 2.1算法原理 2.2功能源码三、结果显示 *…

人工智能 2023年6月19日
0078
手把手教你用Python打造一个语音合成系统

击上方” Python爬虫与数据挖掘“，进行关注回复” 书籍“即可获赠Python从入门到进阶共10本电子书今日鸡汤大弦…

人工智能 2023年5月27日
0080
Golang利用Pid实现单进程模型

需求一个中间件，同时只能运行一个。使用读写Pid(进程号)文件的方式实现单进程模型。 Golang 在Linux平台实现。流程图 Y Y N N 读取失败读取Pid文件该…

人工智能 2023年7月30日
0041
Python中pandas合并DataFramepd.merge()方法

选择题以下关于pd.merge()方法说法错误的是? A 若缺省how参数：用内连接的方式合并B 若缺省how参数：用外连接的方式合并C how=left：用左连接的方式合并D h…

人工智能 2023年6月11日
00120
Linux环境下安装Node.js

Linux环境下安装软件合集【1】 1 Linux环境下安装Node.js 1.1 通过wget直接安装（1）wget不是安装方式他是一种下载软件类似与迅雷如果要下载一个软件…

人工智能 2023年6月27日
0083
【学习笔记】人工智能导论

考试题型：一、选择2 ：20二、填空5：10 主观题改成填空题三、趣味编程题，10分第0章绪论图灵测试 1950年图灵发表的《计算机与智能》中设计了一个测试，用以说明人工智…

人工智能 2023年7月17日
0046
(附源码)springboot大学生创新创业管理毕业设计 041557

1. 目前B/S体系的系统主要的数据访问方式是：通过浏览器页面用户可以进入系统，系统可以自动对用户向服务器发送的请求进行处理，处理请求是在系统后台中进行的，用户在浏览器页面上进行相…

人工智能 2023年7月20日
0067
浅谈OpenCV

一、OpenCV是什么：（OpenCV标志，可见其标志由红绿蓝三原色及其名称构成） OpenCV 是一个基于Apache2.0 许可（开源）发行的跨平台计算机视觉和机器学习软件库…

人工智能 2023年6月22日
0080
【Python零基础快速入门系列 | 01】人工智能序章：开发环境搭建Anaconda+VsCode+JupyterNotebook(零基础启动)

这是机器未来的第5篇文章原文首发地址：https://blog.csdn.net/RobotFutures/article/details/124896539 《Python零基…

人工智能 2023年7月26日
0069
流媒体开源服务 MediaSoup 初识

目录前言正文一、简单介绍二、关键特色 1. 超强 SFU 功能 2. Node.js 模块 3. 客户端 SDK 三、架构组成 1. 关键实例 2. 重要模块四、发展现状…

人工智能 2023年7月30日
0095
YOLOv3目标检测图片标注方法–快速入手

文章目录 1. YOLOv3目标检测图片标注方法–快速入手 * 1.1 常用快捷键操作 1.2 界面操作 1.3 文件夹创建要求 1.4 标记过程示例： YOLOv3目…

人工智能 2023年7月12日
0043
核酸检测结果识别系统——核心技术

目录源代码技术算法讲解组成部分 easyocr opencv excel表和数据库 Pyecharts可视化界面效果展示运行控制源代码 abcdefg-png/-sys…

人工智能 2023年7月18日
0063
python pyttsx3文本转语音_如何使用python pyttsx3和sapi5将文本文件转换为mp3文件？

我试过布赖恩的解决方案，但不起作用。在……里面 [En] I tried Brian’s solution, but it didn’t work. In …

人工智能 2023年5月27日
0090
Bert模型介绍及代码解析（pytorch）

Bert（预训练模型）动机基于微调的NLP模型预先训练的模型提取了足够的信息 [En] the pre-trained model extracts enough infor…

人工智能 2023年5月27日
0073

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

机器学习：基本流程

大家都在看