机器学习泛化

2023年5月28日下午12:26 • 大数据 • 阅读 67

机器学习（深度学习）的根本问题是优化和泛化之间的对立。

优化（optimization）是指调节模型以在训练数据上得到最佳性能（即机器学习中的学习），而泛化（generalization）是指训练好的模型在前所未见的数据上的性能好坏。

1. 泛化

指训练好的模型在前所未见的数据上的性能好坏

举个例子：
小明和小李都上了高三。小明头脑机灵，一边刷着五年高考三年模拟一边总结做题规律，而小李一门心思刷题，一套完了又一套，刷的试卷堆成山了却没有对错题进行总结。高考结束成绩公布，小明超出一本线几十分，而小李却勉强上了二本线。这是为什么呢？

原来高考试题一般是新题，谁也没做过，平时的刷题就是为了掌握试题的规律，能够举一反三、学以致用，这样面对新题时也能从容应对。这种对规律的掌握便是泛化能力。

在这个例子中，小明善于总结做题规律，可以说是他的泛化能力好；而小李只知道刷题却没有掌握做题规律，可以说是他的泛化能力差。

根据泛化能力强弱，可以分为：

欠拟合：模型过于简单，不能在训练集上获得足够低的误差；
拟合：测试误差与训练误差差距较小；
过拟合：过分关注训练集细节，在训练集上表现良好，但不能泛化到新数据上；
不收敛：模型不是根据训练集训练得到的。

Original: https://blog.csdn.net/weixin_52045738/article/details/120391390
Author: wp猿
Title: 机器学习泛化

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/531474/

转载文章受原作者版权保护。转载请注明原作者出处！

赞 (0)

0

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

使用sqoop将hive数据库导入至mysql

前言：本文由实现此博客过程中遇到的问题及解决办法整理而成。博客：淘宝双11数据分析与预测课程案例-步骤三:将数据从Hive导入到MySQL_厦大数据库实验室操作前准备数据数据…

大数据 2023年11月12日
0049
移动终端应用开发(Android)考试（武昌首义学院）

1. Android 谷歌、基于Linux、开源手机平台、使用Java语言，（由Linux操作系统、中间件和应用软件组成） 2. iOS 多点触摸操作是iOS的用户界面基础，（核心…

大数据 2023年11月10日
0053
JVM调优常用命令

1.查看java进程，jps命令可以列出正在运行的虚拟机进程 2.查看flume进程java虚拟机的统计信息某springboot web服务进程java虚拟机的统计信息对应指…

大数据 2023年5月28日
0073
基于Hadoop + Hive框架进行电子商务数据分析的设计与实现

大数据 2023年11月13日
0055
SQL存储股票数据

SQLite是一个软件库，实现了自给自足、无服务的、零配置的、事务性的SQL数据库引擎。在股票分析系统中适合使用这种轻量型的数据库。一. SQLite安装与基本使用命令 1.1 …

大数据 2023年11月10日
0035
Linux安装MySQL（使用yum）

镜像下载、域名解析、时间同步请点击阿里云开源镜像站安装前准备一、可以考虑替换国内yum镜像根据我老中医多年的经验，需要从某些仓库啊之类的下载某些包的时候，最好先看看怎么替换国…

大数据 2023年5月27日
0064
Redis详解及在项目中应用

大数据 2023年11月15日
0042
大数据学习笔记——————-(1)

第一部分 Spark学习该部分，主要对Spark学习笔记进行记录，学习资料翻译自《apache_spark_tutorial.pdf》该部分为5个章节来学习Spark： Ø 第…

大数据 2023年5月26日
0061
Android项目-单词库

目录 1.项目简介 2.软件结构 2.1需求规定 2.2运行环境 2.3 软件结构设计 2.3.1数据库设计 3. 软件功能描述 3.1界面设计 4. 实验总结项目简介针对便捷…

大数据 2023年11月10日
0052
Docker 安装 tomcat 并挂载宿主目录到容器

创建容器 tomcat-test ，映射宿主的 8080 端口到 tomcat 的 8080 端口 docker run –name tomcat-test -d -p 8080…

大数据 2023年5月29日
0079
CloudCanal x StarRocks 在医疗大健康实时数仓领域的落地与实践

简述本案例为国内某大健康领域头部公司真实案例(因用户保密要求，暂不透露用户相关信息)。希望文章内容对各位读者使用 CloudCanal 构建实时数仓带来一些帮助。业务背景 [T…

大数据 2023年6月2日
0097
Hive 常见操作

大数据 2023年11月14日
0026
Linux 任务计划管理

在某个时间点执行一次任务 at工具角色：用于执行一次性任务，需要指定执行时间。 [En] Role: used to perform one-time tasks, you ne…

大数据 2023年5月27日
0070
beeline客户端连接hiveserver2问题

大数据 2023年11月13日
0045
学习笔记：深度学习（5）——词向量的相关概念

学习时间：2022.04.21 自然语言处理（Natural Language Processing，NLP）是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机…

大数据 2023年5月28日
00136
阿里二面算法题

最长的括号子串问题描述给出一个长度为 n 的，仅包含字符 ‘(‘ 和 ‘)’ 的字符串，计算最长的格式正确的括号子串的长度。示…

大数据 2023年6月3日
00132

亲爱的 Coder【最近整理，可免费获取】👉 最新必读书单 | 👏 面试题下载 | 🌎 免费的AI知识星球