补充：以每个数据作为中心点设置带宽b，(x-b,x+b)区间范围内存在数据便统计在该柱形图上（这里和微积分的思想有一点类似，把一个不规则形状用无数个无线小的柱形描述他们的面积），这意味着带宽越小，那么数据划分的就越细致，但是也更加尖锐，容易欠拟合；带宽越大，那么数据划分的自然也就较粗糙，但是更加平滑，容易过拟合。

内核可视化

Scikit-learn使用球树或KD树结构，通过内核密度估计器实现高效的内核密度估计。可用的内核显示在本示例的下图中。

补充：不同的数据分布使用不同的内核，比如符合高斯分布的数据请使用gaussian内核。

官方实例代码解析：

----------------------------------------------------------------------
Plot a 1D density example
---------------------------------------------------------------------------
'''
用随机种子生成100个数据，其中30个是符合高斯分布（0,1）的数据，70个是符合高斯分布(5,1)的数据，
（0,1）表示以x轴上的0为中心点，宽度为1的高斯分布。
（5,1）表示以x轴上5为中心店，宽度为1的高斯分布
'''
---------------------------------------------------------------------------
N = 100
np.random.seed(1)
X = np.concatenate(
    (np.random.normal(0, 1, int(0.3 * N)), np.random.normal(5, 1, int(0.7 * N)))
)[:, np.newaxis]
---------------------------------------------------------------------------

创建一个[-5,10]范围内包含1000个数据的等差数列
X_plot = np.linspace(-5, 10, 1000)[:, np.newaxis]
使用简单的高斯模型norm得到两个高斯分布的概率密度作为真实值（我不觉得这是最佳的办法）
true_dens = 0.3 * norm(0, 1).pdf(X_plot[:, 0]) + 0.7 * norm(5, 1).pdf(X_plot[:, 0])

fig, ax = plt.subplots()
填充出用简单高斯模型得出的密度真实值
ax.fill(X_plot[:, 0], true_dens, fc="black", alpha=0.2, label="input distribution")
colors = ["navy", "cornflowerblue", "darkorange"]
使用不同的内核进行拟合，我也不推荐这样做，我们首先应该是观察数据的分布，然后选择模型，而不是
一个个尝试，应该做的是调整我们的带宽。
kernels = ["gaussian", "tophat", "epanechnikov"]
划线的粗细
lw = 2

for color, kernel in zip(colors, kernels):
    # 用X数据进行训练模型
    kde = KernelDensity(kernel=kernel, bandwidth=0.5).fit(X)
    # 在X_plot数据上测试
    log_dens = kde.score_samples(X_plot)
    # 画图
    ax.plot(
        X_plot[:, 0],
        np.exp(log_dens),
        color=color,
        lw=lw,
        linestyle="-",
        label="kernel = '{0}'".format(kernel),
    )

ax.text(6, 0.38, "N={0} points".format(N))

ax.legend(loc="upper left")
用'+'代表真实的数据并且画出，用于观察数据分布集中情况
ax.plot(X[:, 0], -0.005 - 0.01 * np.random.random(X.shape[0]), "+k")

ax.set_xlim(-4, 9)
ax.set_ylim(-0.02, 0.4)
plt.show()

上诉代码画出的示例图如下：该图比较了一维中100个样本分布的核密度估计。虽然本例使用1D分布，但核密度估计也可以轻松有效地扩展到更高的维度。 补充：是有两个符合正态分布的数据叠加而成的。

在此，我更愿意提供一个更加合适的作业帮助大家理解KDE 。

我的示例：

所需文件获取：

百度网盘提取码：q4ef 【机器学习sklearn】两个例子轻松搞懂核密度估计KernelDensity https://pan.baidu.com/s/1eyyaxF51X4d9hZL_fQOVrA%C2%A0 ;

题目：

Use the provided dataset, ‘ Question_1.csv’, to estimate the density of the dataset using Kernel Density Estimation (KDE). You can consider the Gaussian kernel with three bandwidth

parameters (0.15, 0.5 and 1). The data is generated from a Gaussian distribution with mean 1 and variance 1.

使用提供的数据集”Question_1.csv”，使用核密度估计(KDE)来估计数据集的密度。你可以考虑三个带宽的高斯核参数(0.15,0.5和1)。数据由均值1和方差1的高斯分布生成。

a. Find and report the MSE between the estimated density and the ground truth density?

a.发现并报告估计密度与地面真实密度之间的MSE ?

b. What do you notice as you change the bandwidth parameter and why?

b.修改带宽参数时，您注意到什么?为什么?

参考答案：（jupyter notebook下环境）

0.导入包

import package
import sklearn
from sklearn.neighbors import KernelDensity

from scipy.stats import norm

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

from collections import defaultdict

1、数据预处理

Step1、Data pretreatment
Q1_data = pd.read_csv('hw3/Question_1.csv')
X = np.array(Q1_data['X'].tolist())[:, np.newaxis]
N = len(X)
print('max_value_in_X:{}'.format(max(X)))
print('min_value_inX:{}'.format(min(X)))
X.shape

2、得到最佳带宽作为真实值（我认为比较合理的方式去选取真实值）

from sklearn.grid_search import GridSearchCV
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import LeaveOneOut
bandwidths = 10 ** np.linspace(-1, 1, 100)
grid = GridSearchCV(KernelDensity(kernel='gaussian'),{'bandwidth': bandwidths},cv=LeaveOneOut())
grid.fit(X)

The best estimated bandwidth density is used as the truth value
best_KDEbandwidth = grid.best_params_['bandwidth']
kernel = "gaussian"
lw = 2
kde = KernelDensity(kernel=kernel, bandwidth=best_KDEbandwidth).fit(X)
truth_density = np.exp(kde.score_samples(X))

grid.best_params_

3、开始使用KDE

Step2、Kernel Density Estimation.

MSE_MAP = defaultdict(list)
fig, ax = plt.subplots()
ax.fill(X[:, 0], truth_density, fc="black", alpha=1, label="truth density")

bandwidths = [0.15, 0.5, 1]
colors = ["navy", "cornflowerblue", "darkorange"]
for bandwidth, color in zip(bandwidths, colors):
    kde = KernelDensity(kernel=kernel, bandwidth=bandwidth).fit(X)
    log_dens = kde.score_samples(X)
    if bandwidth == best_KDEbandwidth:
        bandwidth = 'ground truth'
    ax.plot(
        X[:, 0],
        np.exp(log_dens),
        color=color,
        lw=lw,
        linestyle="-",
        label="bandwidth = '{0}'".format(bandwidth),
    )
    MSE_MAP[bandwidth] = log_dens

ax.text(6, 0.32, "N={0} points".format(N))

ax.legend(loc="upper right")
ax.plot(X[:, 0], -0.005 - 0.01 * np.random.random(X.shape[0]), "+k")

ax.set_xlim(-4, 9)
ax.set_ylim(-0.02, 0.50)
plt.show()

（预测效果）

4，计算估计密度与地面真实密度之间的MSE

def cal_mse(a, b):
    if len(a) == len(b):
        n = len(a)
    else:
        return 'len(a) != len(b)'
    res = 0
    for i in range(n):
        res += (a[i]-b[i])**2
    return res/n

for bandwidth in MSE_MAP:
    estimate_density = MSE_MAP[bandwidth]
    MSE = cal_mse(estimate_density, truth_density)
    print("When bandwidth is {:.2f} ----> MSE(estimate, truth): {:.3f}".format(bandwidth, MSE))

When bandwidth is 0.15 ----> MSE(estimate, truth): 2.603
When bandwidth is 0.50 ----> MSE(estimate, truth): 2.803
When bandwidth is 1.00 ----> MSE(estimate, truth): 3.059

可以看出MSE表示与3.中的图表示出的信息是一致的。

好啦，到此就结束啦！希望本文能帮到你。

如果觉得有用的话，欢迎大家三连~。祝你玩的开心。

Original: https://blog.csdn.net/qq_51831335/article/details/127406269
Author: 大气层煮月亮
Title: 【机器学习sklearn】两个例子轻松搞懂核密度估计KernelDensity

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/719953/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

一名优秀的数据分析师应该具备这10项关键技能

最近小编经常在各种社交媒体上看到同一个问题——想要在数据分析领域获得成功需要掌握哪些技能？在小编公布答案之前，大家先做好心理准备！没错，这需要结合掌握多种技能，这是因为数据分析本…

人工智能 2023年7月16日
0094
线稿图视频制作–从此短视频平台不缺上传视频了

🔝🔝🔝🔝🔝🔝🔝🔝🔝🔝🔝🔝🔝🔝🔝 🥰 博客首页： knighthood2001 😗 欢迎点赞👍评论🗨️ ❤️ 热爱python，期待与大家一同进步成长！！❤️ 👀 给大家推荐一款很火…

人工智能 2023年5月30日
0088
深度学习100例 | 第42天：音乐的识别与分类

1 简介1 1.1 自动语音识别：更好的沟通之桥 1 1.1.1 人类之间的交流 2 1.1.2 人机交流 2 1.2 语音识别_系统的基本结构 4 1.3 全书结构 6 1.3…

人工智能 2023年7月2日
0070
python-新闻文本分类详细案例-(数据集见文末链接）

文章目录分析思路所用数据集一、导入相关包二、数据分析 * 1.读取数据 2. jieba分词并去除停用词 3. TF-IDF 4. 网格搜索寻最优模型及最优参数 5. 预测…

人工智能 2023年7月5日
00123
动手学深度学习（四十四）——Seq2Seq原理与实现

文章目录一、什么是seq2seq（序列到序列的学习）二、动手实现Seq2Seq * 1. 编码器 2. 解码器 3. 损失函数 4. 训练 5. 预测 6. 预测和评估 7….

人工智能 2023年5月31日
0053
pyhanlp隐马尔可夫模型（HMM）中文分词

1、一阶和二阶隐马尔可夫模型中文分词（hmm_cws.py） 2、训练（ngram_segment.py） 3、标准化评测（eval_bigram_cws.py） 4、微软亚洲研究…

人工智能 2023年5月28日
0074
可解释深度学习：从感受野到深度学习的三大基本任务：图像分类，语义分割，目标检测，让你真正理解深度学习

目录前言一、初识感受野 1.1猜一猜他是什么？ 1.2人眼视觉系统下的感受野 1.3深度神经网络中的感受野 1.3.1感受野的性质 1.3.2感受野的定义 1.3.3举一个例子…

人工智能 2023年7月25日
0070
OpenAI 开源语音识别模型 Whisper 初体验

OpenAI 开源语音识别模型 Whisper 初体验前言一、Whisper 9种运行模型以及所需配置二、使用conda 和 ffmpeg的实现步骤 * 1.准备环境 2. …

人工智能 2023年7月27日
0044
Day1 自学Pytorch—-矩阵的创建

导包from future import print_functionimport torchimport numpy 1.创建一个没有初始化的5*3矩阵：x = torch.ze…

人工智能 2023年7月21日
0071
TensorFlow2.0中报错：No module named ‘tensorflow.examples’，解决方法

在进行mnist手写数字识别问题中出现了报错 from tensorflow.examples.tutorials.mnist import input_data mnist = …

人工智能 2023年5月26日
0058
数据挖掘实验-Rstudio

数据挖掘实验-Rstudio 日期:22/4/29 Ps.孩子下载了Rstudio，打算有关R语言的实验都在Rstudio里做。任务一：数据采集、抽取、预处理例一：chengj…

人工智能 2023年6月19日
00121
Yolov5训练自己的数据集（详细完整版）

最近在网上看到有与本博客一模一样的，连图片都一样。特此声明：这是原版，转载请附原文链接，谢谢。这次我将大部分图片添加了水印文章目录一. 环境（不能含有中文路径）二. 准备…

人工智能 2023年7月21日
0064
使用自己数据及进行PointNet++分类网络训练

二、数据集读取常用数据集点云数据集_爱学习的小菜鸡的博客-CSDN博客_点云数据集选用悉尼大学开放的自动驾驶数据集进行训练方式一：安装snark软件 math-deg2ra…

人工智能 2023年7月2日
00110
Metashape（Photoscan）【制作DOM和DEM】超级详细的步骤，文末有安装包

Metashape（Photoscan）【制作DOM和DEM】超级详细的步骤 1. Metashape软件操作简介 * 1.1.Metashape页面简介 1.2.Metashap…

人工智能 2023年6月17日
0070
Canny边缘检测算法(python 实现）

文章目录最优边缘准则算法实现步骤 * 1. 应用高斯滤波来平滑(模糊)图像，目的是去除噪声 2. 计算梯度强度和方向 3. 应用非最大抑制技术NMS来消除边误检 4. 应用双阈…

人工智能 2023年5月26日
0098
kaldi工具搭建语音识别系统——数据处理

Kaldi（http://kaldi-asr.org/doc/）是一个语音识别工具。使用 C++ 开发，基于 Apache 许可证。目的是为语音识别研究者提供。Kaldi 的目标和…

人工智能 2023年6月4日
0065

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

【机器学习sklearn】两个例子轻松搞懂核密度估计KernelDensity

直方图

核密度