实验——参数估计与非参数估计

2023年6月24日上午12:15 • 人工智能 • 阅读 72

1 最大似然估计
*
1.1 实验要求
1.2 实验思路
1.3 代码实现
1.4 实验结果
2 Parzen窗
*
2.1 实验要求
2.2 实验思路
2.3 代码实现
2.4 实验结果
3 K近邻
*
3.1 实验要求
3.2 实验思路
3.3 代码实现及结果
–
4 KNN实战
*
4.1 实验要求
4.2 实验思路
4.3 实验结果与思考

1 最大似然估计

1.1 实验要求

使用上面给出的三维数据：

编写程序，对类1和类2中的三个特征𝑥𝑖分别求解最大似然估计的均值𝜇̂和方差σ 2 \sigma^2 σ2。
编写程序，处理二维数据的情形𝑝(𝑥)~𝑁(µ, Σ)。对类1和类2中任意两个特征的组合分别求解最大似然估计的均值𝜇̂和方差Σ \Sigma Σ（每个类有3种可能）。
编写程序，处理三维数据的情形𝑝(𝑥)~𝑁(µ, Σ)。对类1和类2中三个特征求解最大似然估计的均值𝜇̂和方差𝛴。
假设该三维高斯模型是可分离的，即Σ = d i a g ( σ 1 , σ 2 , σ 3 ) \Sigma=diag(\sigma^1,\sigma^2,\sigma^3)Σ=d i a g (σ1 ,σ2 ,σ3 )，编写程序估计类1和类2中的均值和协方差矩阵中的参数。
比较前 4 种方法计算出来的每一个特征的均值μ \mu μ的异同，并加以解释。
比较前 4 种方法计算出来的每一个特征的方差σ \sigma σ的异同，并加以解释。

; 1.2 实验思路

根据最大似然估计的原理，可以推导出：均值的最大似然估计就是样本的均值，而协方差的最大似然估计是n个( x k − μ ^ ) ( x k − μ ^ ) t (\textbf{x}_k-\hat{\mu})(\textbf{x}_k-\hat{\mu})^t (x k −μ^)(x k −μ^)t的算术平均。实际上对方差的最大似然估计是有偏的估计，样本的协方差矩阵C = 1 n − 1 ( x k − μ ^ ) ( x k − μ ^ ) t C=\frac{1}{n-1}(\textbf{x}_k-\hat{\mu})(\textbf{x}_k-\hat{\mu})^t C =n −1 1 (x k −μ^)(x k −μ^)t，而我们估计的方差是σ ^ = n − 1 n C \hat{\sigma}=\frac{n-1}{n}C σ^=n n −1 C，具体原理可以看：参数估计—最大似然估计与贝叶斯估计

对于任意一个多元的高斯分布， 这里的多元就对应着数据的多特征（例如本次实验中的x1,x2,x3），此高斯分布的采样是以列向量的形式，每行的值为一个随机变量，因此计算统计属性：

均值：分别计算每个特征的均值，以向量的形式输出，即均值向量
方差：数据集中所有向量（ 列向量）计算( x − μ ) ( x − μ ) T (\textbf{x}-\mu)(\textbf{x}-\mu)^T (x −μ)(x −μ)T，在求和取平均

当高斯模型是可分离的时，说明每个特征（随机变量）相互独立，则任意两个特征的协方差为0（Cov(x1,x2)=0）,因此协方差矩阵的形式如下：
[ σ 1 2 0 . . . 0 0 σ 2 2 0 . . . . . . 0 0 σ n 2 ] \begin{bmatrix} \sigma_{1}^2 & 0 & … & 0\ 0 & \sigma_{2}^2 & & 0\ … & & … & \ 0 & 0 & & \sigma_{n}^2 \end{bmatrix}⎣⎢⎢⎡σ1 2 0 …0 0 σ2 2 0 ……0 0 σn 2 ⎦⎥⎥⎤

; 1.3 代码实现

数据以DataFrame的形式存储，计算均值向量的函数：


def calculateAvg(vectors:pd.DataFrame):

    avg = pd.Series(index=vectors.columns,dtype=float)
    for column in vectors.columns:

        avg[column] = vectors[column].mean()
    return np.array(avg)

计算协方差矩阵的函数：


def calculateCov(vectors:pd.DataFrame):

    mu = np.matrix(calculateAvg(vectors)).T

    dimension = vectors.shape[1]
    Cov = np.zeros((dimension,dimension))
    for index,row in vectors.iterrows():

        xi = np.matrix(row).T
        diff = xi - mu
        Cov+=diff*diff.T

    return Cov/vectors.shape[0]

利用 DataFrame[[特征1,特征2,..]]来提取训练集中的某几个特征，分别实现计算。

问（1）编写程序，对类1和类2中的三个特征𝑥𝑖分别求解最大似然估计的均值𝜇̂和方差σ 2 \sigma^2 σ2。


trainSet_1 = pd.read_csv('w1.csv')
trainSet_2 = pd.read_csv('w2.csv')

print("(1): ")
print("类1：")
trainSet_1_x1 = trainSet_1['x1'].to_frame()
print("x1的最大似然估计:μ："+str(calculateAvg(trainSet_1_x1))+" 𝜎^2: "+str(calculateCov(trainSet_1_x1)))
trainSet_1_x2 = trainSet_1['x2'].to_frame()
print("x2的最大似然估计:μ："+str(calculateAvg(trainSet_1_x2))+" 𝜎^2: "+str(calculateCov(trainSet_1_x2)))
trainSet_1_x3 = trainSet_1['x3'].to_frame()
print("x3的最大似然估计:μ："+str(calculateAvg(trainSet_1_x3))+" 𝜎^2: "+str(calculateCov(trainSet_1_x3)))
print("------------------------------------------------------------------------------")
print("类2：")
trainSet_2_x1 = trainSet_2['x1'].to_frame()
print("x1的最大似然估计:μ："+str(calculateAvg(trainSet_2_x1))+" 𝜎^2: "+str(calculateCov(trainSet_2_x1)))
trainSet_2_x2 = trainSet_2['x2'].to_frame()
print("x2的最大似然估计:μ："+str(calculateAvg(trainSet_2_x2))+" 𝜎^2: "+str(calculateCov(trainSet_2_x2)))
trainSet_2_x3 = trainSet_2['x3'].to_frame()
print("x3的最大似然估计:μ："+str(calculateAvg(trainSet_2_x3))+" 𝜎^2: "+str(calculateCov(trainSet_2_x3)))

问（2）编写程序，处理二维数据的情形𝑝(𝑥)~𝑁(µ, Σ)。对类1和类2中任意两个特征的组合分别求解最大似然估计的均值𝜇̂和方差Σ \Sigma Σ（每个类有3种可能）。


trainSet_1 = pd.read_csv('w1.csv')
trainSet_2 = pd.read_csv('w2.csv')

print("(2): ")
print("类1：")
trainSet_1_x1x2 = trainSet_1[['x1','x2']]
print("(x1,x2)的最大似然估计:")
print("μ："+str(calculateAvg(trainSet_1_x1x2)))
print("𝜎^2: ")
print(calculateCov(trainSet_1_x1x2))
trainSet_1_x1x3 = trainSet_1[['x1','x3']]
print("(x1,x3)的最大似然估计:")
print("μ："+str(calculateAvg(trainSet_1_x1x3)))
print("𝜎^2:")
print(calculateCov(trainSet_1_x1x3))
trainSet_1_x2x3 = trainSet_1[['x2','x3']]
print("(x2,x3)的最大似然估计:")
print("μ："+str(calculateAvg(trainSet_1_x2x3)))
print("𝜎^2: ")
print(calculateCov(trainSet_1_x2x3))
print("------------------------------------------------------------------------------")
print("类2：")
trainSet_2_x1x2 = trainSet_2[['x1','x2']]
print("(x1,x2)的最大似然估计:")
print("μ："+str(calculateAvg(trainSet_2_x1x2)))
print("𝜎^2: ")
print(calculateCov(trainSet_2_x1x2))
trainSet_2_x1x3 = trainSet_2[['x1','x3']]
print("(x1,x3)的最大似然估计:")
print("μ："+str(calculateAvg(trainSet_2_x1x3)))
print("𝜎^2: ")
print(calculateCov(trainSet_2_x1x3))
trainSet_2_x2x3 = trainSet_2[['x2','x3']]
print("(x2,x3)的最大似然估计:")
print("μ："+str(calculateAvg(trainSet_2_x2x3)))
print("𝜎^2: ")
print(calculateCov(trainSet_2_x2x3))

（3）编写程序，处理三维数据的情形𝑝(𝑥)~𝑁(µ, Σ)。对类1和类2中三个特征求解最大似然估计的均值𝜇̂和方差𝛴。


trainSet_1 = pd.read_csv('w1.csv')
trainSet_2 = pd.read_csv('w2.csv')

print("(3)")
print("类1")
print("(x1,x2,x3)的最大似然估计: µ"+str(calculateAvg(trainSet_1)))
print("Σ:")
print(calculateCov(trainSet_1))
print("------------------------------------------------------------------------------")
print("类2")
print("(x1,x2,x3)的最大似然估计: µ"+str(calculateAvg(trainSet_2)))
print("Σ:")
print(calculateCov(trainSet_2))

（4）假设该三维高斯模型是可分离的，即Σ = d i a g ( σ 1 , σ 2 , σ 3 ) \Sigma=diag(\sigma^1,\sigma^2,\sigma^3)Σ=d i a g (σ1 ,σ2 ,σ3 )，编写程序估计类1和类2中的均值和协方差矩阵中的参数。


trainSet_1 = pd.read_csv('w1.csv')
trainSet_2 = pd.read_csv('w2.csv')

trainSet_1_x1 = trainSet_1['x1'].to_frame()
trainSet_1_x2 = trainSet_1['x2'].to_frame()
trainSet_1_x3 = trainSet_1['x3'].to_frame()
trainSet_2_x1 = trainSet_2['x1'].to_frame()
trainSet_2_x2 = trainSet_2['x2'].to_frame()
trainSet_2_x3 = trainSet_2['x3'].to_frame()

print("类1")
print("(x1,x2,x3)的最大似然估计:")
print("µ"+str(calculateAvg(trainSet_1)))
Cov_1 = np.zeros((3,3))
Cov_1[0, 0] = calculateCov(trainSet_1_x1)
Cov_1[1, 1] = calculateCov(trainSet_1_x2)
Cov_1[2, 2] = calculateCov(trainSet_1_x3)
print("Σ:")
print(Cov_1)
print("----------------------------------------------------------")
print("类2")
print("(x1,x2,x3)的最大似然估计:")
print("µ"+str(calculateAvg(trainSet_2)))
Cov_2 = np.zeros((3,3))
Cov_2[0, 0] = calculateCov(trainSet_2_x1)
Cov_2[1, 1] = calculateCov(trainSet_2_x2)
Cov_2[2, 2] = calculateCov(trainSet_2_x3)
print("Σ:")
print(Cov_2)

（5）（6）比较前 4 种方法计算出来的每一个特征的均值μ \mu μ与方差Σ \Sigma Σ的异同，并加以解释。均值的计算与向量维度无关，都是每一维数据求和再除以n。因为该模型是可分离的，所以各个特征之间相互独立，每个训练样本向量(x1,x2,x3)的Cov(xi,xj)=0 所以协方差是一个对角矩阵，除对角线外其他处的值为0，对角线即为一维数据的方差。

1.4 实验结果

2. 问题2

`
(2):
类1：
(x1,x2)的最大似然估计:
μ：[-0.0709 -0.6047]
𝜎^2:
[[0.90617729 0.56778177]
[0.56778177 4.20071481]]
(x1,x3)的最大似然估计:
μ：[-0.0709 -0.911 ]
𝜎^2:
[[0.90617729 0.3940801 ]
[0.3940801 4.541949 ]]
(x2,x3)的最大似然估计:
μ：[-0.6047 -0.911 ]
𝜎^2:
[[4.20071481 0.7337023 ]
[0.7337023 4.541949 ]]

Original: https://blog.csdn.net/qq_45785407/article/details/121442792
Author: Sunburst7
Title: 实验——参数估计与非参数估计

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/648171/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Python实现文字合成音频文件

人工智能 2023年5月23日
0067
AI算法部署中如何解决资源利用效率的问题

问题介绍在AI算法部署中，资源利用效率是一个重要的考虑因素。资源利用效率的高低直接影响到算法的执行速度和性能。本文将详细介绍如何在AI算法部署中解决资源利用效率的问题，并提供算法…

人工智能 2024年1月3日
0035
张量的轴与实际数据的维度之间有什么关系

问题背景张量是一种多维数组，广泛应用于各个领域的数据处理和分析中。在使用张量进行数据处理时，了解张量的轴与实际数据的维度之间的关系是非常重要的。本文将详细介绍张量轴与数据维度之间…

人工智能 2024年1月1日
0042
ssm的Demo

学习了SSM 后将其整合成一个小Demo 1 结构图 ; 2 config层 2.1 JdbcConfig （jdbc配置） public class JdbcConfig { @…

人工智能 2023年6月27日
0069
OpenCV 通过计算连通域面积过滤面积小的区域–Python

代码参考：https://blog.csdn.net/u014264373/article/details/119486850 通过卷积神经网络预测图像的分割结果时，会发现分割外部…

人工智能 2023年6月18日
0066
将数据导入R语言

背景介绍大家平时在使用R语言的时候，首先要做的事将数据导入进来R，然后进行一系列的数据处理，作图等等！那么有没有一种比较简单的、快速的将数据（Excel中的数据，Text文本中…

人工智能 2023年7月16日
0062
sobel算子检测图像清晰度

我在大学学习图像的时候，主要有两个科目，一个是计算机图形学和数字图像处理，数字图像处理就是很直观的把图像当做一堆数据、矩阵、行列阵等。对这些数据，像是对图像的矩阵进行卷积、加减、乘…

人工智能 2023年6月20日
00157
聚类算法-层次(系统)聚类 Kmeans聚类两步聚类

一、距离定义 1.1 点-点距离距离用来衡量观测变量的属性，第i i i个特征的观测值X i = ( x i 1 , x i 2 , . . . , x i p ) X_{i}…

人工智能 2023年6月2日
0073
利用lasso回归建立预测模型并绘制列线图二分类结局资料的lasso回归与列线图绘制

接着上次的笔记，此次笔记的任务是利用lasso回归建立预测模型并绘制列线图。在目前发表的论文中，lasso回归大都只是作为一种变量的筛选方法。首先通过lasso回归获得系数不为0…

人工智能 2023年6月16日
0051
LabelImg标注的YOLO格式txt标签中心坐标和物体边界框长宽的转换

回答1：将的voc 文件，需要进行以下步骤： 1. 读取文件中的信息，包括目标类别、位置等。 2. 根据的要求，将目标位置为相对于图像宽度和高度的比例。 3. 将目标…

人工智能 2023年7月31日
0064
Matlab imread（）读到了什么（浅显当复习文档了）

matlab打开matlab，用最简单的imread方法读取一个图像 clc clear img_h=imread(‘hua.jpg’); 返回一个数组（矩阵），往往是abc un…

人工智能 2023年6月18日
0076
【Numpy-矩阵库~python】

目录 numpy学习（续） * 转置矩阵 matlib.empty() numpy.matlib.zeros() numpy.matlib.ones() numpy.matlib….

人工智能 2023年7月6日
0068
Pyltp的安装使用笔记

Pyltp的安装使用笔记 LTP（Language Technology Platform）提供了一系列中文自然语言处理工具，用户可以使用这些工具对于中文文本进行分词、词性标注、…

人工智能 2023年5月28日
00100
图像处理之离散傅里叶变换（DFT）

上学期修了数字图像处理这门课程，想着正好趁这个机会写（shui）几篇文章，告诉自己没有白学。傅里叶变换，是图像处理中的一个重要内容，频率域处理的操作都要建立在傅里叶变换的基础上，所…

人工智能 2023年6月20日
0049
西瓜书机器学习复习

第一章 1科学技术工程科学是什么，为什么技术怎么做工程多快好省地做 2分类与回归 [TencentCloudSDKException] code:FailedOperatio…

人工智能 2023年6月2日
0086
Python 计算机视觉（十七）—— 基于KNN的图像分类

参考的一些文章以及论文我都会给大家分享出来 —— 链接就贴在原文，论文我上传到资源中去，大家可以免费下载学习，如果当天资源区找不到论文，那就等等，可能正在审核，审核完后就可以下载了…

人工智能 2023年6月25日
0062

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

实验——参数估计与非参数估计

目录

1.1 实验要求

; 1.2 实验思路

; 1.3 代码实现

1.4 实验结果

大家都在看