数学基础之概率

2023年5月31日下午2:39 • 技术杂谈 • 阅读 80

本文主要介绍概率与数理统计中的一些常见的基本概念。

对于随机试验，尽管在每次试验之前不能预知试验的结果，但是试验的所有可能结果集合是已知的，我们将随机试验E的所有可能的结果组成的集合称为E的样本空间，记为S。样本空间的的元素，即E的每个可能结果，称为样本点。比如事件E：抛一枚硬币，观察正面H，反面T出现的情况，S={H，T}。

频率描述了事件发生的频繁程度，一般采用多次试验的结果得到。

概率描述的是一次试验中，事件发生的可能性大小。

如果试验的次数足够多，频率将在一定意义下接近于概率。

设A，B是两个事件，且P(A)>0，称：

$\large P(B|A) = \frac {P(AB)}{P(A)}$

为事件A发生的条件下事件B发生的概率。

设P(A)>0，则：

$\large P(AB)=P(B|A)P(A)$

$\large P(ABC)=P(C|AB)P(B|A)P(A)$

这个定理也很容易推广到多个事件的情况

设试验E的样本空间为S，A为E的事件，$B_1$，$B_2$，$\ldots$，$B_n$为S的一个划分，且 $P(B_i)>0$，则：

$\large P(A) = P(A|B_1)P(B_1) + P(A|B_2)P(B_2) + \ldots + P(A|B_n)P(B_n) $

$\large P(B_i|A) = \frac {P(A|B_i)P(B_i)}{\sum_{j=1}^{n}P(A|B_i)P(B_i)}$

例子：某种设备，调整良好时，产品合格率为90%，发生故障时，合格率为30%，每天早上开工时，设备调整良好的概率为75%，已知早上第一件产品是合格品，问设备调整良好的概率是多少？如果定义事件A为产品合格，事件B为设备调整良好，显然有P(A|B)=0.9，P(A|B’)=0.3，P(B)=0.75，P(B’)=0.25，要求的是P(B|A)。P(B)称为先验概率，是根据以往的经验数据得到的，P(B|A)是得到了第一件产品为合格品之后对P(B)做的修正，称为后验概率，后验概率让我们对设备的情况有了更进一步的了解。

如果A，B两个事件满足

$\large P(AB)=P(A)P(B)$

称A，B为互相独立的事件。这个式子也很容易推广到多个事件的情况。

如果将随机试验的结果数量化，比如抛硬币，用 1 代表正面，用 0 代表反面。如果将这个数量化的结果用一个变量X表示，X就是随机变量，根据实验结果的不同而不同。正规的定义是：设E是随机试验，样本空间是S={e}，如果对于每一个e属于S，都有一个实数X(e)与之对应，这样就得到一个定义在S上的单值函数X=X(e)，称为随机变量。如果X能取到的值是有限个或者可列无限个，则X称为离散性随机变量。

如果离散性随机变量X的所有取值为 $x_k(k=1,2,…)$，X取各个值得概率为：

$\large P{ X=x_k }=p_k$

称为离散性随机变量X的概率分布或者分布律。

对于非离散性随机变量X，其可能的取值不能一一列举出来，所以不能用像离散性随机变量那样用分布律来吗描述，为此引入随机变量分布函数的概率。

设X是一随机变量，x是任意实数，函数：

$\large F(x) = P { X \leq x }$

称为X的分布函数。虽然对离散性随机变量，可以完全用分布律来描述，但为了数学上的统一，定义了对离散性随机变量和非离散性随机变量都适用的分布函数。

如果随机变量X的分布函数是F(x)，存在非负函数f(x)，使得对于任意实数x有：

$\large F(x) = \int_{-\infty}^{x}f(t)dt $

则称X为连续性随机变量，f(x)称为X的概率密度函数，简称概率密度。

概率密度具有以下性质：

（1）$\large f(x) \geq 0 $

（2）$\large \int_{-\infty}^{\infty}f(x)dx = 1$

设离散性随机变量X的分布律为：

$\large P{ X=x_k }=p_k$

如果级数

$\large \sum_{k=1}^{\infty}x_k p_k $

绝对收敛，则称为随机变量X的期望。记作E(X)。

对于连续性随机变量X的概率密度为f(x), 期望为：

$\large \int_{-\infty}^{\infty}xf(x)dx$

如果有函数Y=g(x)，则Y的期望为：

$\large \int_{-\infty}^{\infty}g(x)f(x)dx$

期望又称均值。

设X是一个随机变量，如果$E{[X-E(X)]^2}$存在，则称为X的方差，记为D(X)或者Var(X)。

方差可以按照公式 $D(X) = E(X^2) – [E(X)]^2 $计算。

方差开方$\sqrt {D(x)}$记为 $\sigma(X)$，称为标准差或者均方差。

设X是随机变量

X的k阶原点矩：$E(X^k)$

X的k阶中心矩：$E{ [X-E(X)]^k}$

显然X的期望是X的一阶原点矩，方差是X的二阶中心矩

0-1分布伯努利分布(Bernoulli distribution)

离散性随机变量的概率分布，随机变量X只能取0和1两个值，它的分布律是

$\large P{ X=k } = p^k(1-p)^{1-k}, k=0,1$

$E(X) = p$, $D(X) = p(1-p)$

二项分布(Binomial distribution)

随机变量X表示n重伯努利试验中事件A发生的次数，例如重复抛n次硬币，出现正面的次数。X的分布律是：

$\large P{ X=k } = {n \choose k}p^k(1-p)^{n-k}, k=0,1,2,…,n$

$E(X) = np$, $D(X) = np(1-p)$

泊松分布(Poisson distribution)

设随机变量X所有的可能取值为0,1,2,…,而取各个值得概率为

$\large P{ X=k } = \frac {\lambda^k e^{-\lambda}}{k!}, k=0,1,2,…$

则称X服从参数为 $\lambda$的泊松分布。

$E(X) = \lambda$, $D(X) = \lambda$

在实际事例中，当一个随机事件，以固定的平均瞬时速率λ（或称密度）随机且独立地出现时，那么这个事件在单位时间（面积或体积）内出现的次数或个数就近似地服从泊松分布。因此，泊松分布在管理科学、运筹学以及自然科学的某些问题中都占有重要的地位。例如：

（1）某一服务设施在一定时间内到达的人数

（2）电话交换机接到呼叫的次数

（3）汽车站台的候客人数

（4）机器出现的故障数

（5）自然灾害发生的次数

（6）一本书一页中的印刷错误

（7）显微镜下单位分区内的细菌分布数

（8）某放射性物质单位时间发射出的粒子数

（9）某地区一天内丢失的邮件数

（10）某医院一天内的急诊人数

均匀分布(Uniform distribution)

设连续性随机变量X具有概率密度

$\large f(x) = \left { {\frac {1} {b-a}, \qquad a

则称X在区间[a,b]上服从均匀分布

$E(X)=\frac {a+b}{2}$, $D(X)=\frac {(b-a)^2}{12}$

正态分布(Normal distribution, Gaussian distribution)

设连续性随机变量X的概率密度为：

$\large f(x) = \frac {1}{\sqrt {2 \pi \sigma^2}} e^{-\frac {(x-\mu)^2}{2 \sigma^2}}, -\infty < x < \infty $

则称X服从参数为 $\mu$, $\sigma$的正态分布，正态分布又叫高斯分布。

$E(X)=\mu$, $D(X)=\sigma^2$

随机试验中，随着试验次数的增加，人们发现事件发生的频率逐渐稳定于某个常数（想想抛硬币的例子），在实践中，人们还认识到大量测量值的算数平均值也具有稳定性，这种稳定性就是大数定理的客观背景。这里我们介绍其中的一个大数定理：

辛钦定理

设随机变量$X_1,X_2,\ldots,X_n$相互独立，服从同一分布(independent and identically distributed, i.i.d.)，且具有相同的数学期望，$E(X_k)=\mu$，则：

$\large \lim_{n \to \infty} P { |\frac {1} {n} \sum_{k=1}^{n} X_k – \mu |

在客观实际中有许多随机变量，他们是由大量相互独立的随机因素的综合影响形成的，而其中每一个个别因素在总的影响中所起的作用都是微小的，这种随机变量往往近似地服从正态分布，这种现象就是中心极限定理的客观背景。这里只介绍独立同分布的中心极限定理。

独立同分布的中心极限定理

设随机变量$X_1,X_2,\ldots,X_n$相互独立，服从同一分布，且具有相同的数学期望，$E(X_k)=\mu$ 和相同的方差 $D(X_k)=\sigma^2 \neq 0$，则随机变量：

$\large Y_n = \frac {\sum_{k=1}^{n} X_k – E(\sum_{k=1}^{n} X_k)}{\sqrt {D(\sum_{k=1}^{n} X_k)}} = \frac {\sum_{k=1}^{n} X_k – n\mu}{\sqrt{n}\sigma}$

在n很大时趋近于标准正态分布。

当这些随机变量不是服从同一分布的时候，他们的和在n很大时仍然服从正态分布，这就是正态分布为什么概率中特别重要的原因。在很多问题中，所考虑的随机变量可以表示成很多独立的随机变量之和，例如，在任一指定时刻，一个城市的耗电量是大量用户的耗电量的总和，一个物理实验的测量误差是许多观察不到的，可加的微小误差所合成的，他们往往近似的服从正态分布。

点估计

设总体X的分布函数形式已知，但有一个或者多个未知参数，借助于总体X的一个样本来估计总体未知参数的值的问题称为参数的点估计问题。常用的点估计方法有矩估计法和最大似然估计法。

例子：设总体 X 的均值 $\mu$ 和方差 $\sigma^2$均未知，已知$X_1,X_2,\ldots,X_n$ 是一个样本，估计均值 $\mu$ 和方差 $\sigma^2$

分别计算样本矩和总体矩的前k阶矩，利用样本矩依概率收敛于总体矩的性质，构造相应的方程组，用方程组的解作为参数的估计量，这时候的估计量称为矩估计量。

用矩估计法解上面的例子：

易知总体矩：

$\large \mu_1 = E(X) = \mu $

$\large \mu_2 = E(X^2) = D(X) + [E(X)]^2 = \mu + \sigma^2 $

计算样本矩：

$A_1 = \frac {1}{n} \sum_{i=1}^n X_i = \overline {X} $

$A_2 = \frac {1}{n} \sum_{i=1}^n X_i^2 $

联立方程组

$A_1 = \mu_1 $

$A_2 = \mu_2 $

解得：

$\large \hat{\mu} = \overline {X} $

$\large \hat {\sigma^2} = \frac {1}{n} \sum_{i=1}^{n}(X_i – \overline {X})^2$

设总体X属于离散性，其分布律为 $P(X=x)=p(x;\theta)$，形式已知，但参数$\theta$未知。已知$X_1,X_2,\ldots,X_n$ 是一个样本，则$X_1,X_2,\ldots,X_n$的联合分布律为：

$ \large \Pi_{i=1}^{n}p(x_i;\theta)$

设$x_1,x_2,\ldots,x_n$是相应于样本$X_1,X_2,\ldots,X_n$的一个样本值，已知样本取到$x_1,x_2,\ldots,x_n$的概率为，也即事件 ${ X_1=x_1, X_2 = x_2, \ldots, X_n = x_n}$ 发生的概率为：

$\large L(\theta) = L(x_1,x_2,\ldots,x_n;\theta) = \Pi_{i=1}^{n}p(x_i;\theta) $

这一概率随 $\theta$的变化而变化，是$\theta$的函数，称为样本的似然函数。

用使似然函数取得最大值的$\theta$作为原分布律未知参数的估计值，称为极大似然估计值。

当总体X属于连续型时，考虑的是样本$X_1,X_2,\ldots,X_n$ 落到$x_1,x_2,\ldots,x_n$ 的领域内的概率，和离散性的表达形式一样。

用最大似然估计解上面的例子

X的概率密度为：

$\large f(x; \mu,\sigma^2) = \frac {1}{\sqrt {2 \pi \sigma^2}} e^{-\frac {(x-\mu)^2}{2 \sigma^2}}$

似然函数为：

$\large L(\mu, \sigma^2)=\Pi_{i=1}^{n} \frac {1}{\sqrt {2 \pi \sigma^2}} e^{-\frac {(x-\mu)^2}{2 \sigma^2}}$

取对数，然后分别对 $\mu$, $\sigma^2$求偏导数，并令偏导数为0，解得：

$\large \hat{\mu} = \overline {X} $

$\large \hat {\sigma^2} = \frac {1}{n} \sum_{i=1}^{n}(X_i – \overline {X})^2$

和用矩估计法求得的估计值完全相同。

评价一个估计量的好坏，有很多常用的标准，这里只介绍最常用的两个标准，无偏性和有效性。

无偏性

如果估计量$\hat {\theta}=\hat {\theta}(X_1, X_2, \ldots, X_n)$的期望存在，而且有：

$\large E(\hat{\theta}) = \theta $

则称$\hat {\theta}$为$\theta$的无偏估计量。

检验上面例子中的估计值：

$\large E(\hat {\sigma^2}) = \frac {n-1}{n} \sigma^2 \neq \sigma^2 $

所以估计量$\hat {\theta}$是有偏的。

有效性

设估计量$\hat {\theta_1}=\hat {\theta_1}(X_1, X_2, \ldots, X_n)$和估计量$\hat {\theta_2}=\hat {\theta_2}(X_1, X_2, \ldots, X_n)$都是$\theta$的无偏估计量，如果：

$\large D(\hat {\theta_1}) < D(\hat {\theta_2})$

则称 $\hat {\theta_1} $比$\hat {\theta_2} $有效。

[1]: 概率论与数理统计高等教育出版社

[2]: Pattern Recognition and Machine Learning Chapter1, Chapter2, Appendix B

转载 http://www.cnblogs.com/dudi00/p/4063470.html

Original: https://www.cnblogs.com/chenying99/p/5027991.html
Author: 刺猬的温驯
Title: 数学基础之概率

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/551373/

转载文章受原作者版权保护。转载请注明原作者出处！

技术杂谈

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

为什么方法断点那么慢

原文一些IDE提供”方法断点”的功能，可以让断点调试看起来非常简洁，然而在调试过程中我们会发现调试反应时间很长，调试器的性能大大降低。在本文中，我会简单解释…

技术杂谈 2023年6月21日
0098
DP 优化小技巧

收录一些比较冷门的 DP 优化方法。树上依赖性背包形如在树上选出若干个物品做背包问题，满足这些物品连通。由于 01 背包，多重背包和完全背包均可以在 (\mathcal{O}(V…

技术杂谈 2023年6月21日
00128
Mybatis源码1JDBC->mybatis主要流程->mybatis Excutor简介

=== 一丶mybatis概述 MyBatis 是一款优秀的持久层框架，它支持自定义 SQL、存储过程以及高级映射。MyBatis 免除了几乎所有的 JDBC 代码以及设置参数和获…

技术杂谈 2023年7月25日
0077
设计模式 10 装饰器模式

装饰器模式（Decorator Pattern）属于结构型模式装饰，顾名思义，就是在原有基础上增添东西以显示更好的效果。生活中非常多这样的例子，衣服饰品、珠宝首饰、房子…

技术杂谈 2023年7月25日
0051
从 Linux 内核角度探秘 JDK NIO 文件读写本质

1. 前言笔者在《从 Linux 内核角度看 IO 模型的演变》一文中曾对 Socket 文件在内核中的相关数据结构为大家做了详尽的阐述。又在此基础之上介绍了针对 socke…

技术杂谈 2023年7月11日
0092
C#撸了个批量转换Word、Excel、PPT为PDF的软件 pdfcvt.com

批量转换Word、Excel、PPT为PDF的软件，一键转换所有文档为PDF，方便、简单、实用批量转换Word、Excel、PPT为PDF的软件，一键转换所有文档为PDF，方便、…

技术杂谈 2023年5月31日
0092
SpringBoot教程，吃透这些知识点，超过90%的Java面试者

动力节点王鹤老师的SpringBoot入门系列课程，通俗易懂，基于SpringBoot2.4版本讲解。从细节入手，每个事例先讲解pom.xml中的重要依赖，其次applicati…

技术杂谈 2023年7月25日
0070
styleBinding样式存放位置

styleBinding样式针对父层放label里则只对label起作用 <ui> <view> <container> <subVie…

技术杂谈 2023年6月1日
00102
负负得正

有了《系统架构的11条原则》，真正到设计阶段还有另外11个考虑。系统正确性考虑一：负负得正假如我们看到某个代码，明显有逻辑错误，想随手改改。你就要考虑一件事情：这段明显有问题…

技术杂谈 2023年5月31日
00107
OS第三章错题

OS第三章错题现在看不知道当时为啥做错了…… 这个题要做对，就要分清楚作业和进程不同的状态。作业有收容、运行、完成三种状态。其中在运行时，作业内的…

技术杂谈 2023年7月11日
0063
Docker容器网络配置

Docker容器网络配置 1、Linux内核实现名称空间的创建 1.1 ip netns命令可以借助 ip netns命令来完成对 Network Namespace 的各种操作…

技术杂谈 2023年6月21日
0072
<semaphore.h> 和 <sys/sem.h> 的区别

“semaphore.h” 和 “sys/sem.h”是两种不同的实现并提供不同的功能集 <sys sem.h><…

技术杂谈 2023年7月24日
0071
Task.Result, Task.Wait(), Task.WaitAll(), Task.WaitAny()都会抛出AggregateException异常（链接）

下面的文章章节，阐述了如何在调用 Task.Wait(), Task.WaitAll()和 Task.WaitAny()方法时，捕获 AggregateException异常：下…

技术杂谈 2023年5月31日
0074
Proquest

ProQuest学位论文比较多。2021年被科睿唯安收购 2021年5月17日， Clarivate公司宣布收购全球领先软件、数据和分析提供商ProQuest。此次收购需耗费约40…

技术杂谈 2023年5月31日
0087
dremio 权限体系

尽管dremio 的社区版没有提供rbac 以及权限管理的模块能力，但是我们通过官方文档还是可以学到不少东西的，同时也有助于我们可以自己的认证授权模块对象层级 dremio 是基…

技术杂谈 2023年5月30日
00116
常用开发工具的安装和使用

常用开发工具的安装和使用 IntelliJ IDEA的安装和使用安装教程 1.教育优惠 JetBrains开发的众多开发工具提供教育优惠，可以方便在校学生使用。通过学校提供的教育…

技术杂谈 2023年7月23日
0086

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31