蓬莱小课：统计学数据分析须知这些：P值、T检验、卡方检验、假设检验……

2023年7月16日下午8:42 • 人工智能 • 阅读 89

P值的统计学意义是什么

结果的统计学意义是结果真实程度（能够代表总体）的一种估计方法。专业上，p值为结果可信程度的一个 递减指标，p值越大，我们越不能认为样本中变量的关联是总体中各变量关联的可靠指标。

p值是将观察结果认为有效即具有总体代表性的犯错概率。如p=0.05提示样本中变量关联有5%的可能是由于偶然性造成的。即假设总体中任意变量间均无关联。

我们重复类似实验，会发现约20个实验中有一个实验，我们所研究的变量关联将等于或强于我们的实验结果。（这并不是说如果变量间存在关联，我们可得到5%或95%次数的相同结果，当总体中的变量存在关联，重复研究和发现关联的可能性与设计的统计学效力有关。）

在许多研究领域，0.05的p值通常被认为是可接受错误的边界水平。

t检验的使用场景

t检验适用于 两个变量均数间的差异检验，多于两个变量间的均数比较要用方差分析。

无论哪种类型的t检验，都必须在满足特定的前提条件下: 正态性和方差齐性，应用才是合理的。这是因为必须在这样的前提下所计算出的t统计量才服从t分布，而t检验正是以t分布作为其理论依据的检验方法。

t检验是目前医学研究中使用频率最高，医学论文中最常见到的处理定量资料的假设检验方法。

如何判定结果具有真实的显著性

在最后结论中判断什么样的显著性水平具有统计学意义， 不可避免地带有武断性。换句话说，认为结果无效而被拒绝接受的水平的选择具有武断性。

实践中，最后的决定通常依赖于 数据集比较和 分析过程中结果是先验性还是仅仅为均数之间的两两比较，依赖于总体数据集里结论一致的 支持性证据的数量，依赖于以往该研究领域的惯例。

通常，许多的科学领域中产生P值的结果≤0.05被认为是统计学意义的边界线，但是这显著性水平还包含了相当高的犯错可能性。结果 0.05≥P>0.01被认为是具有统计学意义，而 0.01≥P≥0.001被认为具有高度统计学意义。但要注意这种分类仅仅是研究基础上非正规的判断常规。

假设检验的内涵及步骤

在假设检验中，由于随机性我们可能在决策上犯两类错误，一类是假设正确，但我们拒绝了假设，这类错误是 “弃真”错误，被称为第一类错误；一类是假设不正确，但我们没拒绝假设，这类错误是 “取伪”错误，被称为第二类错误。

一般来说，在样本确定的情况下， 任何决策无法同时避免两类错误的发生，即在避免第一类错误发生几率的同时，会增大第二类错误发生的几率；或者在避免第二类错误发生几率的同时，会增大第一类错误发生的几率。人们往往根据需要选择对哪类错误进行控制，以减少发生这类错误的几率。大多数情况下，人们会控制第一类错误发生的概率。

发生第一类错误的概率被称作 显著性水平，一般用α表示，在进行假设检验时，是通过事先给定显著性水平α的值而来控制第一类错误发生的概率。

在这个前提下，假设检验按下列步骤进行：

确定假设
进行抽样，得到一定的数据
根据假设条件下，构造检验统计量，并根据抽样得到的数据计算检验统计量在这次抽样中的具体值
依据所构造的检验统计量的抽样分布，和给定的显著性水平，确定拒绝域及其临界值
比较这次抽样中检验统计量的值与临界值的大小，如果检验统计量的值在拒绝域内，则拒绝假设

到这一步，假设检验已经基本完成，但是由于检验是利用事先给定显著性水平的方法来控制犯错概率的，所以对于两个数据比较相近的假设检验，我们无法知道哪一个假设更容易犯错，即我们通过这种方法 只能知道根据这次抽样而犯第一类错误的最大概率（即给定的显著性水平），而无法知道具体在多大概率水平上犯错。

计算P值有效的解决了这个问题，P值其实就是按照抽样分布计算的一个概率值，这个值是根据 检验统计量计算出来的。通过直接比较P值与给定的显著性水平α的大小就可以知道是否拒绝假设，显然这就代替了比较检验统计量的值与临界值的大小的方法。

而且通过这种方法，我们还可以知道 在p值小于α的情况下犯第一类错误的实际概率是多少，p＝0.03

卡方检验的结果

值是越大越好，还是越小越好？

与其它检验一样，所计算出的统计量越大，在分布中越接近分布的尾端，所对应的概率值越小。如果试验设计合理、数据正确，显著或不显著都是 客观反映。 没有什么好与不好。

在比较两组数据的率是否相同时

二项分布和卡方检验有什么不同？

卡方分布主要用于 多组多类的比较，是检验研究对象 总数与某一类别组的观察频数和期望频数之间是否存在显著差异，要求每格中频数不小于5，如果小于5则合并相邻组。

二项分布则 没有这个要求。如果分类中只有两类还是采用二项检验为好。如果是2*2表格可以用fisher精确检验，在小样本下效果更好。

如何比较两组数据之间的差异性

设计类型是完全随机设计两组数据比较，不知道数据是否是连续性变量？

比较方法：如果数据是连续性数据，且两组数据分别服从正态分布和方差齐性检验，则可以采用 t检验， 如果不服从以上条件可以采用其他检验。

想知道两组数据是否有明显差异？不知道这个明显差异是什么意思？是问差别有无统计学意义（即差别的概率有多大）还是两总体均数差值在哪个范围波动？ 如果是前者则可以用第2步可以得到P值，如果是后者，则是用均数差值的置信区间来完成的。

Original: https://blog.csdn.net/Penglaixiaoke/article/details/124846034
Author: 蓬莱小课IT
Title: 蓬莱小课：统计学数据分析须知这些：P值、T检验、卡方检验、假设检验……

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/697188/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

随机森林分类预测性能SE,SP,ACC 与决策树比较

请采用决策树的集成学习方法——随机森林完成第三次作业中，对男女生样本数据中的（喜欢颜色，喜欢运动，喜欢文学）3 个特征进行分类，计算模型预测性能（包含 SE、SP、ACC），并以…

人工智能 2023年7月1日
0083
激活函数(sigmoid、tanh、ReLU、softmax)

文章目录 * – 1.1、sigmoid函数 – 1.2、tanh函数 – 1.3、ReLU函数 – 1.4、softmax函数激…

人工智能 2023年6月17日
0076
pandas 小计

数据库数据读取/存储： import pymysql from sqlalchemy import create_engine conn = create_engine(‘mysq…

人工智能 2023年7月6日
0060
opencv 图像直方图详解

文章目录理论基础一、opencv 函数支持calcHist() 代码示例理论基础直方图直方图是数值数据分布的精确图形表示。为了构建直方图，第一步是将值的范围分段，即将整个值…

人工智能 2023年5月26日
0078
基于Python（sklearn）计算PLS中的VIP值

基于Python（sklearn）计算PLS中的VIP值 sklearn中PLS回归模型并没有计算VIP值的方法，但VIP又是很重要的筛选变量方法。下附代码思路与完整代码，若有错误…

人工智能 2023年6月16日
00105
TensorFlow2 实现神经风格迁移，DIY数字油画定制照片，面试必问知识点

[]( )使用VGG提取特征分类器CNN可以分为两部分：第一部分称为特征提取器 (feature extractor)，主要由卷积层组成；后一部分由几个全连接层组成，输出类概率得…

人工智能 2023年5月24日
0087
【金猿产品展】亚信科技AISWare Onta KG知识图谱工具——一站式全流程知识计算管理平台…

亚信科技产品本项目由亚信科技投递并参与”——2021大数据产业创新服务产品榜单及奖项”评选。数据智能产业创新服务媒体 ——聚焦数智 · 改变商业亚信科…

人工智能 2023年6月1日
00108
Python cv2 寻找图片中数量占比最高的像素

工作中遇到一个问题，即找出图片当中数量占比最高的像素值。因时间紧迫，使用两层循环嵌套 naive 的完成了需求，效率非常慢，被人吐槽（可耻！）。故开始寻找优化方法，发现利用 n…

人工智能 2023年7月19日
0046
语音信号的特性

由前序知识，我们可知，语音信号在短时(20ms左右）内是具有平稳性的。因此，我们对语音信号的时域波形分析选择在短时内。浊音 /a:/ 时域波形分析可以发现浊音的时域波形在短时间…

人工智能 2023年5月25日
0096
拓端tecdat|Python实现谱聚类Spectral Clustering算法和改变簇数结果可视化比较

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped …

人工智能 2023年6月3日
0089
卷积神经网络中的傅里叶变换：1024×1024 的傅里叶卷积

卷积神经网络 (CNN) 得到了广泛的应用并且事实证明他是非常成功的。但是卷积的计算很低效，滑动窗口需要很多计算并且限制了过滤器的大小，通常在 [3,3] 到 [7,7] 之间的小…

人工智能 2023年5月28日
0081
【PyTorch深度学习项目实战100例】—— 基于ResNet18实现昆虫分类任务 | 第23例

; 前言大家好，我是阿光。本专栏整理了《PyTorch深度学习项目实战100例》，内包含了各种不同的深度学习项目，包含项目原理以及源码，每一个项目实例都附带有完整的代码+数据集…

人工智能 2023年7月21日
0050
python 解析json数据

遇到了个json数据需要解析，利用Python脚本尝试如下 import os import pandas as pd import numpy as np path=r&#821…

人工智能 2023年7月7日
00102
使用KMeans对iris数据集聚类

一、聚类分析的基本知识聚类分析也称聚类，它与分类是不同的，分类的目标变量是已知的，每个样本都存在类标签，而聚类的目标变量是事先不知道的，聚类的样本类别没有被预先定义出来。聚类是根…

人工智能 2023年5月31日
0077
数据科学导论——数据采集和预处理作业

作业题目 1.请简述深度优先遍历的算法思想 2.请简述广度优先遍历的算法思想 3.数据预处理的方法有哪些？ 4.请分别写出下图的深度优先遍历和广度优先遍历的结果（假设V1是顶点） …

人工智能 2023年6月19日
00106
【Plotly】python数据可视化神器——绘制折线图

Plotly简介 Plotly是用于机器学习、数据挖掘等领域的数据可视化包。其图标视觉效果简洁大气，可互动性强，成为我工作中进行数据可视化的一大利器，接下来我们就从最简单的折线图…

人工智能 2023年7月14日
0084

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

蓬莱小课：统计学数据分析须知这些：P值、T检验、卡方检验、假设检验……

大家都在看