描述性统计分析

概要

描述性统计,是指运用制表和分类,图形以及计算概括性数据来描述数据特征的各项活动。描述性统计分析要对调查总体所有变量的有关数据进行统计性描述,主要包括数据的频数分析、集中趋势分析、离散程度分析、分布以及一些基本的统计图形。①数据的频数分析。在数据的预处理部分,利用频数分析和交叉频数分析可以检验异常值。②数据的集中趋势分析。用来反映数据的一般水平,常用的指标有平均值、中位数和众数等。③数据的离散程度分析。主要是用来反映数据之间的差异程度,常用的指标有方差和标准差。④数据的分布。在统计分析中,通常要假设样本所属总体的分布属于正态分布,因此需要用偏度和峰度两个指标来检查样本数据是否符合正态分布。⑤绘制统计图。用图形的形式来表达数据,比用文字表达更清晰、更简明。在SPSS软件里,可以很容易地绘制各个变量的统计图形,包括条形图、饼图和折线图等。
————摘自百度百科

描述性统计分析

; 数据类型

  1. 截面数据

对多个个体在相同或近似相同的同一时间节点上搜集的数据

  1. 时间序列数据

某个个体在一段时间内搜集到的数据集

  1. 面板数据

既有截面维度又有时间维度的混合数据集,可分为平衡面板数据、非平衡面板数据

数据的频数分析

步骤

    1. 确定互异的组数
    2. 确定组宽
    3. 确定组限。确保每个数据值属于且只属于一组

数据的位置度量

数据的集中趋势分析是用来反映数据的一般水平,常用的指标有平均值、中位数和众数等。各指标的具体意义如下:

平均值:是衡量数据的中心位置的重要指标,反映了一些数据必然性的特点,包括算术平均值、加权算术平均值、调和平均值和几何平均值。
加权平均数: 当观测值具有不同的权重(重要性),使用加权平均数
几何平均数:也是数据位置的一种度量,但它是 n 个数值乘积的 n 次方根。在财金领域中,几何平均数常用于分析财务数据的年、季度、月、周甚至天的平均变化率。

中位数:是另外一种反映数据的中心位置的指标,其确定方法是将所有数据以由小到大的顺序排列,位于中央的数据值就是中位数。

众数:是指在数据中发生频率最高的数据值。

除此之外,还有百分位数,四分位数。

如果各个数据之间的差异程度较小,用平均值就有较好的代表性;而如果数据之间的差异程度较大,特别是有个别的极端值的情况,用中位数或众数有较好的代表性。
位置 极端值影响 应用 平均数 mean

重心极易存在极端值时,可用 中位数或调整平均数替代
中位数 median

排序后的中间不受存在极端值时,是比平均数更为准确的确定数据中心位置的参数
众数 mode

出现频次最高不受

数据的变异度量

变异程度(variability)被称作变异性或者可变性,它描述了数据点彼此之间以及距分布中心的距离。可变性有时也称为扩散或者分散。 因为它告诉你点是倾向于聚集在中心周围还是更广泛地分散。低变异性是理想的,因为这意味着可以根据样本数据更好地预测有关总体的信息。 高可变性意味着值的一致性较低,因此更难做出预测。

  1. 极差

极差,又称全距,可以显示数据从分布中的最低值到最高值的分布。 极差=最大值-最小值
极差的度量仅使用了 2 个数字因此受异常值影响很大,并且不会提供有关值分布的任何信息。 所以它最好与其他方法结合使用。

  1. 四分位距

又被称作四分差,可以提供数据分布中间的分布。
四分位数
Q1:第一四分位数,下四分位数,第25百分位数
Q2:第二四分位数,中四分位数,第50百分位数
Q3:第三四分位数,上四分位数,第75百分位数
第三四分位数与第一四分位数的差距又称四分位距(InterQuartile Range, IQR)。
对于从低到高排序的任何分布,四分位距包含数据中一半的值。 第一个四分位数 (Q1) 包含前 25% 的值,而第四个四分位数 (Q4) 包含最后 25% 的值。
它衡量数据如何围绕均值分布。 基本公式为: IQR = Q3 - Q1
就像极差一样,四分位距在其计算中仅使用 2 个值。 但是IQR受异常值的影响较小:这2个值来自数据集的中间一半,所以不太可能是极端分数。

  1. 方差

方差表示数据集的分布范围,但它是一个抽象数字。它反映了数据集中的分散程度。 数据越分散,方差与均值的关系就越大。
总体方差

描述性统计分析

样本方差

描述性统计分析
  • 小方差 – 数据点往往非常接近均值且彼此非常接近
  • 高方差 – 数据点与均值和彼此之间非常分散
  • 零方差——所有数据值都相同

  • 标准差

标准偏差是数据集中的平均变异量。 它平均表示每个数据点与平均值相差多远。标准差越大,数据集的可变性越大。
总体标准差:

描述性统计分析
样本标准差:
描述性统计分析
  1. 标准差系数

标准差系数,又称为均方差系数,离散系数。它是从相对角度观察的差异和离散程度,在比较相关事物的差异程度时较之直接比较标准差要好些。

描述性统计分析

什么是变异性的最佳衡量标准?

可变性的最佳衡量标准取决于不同衡量标准和分布水平。
对于在序数水平上测量的数据,极差和四分位距是唯一合适的变异性度量。
对于更复杂的区间和比率的数据,标准差和方差也适用。
对于正态分布,可以使用所有度量。 但标准差和方差是首选,因为它们考虑了整个数据集,但这也意味着它们很容易受到异常值的影响。
对于偏态分布或具有异常值的数据集,四分位距是最好的度量。 它受极值影响最小,因为它侧重于数据集中间的部分。
总体参数 样本统计量 平均数 mean μx ˉ \bar x x ˉ 方差 varianceσ 2 σ^2 σ2 s 2 s^2 s 2 标准差 standard deviation σ s

; 分布形态的度量

偏度

偏度(skewness),是统计数据分布偏斜方向和程度的度量,是统计数据分布非对称程度的数字特征。定义上偏度是样本的三阶标准化矩。
数据分布偏斜程度使用偏态系数(skewness )进行测度,记为$SK = \frac{\bar x-M_0}{\sigma} $
SK= 0:对称分布
SK> 0:右偏分布
SK< 0:左偏分布

描述性统计分析

峰度

峰度(peakedness;kurtosis)又称峰态系数。表征概率密度分布曲线在平均值处峰值高低的特征数。直观看来,峰度反映了峰部的尖度。随机变量的峰度计算方法为:随机变量的四阶中心矩与方差平方的比值。
峰度包括正态分布(峰度值=3),厚尾(峰度值>3),瘦尾(峰度值

相对位置的度量

z-分数

z-分数:离差/标准差,表明每一个观测值与均值的相对位置

描述性统计分析

切比雪夫定理

与平均数距离在 z 个标准差之内的数据值所占比例至少为(1 − 1 / z 2 1-1/z^2 1 −1 /z 2),其中 z 是大于1的任意实数
数值分布越接近对称或钟形分布,切比雪夫定理越准确

; 探索性数据分析

五数概括法:

五数概括法使用5个统计量确定较大数据集的多重特征
小知识:每个分布都可以使用五个数字摘要进行组织

  • 最低值
  • Q1:第 25 个百分位
  • Q2:中位数
  • Q3:第 75 个百分位
  • 最高值 (Q4)

箱型图

箱线图也称箱须图、箱形图、盒图,用于反映一组或多组连续型定量数据分布的中心位置和散布范围。箱形图包含数学统计量,不仅能够分析不同类别数据各层次水平差异,还能揭示数据间离散程度、异常值、分布差异等等。
箱形图是五数概括法的具象化,箱形图最大的优点就是不受异常值的影响,可以以一种相对稳定的方式描述数据的离散分布情况。
在箱线图中,箱子的中间有一条线,代表了数据的中位数。箱子的上下底,分别是数据的上四分位数(Q3)和下四分位数(Q1),这意味着箱体包含了50%的数据。因此, 箱子的高度在一定程度上反映了数据的波动程度。上下边缘则代表了该组数据的最大值和最小值。有时候箱子外部会有一些点,可以理解为数据中的” 异常值“。

描述性统计分析
通过箱形图可以判断数据集的分布形态,箱形图最重要的用途就是识别异常值

异常值检验

经验法则

几乎所有的数据值与平均数的距离在3个标准差之内

z-分数(标准化数值)检验

对𝑧

四分位数法(箱型图)

下限 = 𝑸𝟏 − 𝟏.𝟓𝑰𝑸𝑹
上限 = 𝑸𝟑 + 𝟏.𝟓𝑰𝑸𝑹

描述性统计分析

找出异常值后需再次检验其准确性,确定它是否属于数据集

; 双变量之间关系的度量

协方差、相关系数

协方差的值依赖于𝒙和𝒚的计量单位,不同计量单位下容易出现判断误差
相关系数对于刻画两个变量之间的关系更为准确,即相关系数可以刻画关系的强度

数据分析工具

matlab中基本统计量的函数

函数名功能min数组的最小元素mink计算数组的k个最小元素max数组的最大元素maxk计算数组的k个最大元素bounds最小元素和最大元素topkrows按排序顺序的前若干行mean数组的均值median数组的中位数值mode数组的众数skewness数组的偏度kurtosis数组的峰度std标准差var方差

EXCEL的数据分析工具

数据 – 数据分析

描述性统计分析

; SPSS数据分析

描述性统计分析

Original: https://blog.csdn.net/qq_52117903/article/details/124137845
Author: Epiphany✿
Title: 描述性统计分析

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/694108/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球