逻辑推理篇：数据分析中违背常理的悖论：辛普森悖论

2023年7月16日上午11:53 • 人工智能 • 阅读 128

在现实生活中，我们常常会遇到这样一种现象，当尝试研究两个变量是否具有相关性的时候，会分别对此进行分组研究。

然而，在分组比较中都显示非常有优势的一方，在总评时却成了失势的一方。直到1951年，英国统计学家E.H.辛普森发表论文对此现象做了描述解释，后来人们就以他的名字命名该现象，即辛普森悖论。

思考下，辛普森悖论为什么成立？

一、辛普森悖论的原理

下面给出辛普森悖论的数学原理：

从数学表达式上，我们可以看出，对a、b、c、d四个变量，分成1组和2组，在1组比率占优势的情况下，总体占优势却不成立。

看一个例子：抖音6月与7月活跃人群得活跃时长对比，发现男性活跃时长上升，女性也上升，但是整体上7月活跃时长比6月降低是什么原因？

为了让结果更直观，我做了一个数据图，不是很标准，但是足以解释。

假设6月，活跃男生占比20%，使用平均时长 1.2h；活跃女生占比80%，使用平均时长1.5h，则可以计算6月整体使用时长为1.44h。同理，假设7月，活跃男生占比60%，使用平均时长 1.3h；活跃女生占比40%，使用平均时长1.6h，则可以计算7月整体使用时长为1.42h。

这样就可以非常清晰的看出，7月比6月男女生的平均观看时长确实增加了，但是整体的反而降低，问题出现在活跃男女生的比例上。

所以，上述抖音案例的解释，应该是6月活跃人群女性占比较大，而七月男生占比较大，虽然7月男女生观看时长都增长了，但是由于一天24小时，除掉工作吃饭睡觉时间，男女生活跃时长的提升幅度并不是很大，这样就导致，虽然7月男女生活跃观看时长都有提升，但是整体7月的活跃时长低于6月，本质还是活跃人群结构男女比例发生变化。

所以在运营的时候，在活跃时长增长幅度有限的条件下，如果想增加整体的时长，先保证人群结构中女生占较大比例，再引导男女行增长活跃时长。

二、如何避免出现辛普森悖论

关于如何避免出现辛普森悖论，我个人觉得，辛普森悖论无法完全避免的，很多问题，完全依靠统计学推导因果关系无法实现。就拿生产环境数据来说，虽然我们做了各种画像，但是其他分类方式依然存在，理论上的潜在变量会无穷无尽。

我们能做的，就是仔细认真的研究各种影响因素，不要笼统概括的看问题，尤其数据分析问题，拆解的越细，最终得到的效果越好。

关于避免辛普森悖论的出现，目前比较流行的一种做法，就是需要斟酌个别分组的权重，以一定的系数去消除以分组资料基数差异所造成的影响，同时必须了解该情境是否存在其他潜在因素，需要进行综合性考虑。

这段话看完有点晕圈，在实际中斟酌权重和判断其他因素，大多数还是更多依赖经验。

虽然不能根本上避免辛普森悖论，但我们至少应该明白：在因果关系里，量与质是不等价的，但是量比质更容易测量，所以人们总是习惯用量来评定好坏，而该数据却不是重要的。

三、倒过来说辛普森悖论

前面讲的辛普森悖论是：在每个分组中占优势的一方，但整体总评却成了失势的一方。那倒过来说辛普森悖论，就是在总体中占优势的一方，在每个分组比较中反而都占劣势。

下面介绍一个案例，假设，某产品的推广渠道有头条和微信两种，头条整体的付费转化率是3.1%%，微信整体的付费转化率是1.38%，连头条转化率的一半都不到。于是有数据分析师得出结论：微信用户付费转化率较低，建议停止微信端的广告投放。

你认为这个分析师做的对吗？

我们先来看看，头条和微信整体转化率对比情况，头条的确实比微信转化率要高：

但是，正常情况下，微信的广告包括微信公众号和微信朋友圈两部分，我们把微信的数据量拆开来对比：
逻辑推理篇：数据分析中违背常理的悖论：辛普森悖论

这里，我们会惊奇的发现，原来朋友圈的转化率是最高的4.12%,而微信公众号的转化率很低，但是展示量很大，把整个微信的值拉低了。也可以说，那个分析师失误了，误区产生的原因就在于将”值与量”两个维度的数据，归纳成了”值”一个维度的数据，并进行了合并。

如果要避免”辛普森悖论”给我们带来的误区，就需要斟酌个别分组的权重，以一定的系数去消除因分组资料基数差异所造成的影响。

而在实际工作中，就需要尽量去拆解指标，采用MECE原则，指标维度互不重复，完全穷尽。

四、内容延伸

我们继续理解一个概念：基本比率谬误(base rate fallacy)。

先看一个例子，小易生病去医院，做完检查结果呈阳性，医生告诉他可能是患上了XX疾病，吓得他惊慌失措，冷静之余，他赶忙到网上查询资料，网上说检查总是有误差的，这种检查有”百分之一的假阳性率和百分之一的假阴性率”。

这句话的意思是说，在得病的人中做实验，有1%的人是假阳性，99％的人是真阳性。而在未得病的人中做实验，有1%的人是假阴性，99％的人是真阴性。

于是，小易根据这种解释，估计他自己得了XX疾病的可能性（即概率）为99%。可是，医生却告诉他，他被感染的概率只有0.09左右。这是怎么回事呢？

医生说：你忘了一件事，XX病在人口中的得病基本比例（1/1000）这个事实。

医生给出计算方法：因为测试的误报率是1%，1000个人将有10个被报为”假阳性”，而根据X病在人口中的比例（1/1000=0.1%），真阳性只有1个。所以，大约11个测试为阳性的人中只有一个是真阳性（有病）的，因此，小易被感染的几率是大约1/11，即0.09(9%)。

基本比率谬误数学解释，首先要回顾下贝叶斯定理：

P(A|B) = P ( B ∣ A ) P ( B ) P(B|A) \over {P(B)}P (B )P (B ∣A )P(A)

从贝叶斯定理的原理，解释小易被感染的几率就计较容易了。

A：普通人群中的小易感染XX病
B：阳性结果
P(A)：普通人群中感染X病的概率
P(B|A)：阳性结果的概率
P(A|B)：有了阳性结果条件下，小易感染XX病的概率
P(B)：结果为阳性的总可能性=检查阳性中的真阳性+检查阴性中的真阳性

类似的悖论，还有罗杰斯现象、伯克森悖论、生日悖论等。

总结：

本文介绍了数据分析容易犯的一个误区，辛普森悖论。上面的例子也告诉我们，统计学中有不少陷阱，如果不提前进行了解，工作中很可能会被错误的统计方法迷惑，得出不正确的结论。

辛普森悖论让我们明白了，在因果关系里，量与质是不等价的，但是量比质更容易测量，所以人们总是习惯用量来评定好坏，而该数据却不是重要的。

辛普森悖论带给我们的另外一个启示是：如果我们在人生的抉择上选择了一条比较难走的路，就得具备可能不被赏识、怀才不遇的心理准备。

Original: https://blog.csdn.net/qq_36330643/article/details/122385579
Author: Soyoger
Title: 逻辑推理篇：数据分析中违背常理的悖论：辛普森悖论

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/696356/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

详解决策树算法

决策树 1.1 决策树定义何为决策树，顾名思义，就像树枝状的决策算法，通过各个节点的”决策”，实现对任务的精准分类或回归，决策树常用来处理分类问题，即使你…

人工智能 2023年7月1日
0091
Lambda表达式&方法引用

Lambda表达式是一个匿名函数，主要是为了简化代码，使代码变的更加简洁紧凑。方法引用可以进一步简化Lambda表达式。 ; 函数式接口对于函数式接口，我们可以通过 lambd…

人工智能 2023年6月28日
0081
基于元数据规则的大数据解决方案

实施大数据分析的目的随着业务不断横向扩张与数据纵向的不断增多，编写基于事务数据库的跨库跨服务程序解决统计、报表、内容搜索等，越来越麻烦且时效性差。我们需要一个数仓聚合数据解决这些…

人工智能 2023年6月11日
00126
【Ubuntu18.04安装px4+mavros（解决mavros报错问题）】

Ubuntu18.04安装px4+mavros（解决mavros报错问题）安装ros-melodic 重新安装gazebo9.19 安装mavros 安装px4 我的电脑为联想R…

人工智能 2023年6月2日
0074
ucinet计算聚类系数大于1怎么办_ucinet6聚类分析

UCINET 还包含为数众多的基于过程的分析程序,如聚类分析、多维标度、二模标… 该文档为UCINET软件操作入门手册,主要介绍简单的软件操作方法,主要根据自己实际使…

人工智能 2023年6月2日
0099
基于python的自变量选择—所有子集回归、后退法、逐步回归（非调库）

1、为什么需要自变量选择？一个好的回归模型，不是自变量个数越多越好。在建立回归模型的时候，选择自变量的基本指导思想是少而精。丢弃了一些对因变量y有影响的自变量后，所付出的代价就是…

人工智能 2023年6月17日
0082
【计量经济学】时间序列回归中序列相关

【计量经济学】时间序列回归中序列相关 –潘登同学的计量经济学笔记理清这一篇的目的，第一篇时间序列在TS.1-TS.3下证明了OLS的无偏性(但是TS.3的严格外生条件…

人工智能 2023年6月18日
00113
TensorFlow各个GPU版本CUDA和cuDNN对应版本整理

CUDA Toolkit and Minimum Compatible Driver Versions CUDA Toolkit Toolkit Driver VersionLin…

人工智能 2023年5月24日
0087
opencv —— contourArea、arcLength 计算轮廓面积与长度cv2.approxPolyDP多边形近似

计算轮廓面积：contourArea 函数 double contourArea(InputArray contour, bool oriented = false); conto…

人工智能 2023年6月20日
0067
二、python中Pandas数据框操作及数据提取

二、Pandas数据框操作及数据提取 import pandas as pd import numpy as np 数据框行列操作 1.1 创建DataFrame data = {…

人工智能 2023年7月15日
0047
geemap学习笔记 06 geemap 非监督分类案例

文章目录前言一、非监督分类介绍 * 1. 定义 2. 分类方法介绍二、geemap中非监督分类详细步骤 * 1. 加载地图底图 2. 加载研究区影像数据 3. 检查影像属性 …

人工智能 2023年6月2日
0071
【目标检测】(13) 先验框解码，调整预测框，附TensorFlow完整代码

各位同学好，今天和大家分享一下如何使用 TensorFlow对 YOLOV3 和 YOLOV4 网络的输出特征进行解码，微调每个先验框的坐标和宽高，使其逼近真实标签框。 YOLO…

人工智能 2023年6月22日
00142
基于 FPGA 图像处理之 RGB 转灰度算法的实现

1、基础知识 Gray 图像：灰度（gray）图像就是我们常说的黑白图像，由黑到白为灰阶为 0-255(8bit)。 YUV 是被欧洲电视系统所采用的一种颜色编码方法（属于 PAL…

人工智能 2023年6月22日
00123
GTX960M安装Anaconda+cuda9.0+cudnn v7.6.5+tensorflow-gpu1.8.0

目录 1 安装Anaconda 1.1下载Anaconda安装包 1.2安装 1.3 更改路径 1.4 修改默认浏览器 2 安装cuda9.0 2.1 cuda版本选择 3 安装c…

人工智能 2023年5月23日
0098
自然语言处理(NLP)：竞赛平台【国际、国内】

“白嫖数据的圣地，NLP技能的训练场”，当你觉得学好了NLP技能想练手却苦于没有数据；当你工作学习之于想通过真实NLP项目来增加项目经验却苦于没有业务场景；…

人工智能 2023年5月31日
0085
目标检测算法 YOLOv7 学习笔记

论文题目：YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object dete…

人工智能 2023年6月17日
00105

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

逻辑推理篇：数据分析中违背常理的悖论：辛普森悖论

大家都在看