python实现比例类指标差异分析-卡方检验（完整代码+实验效果）

2023年7月18日上午1:54 • 人工智能 • 阅读 59

实现功能：

python实现比例类指标差异分析-卡方检验。对sex这一列，按照target取值进行分组差异分析。

实现代码：

# 导入需要的库
from warnings import simplefilter
simplefilter(action='ignore', category=FutureWarning)
import pandas as pd
import numpy as np
from scipy.stats import chi2_contingency
=============读取数据===========
def Read_data(file):
    dt = pd.read_csv(file)
    dt.columns = ['age', 'sex', 'chest_pain_type', 'resting_blood_pressure', 'cholesterol','fasting_blood_sugar', 'rest_ecg', 'max_heart_rate_achieved','exercise_induced_angina','st_depression', 'st_slope', 'num_major_vessels', 'thalassemia', 'target']
    data =dt
    return data

===========数据清洗==============
def data_clean(data):
    # 重复值处理
    print('存在' if any(data.duplicated()) else '不存在', '重复观测值')
    data.drop_duplicates()

    # 缺失值处理
    print('不存在' if any(data.isnull()) else '存在', '缺失值')
    data.dropna()  # 直接删除记录
    data.fillna(method='ffill')  # 前向填充
    data.fillna(method='bfill')  # 后向填充
    data.fillna(value=2)  # 值填充
    data.fillna(value={'resting_blood_pressure': data['resting_blood_pressure'].mean()})  # 统计值填充

    # 异常值处理
    data1 = data['resting_blood_pressure']
    # 标准差监测
    xmean = data1.mean()
    xstd = data1.std()
    print('存在' if any(data1 > xmean + 2 * xstd) else '不存在', '上限异常值')
    print('存在' if any(data1 < xmean - 2 * xstd) else '不存在', '下限异常值')
    # 箱线图监测
    q1 = data1.quantile(0.25)
    q3 = data1.quantile(0.75)
    up = q3 + 1.5 * (q3 - q1)
    dw = q1 - 1.5 * (q3 - q1)
    print('存在' if any(data1 > up) else '不存在', '上限异常值')
    print('存在' if any(data1 < dw) else '不存在', '下限异常值')
    print(data)
    return data

===========卡方检验==============
def sex_chisq(data):
    data1=data[['sex','target']]
    print(len(data1))
    print(len(data1[(data1['sex'] == 1)]))
    data_sex_Y=data1[(data1['target'] ==1)&(data1['sex'] == 1)]
    print(len(data_sex_Y))
    data_sex_N=data1[(data1['target'] ==0)&(data1['sex'] == 1)]
    print(len(data_sex_N))
    kf_data = np.array([[len(data_sex_N), len(data1[(data1['target'] ==0)]) - len(data_sex_N)],
                        [len(data_sex_Y), len(data1[(data1['target'] ==1)]) - len(data_sex_Y)]])
    kf = chi2_contingency(kf_data)
    print('chisq-statistic=%.4f, p-value=%.4f, df=%i expected_frep=%s' % kf)
    return

#============主函数==============
if __name__=="__main__":
    data1=Read_data("F:\数据杂坛\\0504\heartdisease\Heart-Disease-Data-Set-main\\UCI Heart Disease Dataset.csv")
    data1=data_clean(data1)
    sex_chisq(data1)

实现效果：

喜欢记得点赞，在看，收藏，

关注V订阅号：数据杂坛，获取数据集，完整代码和效果，将持续更新！

Original: https://blog.csdn.net/sinat_41858359/article/details/125112478
Author: 不再依然07
Title: python实现比例类指标差异分析-卡方检验（完整代码+实验效果）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/699905/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

frustum-pointnets-master中get_loss()损失计算函数

啊哦~你想找的内容离你而去了哦内容不存在，可能是由于以下原因造成的： [En] The content does not exist and may be caused by t…

人工智能 2023年5月24日
0088
用于分类的神经网络算法,神经网络算法三大类型

常见的数据挖掘方法有哪些数据挖掘的常用方法有：神经网络方法神经网络由于本身良好的鲁棒性、自组织自适应性、并行处理、分布存储和高度容错等特性非常适合解决数据挖掘的问题，因此近年来越…

人工智能 2023年6月19日
0094
数仓：事实表设计方法，原则和三种类型选择

关注公众号，回复关键字【资料】，获取【10万字大数据框架面试知识点】与【大数据开发的命令手册】 ; 事实表设计方法事实表作为数据仓库维度建模的核心，紧紧围绕着业务过程来设计。其…

人工智能 2023年7月17日
0050
Convolutional网络中的池化层是什么？它对于图像处理有什么影响

问题背景在深度学习领域，卷积神经网络（Convolutional Neural Network, CNN）是一种用于处理具有类似网格结构的数据（如图像和语音）的人工神经网络。CN…

人工智能 2024年1月3日
0043
【C++】结构体、类和引用

注：最后有面试&#…

人工智能 2023年6月27日
0089
使用pmml实现跨平台部署机器学习模型

一、概述对于由Python训练的机器学习模型，通常有pickle和pmml两种部署方式，pickle方式用于在python环境中的部署，pmml方式用于跨平台（如Java环境）的…

人工智能 2023年6月6日
00120
TensorFlow中的模型保存和加载是如何实现的

Tensorflow模型保存和加载的实现在TensorFlow中，模型保存和加载的实现涉及到两个关键步骤：模型的保存和模型的加载。在这里，我们将详细介绍每个步骤的实现过程、算法原…

人工智能 2023年12月30日
0050
R语言使用pairs函数可视化散点图矩阵（scatter plot matrix）

R语言使用pairs函数可视化散点图矩阵（scatter plot matrix）目录 R语言使用pairs函数可视化散点图矩阵（scatter plot matrix） Ori…

人工智能 2023年6月19日
0069
Python大数据-对淘宝用户的行为数据分析

目录一、项目背景二、项目目标三、分析思路四、数据清洗 1、读取查看数据的基本信息和数据的完整性 2、一致化处理： 3、查看是否有缺失值五、数据分析 1、不同时间下PV、U…

人工智能 2023年6月15日
0095
【Transformers】第 4 章：自回归和其他语言模型

🔎大家好，我是Sonhhxg_柒，希望你看完之后，能对你有所帮助，不足请指正！共同学习交流🔎📝个人主页－Sonhhxg_柒的博客_CSDN博客📃🎁欢迎各位→点赞👍 + 收藏⭐️ +…

人工智能 2023年6月18日
0081
Go语言常用的向量计算函数

以下都已float64类型为例 zeros()和ones() 结果： 0 0 0 0 0 1 1 1 1 1 1 Original: https://www.cnblogs.com…

人工智能 2023年6月4日
0067
用pip安装cuda版本的torch

大佬可以跳过不看了，这里只是我试了后记录一下的。原因：在下载torch_parse这个包的时候，它不知道怎么抽风了，把我的GPU版本顶掉了。我的猜测是可能因为文件名的冲突，它觉得…

人工智能 2023年7月5日
0099
torch学习笔记之——tensor维度变换

1, （函数API）View ， reshape 本上没有区别，0.3版本之前默认view之后默认使用reshape，现在版本建议使用view。 a = torch.rand(4,…

人工智能 2023年7月21日
0066
python Matplotlib绘图实现：中文宋体，英文新罗马（科研人必备）；解决Font family [‘sans-serif‘] not found.

1、合并字体将电脑自带的宋体和Times New Roman字体合并为新字体，我命名为SongNTR.ttfhttps://github.com/nowar-fonts/Warc…

人工智能 2023年7月6日
0076
XGBoost模型及LightGBM模型案例（Python）

1 XGBoosting案例：金融反欺诈模型 1.1 模型搭建 1.1.1 读取数据 1.1.2 特征变量与目标变量提取、划分数据集与测试集 1.1.3 模型搭建及训练 1.2 模…

人工智能 2023年6月19日
0075
Python软件设计基础第七节-Scipy-kmeans聚类色彩提取

目录一、Scipy聚类kmeans概述（一）基本概念（二）聚类代码示例二、聚类色彩提取实例（一）PIL提取色彩（二）对图片进行聚类（三）对色彩聚类三、聚类+Flas…

人工智能 2023年5月31日
0084

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

python实现比例类指标差异分析-卡方检验（完整代码+实验效果）

大家都在看