分箱方法整理

2023年7月16日下午11:13 • 人工智能 • 阅读 79

卡方分箱-一种有监督分箱

1.1 卡方检验

卡方检验是对分类数据的频数进行分析的统计方法；用于分析分类变量和分类变量的关系（相关程度）；卡方检验分为优度检验和独立性检验。

1.1.1 拟合优度检验

拟合优度检验是对一个分类变量的检验，即根据总体的分布情况，计算出分类变量中各分类的期望频数，与分布的观测频数进行对比，判断期望频数与观察频数是否有显著差异。

1.1.2 列联分析：独立性分析

独立性检验对两个分类变量的检验，分析过程通过列联表（contingency table）方式呈现，实际就转换为分析列联表中行变量与列变量是否相互独立（或有关联）。

1.2 卡方分箱

论文：

关键在于：

初始化-首先根据连续变量的值的大小排序，进行初始的离散处理
合并-箱子合并过程分为两个步骤，连续重复进行：
1）计算每个相邻箱子的卡方值
2）对低卡方值的相邻箱子进行合并

合并停止条件：

所有相邻箱子的卡方值大于等于卡方阈值
箱子数量达到预先设置的数量

toad包中的卡方分箱实现-按下图方式进行合并，直到满足合并停止条件。

源码如下：

@cython.boundscheck(False)
@cython.wraparound(False)
cpdef ChiMerge(feature, target, n_bins = None, min_samples = None,
            min_threshold = None, nan = -1, balance = True):
    """Chi-Merge
    Args:
        feature (array-like): feature to be merged
        target (array-like): a array of target classes
        n_bins (int): n bins will be merged into
        min_samples (number): min sample in each group, if float, it will be the percentage of samples
        min_threshold (number): min threshold of chi-square
    Returns:
        array: array of split points
"""

    # set default break condition
    if n_bins is None and min_samples is None and min_threshold is None:
        n_bins = DEFAULT_BINS

    if min_samples and min_samples < 1:
        min_samples = len(feature) * min_samples

    feature = fillna(feature, by = nan)
    target = to_ndarray(target)

    target_unique = np.unique(target)
    feature_unique = np.unique(feature)
    len_f = len(feature_unique) # 特征种类数
    len_t = len(target_unique) # 目标变量种类数

    cdef double [:,:] grouped = np.zeros((len_f, len_t), dtype=np.float)

    for r in range(len_f): # 对特征进行循环
        tmp = target[feature == feature_unique[r]] # 取出特定特征取值的taget集合
        for c in range(len_t):
            grouped[r, c] = (tmp == target_unique[c]).sum() # 统计特定特征值下特定target出现的个数

    cdef double [:,:] couple
    cdef double [:] cols, rows, chi_list
    cdef double chi, chi_min, total, e
    cdef int l, retain_ix, ix
    cdef Py_ssize_t i, j, k, p

    while(True):
        # break loop when reach n_bins
        if n_bins and len(grouped)  min_samples:
            break

        # Calc chi square for each group
        l = len(grouped) - 1 # len(grouped)为特征去重统计值
        chi_list = np.zeros(l, dtype=np.float)
        chi_min = np.inf

        for i in range(l): # 找出相邻箱体对应卡方值最小的两个箱体
            chi = 0
            couple = grouped[i:i+2,:] # 取出相邻的两行
            total = c_sum(couple) # 把grouped表中的每个数字加在一起
            cols = c_sum_axis_0(couple) # 每列求和-target每个取值对应的个数
            rows = c_sum_axis_1(couple) # 每行求和-特征每个取值对应的个数

            for j in range(couple.shape[0]):
                for k in range(couple.shape[1]):
                    e = rows[j] * cols[k] / total # 期望值
                    if e != 0:
                        chi += (couple[j, k] - e) ** 2 / e

            # balance weight of chi
            if balance:
                chi *= total

            chi_list[i] = chi

            if chi == chi_min:
                chi_ix.append(i)
                continue

            if chi < chi_min:
                chi_min = chi
                chi_ix = [i]

        # break loop when the minimun chi greater the threshold
        if min_threshold and chi_min > min_threshold:
            break

        # get indexes of the groups who has the minimun chi
        min_ix = np.array(chi_ix)

        # get the indexes witch needs to drop
        drop_ix = min_ix + 1

        # combine groups by indexes
        retain_ix = min_ix[0] # min_ix = [0,1,3,4,5]
        last_ix = retain_ix # 0
        for ix in min_ix: # 第i对箱体
            # set a new group
            if ix - last_ix > 1: # 考虑到了连续三个及以上的箱体可以合并的情况
                retain_ix = ix

            # combine all contiguous indexes into one group
            for p in range(grouped.shape[1]):
                grouped[retain_ix, p] = grouped[retain_ix, p] + grouped[ix + 1, p]

            last_ix = ix#1

        # drop binned groups
        grouped = np.delete(grouped, drop_ix, axis = 0)
        feature_unique = np.delete(feature_unique, drop_ix)

    return feature_unique[1:]

参考：

卡方分箱及代码实现_hutao_ljj的博客-CSDN博客_卡方分箱# 1.卡方分布分箱方法整理 https://blog.csdn.net/hutao_ljj/article/details/105448887 ;

Original: https://blog.csdn.net/nikita_zj/article/details/122733883
Author: nikita_zj
Title: 分箱方法整理

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/697421/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

python模块pandas库常用操作小结

记录一些个人在python的pandas库常用的操作的小结，方便后续开发记录，同时助人助己。持续更新中按数据格式，读取excel、csv等，输出列名、获取总量。 import …

人工智能 2023年7月8日
0070
山东大学人工智能导论实验四利用神经网络分类红色和蓝色的花

目录【实验目标】【实验内容】【数据集介绍】【代码要求】定义模型结构初始化模型的参数循环计算当前损失（前向传播），请使用Relu激活函数。计算当前梯度（反向传播） …

人工智能 2023年6月30日
0077
使用AI CoNR 算法，仅仅利用4张动漫图片——便可以创建舞蹈视频

上期视频我们分享了一个AI算法，本期我们就分享一下实现代码此AI算法称之为CoNR，该技术通过基于多个动画指定姿势来创建舞蹈视频。 ——1—— 什么是CoNR？下面是 CoNR…

人工智能 2023年5月30日
0069
《MATLAB 神经网络43个案例分析》：第14章基于SVM的数据分类预测——意大利葡萄酒种类识别

《MATLAB 神经网络43个案例分析》：第14章基于SVM的数据分类预测——意大利葡萄酒种类识别 1. 前言 2. MATLAB 仿真示例 3. 小结 ; 1. 前言《MAT…

人工智能 2023年7月1日
0080
基于OpenCV的模板匹配

模板匹配是一项在一幅图像中寻找与另一幅模板图像最匹配(相似)部分的技术。模板匹配不是基于直方图的, 而是通过在输入图像上滑动图像块(模板)同时比对相似度, 来对模板和输入图像进行匹…

人工智能 2023年6月20日
0081
conda安装指定版本TensorFlow

文章目录 * – 一、系统环境 – 二、安装步骤一、系统环境操作系统：Windows7 64位，Python环境：Python3.7；conda 4.1…

人工智能 2023年6月24日
0082
计算机视觉 – 图像增强应用实践 (基础篇）C++ OpenCV

环境配置我之前是跟着B站的一个UP主弄的：VS2019-Opencv4.5.2安装教程（win11上安装跟win10系统安装没有任何区别）_哔哩哔哩_bilibili （但是不知道…

人工智能 2023年5月26日
00106
状态压缩DP及其拓展

蒙德里安的梦想题目蒙德里安的梦想https://www.acwing.com/problem/content/293/; 超级详细解析https://lishizheng.bl…

人工智能 2023年6月29日
0073
CLIP论文详解

CLIP论文详解 – 潘登同学的深度学习笔记文章目录 * – CLIP论文详解 — 潘登同学的深度学习笔记* 前言* 整体架构* – Pre-…

人工智能 2023年5月26日
0083
python——实现鼠标与键盘监听与事件处理

文章目录 * – 有三种方法 – 第一种方案 – 第二种方案 – 使用opencv实现 – 第三种方案 – …

人工智能 2023年6月19日
0082
vscode中配置jupyter（彻底解决Failed to start the Kernel问题）

文章目录 * – 1 插件安装 – 2 相关python库安装 – + 2.1 python版本问题 + 2.2 开始安装库包 + 2.3 解决…

人工智能 2023年7月3日
0066
计算机视觉项目实战-背景建模与光流估计（目标识别与追踪）

😊😊😊 欢迎来到本博客😊😊😊本次博客内容将继续讲解关于OpenCV的相关知识🎉 作者简介：⭐️⭐️⭐️ 目前计算机研究生在读。主要研究方向是人工智能和群智能算法方向。目前熟悉pyt…

人工智能 2023年7月26日
0071
VIT(vision transformer)模型介绍+pytorch代码炸裂解析

前言一直对transformer都有很大的兴趣，之前看到有vision transformer，一直没来得及好好看，这两天拿出来吸收了下精华，顺便写个文章记录一哈地址论文：h…

人工智能 2023年5月28日
0095
【JavaWeb从零到一】会话技术Cookie&Session&JSP

🚀【JavaWeb从零到一】系列文章目录 🚩【JavaWeb从零到一】前置知识🚩【JavaWeb从零到一】Mysql基础总结🚩【JavaWeb从零到一】JDBC详解🚩【JavaWe…

人工智能 2023年7月29日
0068
（完美解决）matplotlib图例(legend)如何自由设置其位置、大小以及样式。

文章目录 * – + 前言 + 位置：loc + 位置：bbox_to_anchor + 大小 + 样式前言 plt.legend() 我们知道，这一条代码会帮我们显…

人工智能 2023年7月4日
0091
【深度学习】(9) CNN中的混合域注意力机制（DANet，CBAM），附Tensorflow完整代码

各位同学好，今天和大家分享一下如何使用 Tensorflow构建 DANet和 CBAM混合域注意力机制模型。在之前的文章中我介绍了CNN中的通道注意力机制 SENet 和 EC…

人工智能 2023年5月26日
0096

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

分箱方法整理

1.1 卡方检验

1.1.1 拟合优度检验

1.1.2 列联分析：独立性分析

1.2 卡方分箱

大家都在看