如何使用熵值法分组计算核心指标权重，并为项目打分

2023年7月8日上午7:31 • 人工智能 • 阅读 108

在实际工作中，需要结合数据的特征情况选择权重计算方法。我在B端项目分析中更多考虑的是数据所携带的信息量，故选择了熵值法。本次权重计算的不同之处在于，项目具有较强的行业属性，须按照行业进行数据分组，然后计算不同行业的核心指标权重及项目得分。

由于数据涉及公司信息，本文仅介绍python的实现过程。

第一步：数据读取及清洗

import pandas as pd
import numpy as np
import math

#数据读取
project=pd.read_csv('.../项目核心指标0618.csv',encoding='utf-8')
#选择总金额不为空的样本数据，并将样本中所有空值替换为0
project_clean=(project[project['总金额']!='(null)']).replace('(null)',0)
#将指标由object转化为float类型
project_clean.iloc[:,4:]=(project_clean.iloc[:,4:]).astype('float')
#新增指标
project_clean['x3']=project_clean.apply(lambda x:x['二级获客']/x['总获客数'],axis=1)
project_clean['x4']=project_clean.apply(lambda x:x['三级获客']/x['总获客数'],axis=1)
#数据转化为三位小数
project_clean.iloc[:,[8,9,16,17]]=round(project_clean.iloc[:,[8,9,16,17]],3)

空值填充也可使用fillna（）函数，需要按照数据实际情况来选择。

第二步：定义熵值法函数

考虑到按照项目分组后可能会出现指标取单一值的情况，故在指标标准化计算中加入if函数

def cal_weight(df):
    '''熵值法计算变量的权重'''
    # 标准化

    df= df.apply(lambda x: ((x - np.min(x)) / (np.max(x) - np.min(x)))
    if np.max(x) != np.min(x) else 1)
    df=pd.DataFrame(df)

    # 求k
    rows = df.index.size  # 行
    cols = df.columns.size  # 列
    k = 1.0 / math.log(rows)
    print('k:',k)
    lnf = [[None] * cols for i in range(rows)]

    # 矩阵计算--
    # 信息熵
    # p=array(p)
    df = np.array(df)
    lnf = [[None] * cols for i in range(rows)]
    lnf = np.array(lnf)
    for i in range(0, rows):
        for j in range(0, cols):
            if df[i][j] == 0:
                lnfij = 0.0
            else:
                p = df[i][j] / df.sum(axis=0)[j]
                print('p:',p)
                print('i:',i)
                print('j:',j)
                lnfij = math.log(p) * p * (-k)
            lnf[i][j] = lnfij
    lnf = pd.DataFrame(lnf)
    E = lnf
    # 计算冗余度
    d = 1 - E.sum(axis=0)
    # 计算各指标的权重
    w = [[None] * 1 for i in range(cols)]
    for j in range(0, cols):
        wj = d[j] / sum(d)
        w[j] = wj
        # 计算各样本的综合得分,用最原始的数据

    w = pd.DataFrame(w)
    return w

第三步：计算不同行业下核心指标权重，得到权重矩阵

#&#x63D0;&#x53D6;&#x884C;&#x4E1A;&#x53CA;&#x6307;&#x6807;
project_ind=project_clean.iloc[:,[3,8,9,16,17]]
#&#x5206;&#x7EC4;&#x8C03;&#x7528;&#x6743;&#x91CD;&#x51FD;&#x6570;
grouped=project_ind.groupby(['INDUSTRY']).apply(cal_weight).reset_index()
grouped1 = pd.pivot(grouped, index=['INDUSTRY'], columns="level_1", values=0)
#&#x6743;&#x91CD;&#x6570;&#x636E;&#x91CD;&#x547D;&#x540D;
new_columns=['w1','w2','w3','w4']
grouped1.columns=new_columns

第四步：将清洗后的项目矩阵及权重矩阵按照行业分组

#&#x6743;&#x91CD;&#x77E9;&#x9635;&#x6309;&#x884C;&#x4E1A;&#x5206;&#x7EC4;
grouped_industry=grouped1.groupby('INDUSTRY')
grouped_industry1=pd.DataFrame(columns=grouped.columns)
for key,value in grouped_industry:
    grouped_industry1=pd.concat([grouped_industry1,value])
#&#x9879;&#x76EE;&#x77E9;&#x9635;&#x6309;&#x884C;&#x4E1A;&#x5206;&#x7EC4;
project_industry=project_ind.groupby('INDUSTRY')
grouped_industry=grouped.groupby('INDUSTRY')
project_industry1=pd.DataFrame(columns=project_ind.columns)
for key,value in project_industry:
    project_industry1=pd.concat([project_industry1,value])

第五步：项目矩阵及权重矩阵相乘，计算不同行业下各B端项目分值

#&#x5B9A;&#x4E49;&#x77E9;&#x9635;&#x76F8;&#x4E58;&#x51FD;&#x6570;
def func(df):
    df_sub=df.iloc[:,1:].values
    for i in df.iloc[:,0]:
        w=grouped1.loc[i].values
        s=np.matmul(df_sub,w)
    return s
#&#x8C03;&#x7528;&#x77E9;&#x9635;&#x51FD;&#x6570;&#xFF0C;&#x8BA1;&#x7B97;&#x9879;&#x76EE;&#x5F97;&#x5206;
score=func(project_industry1)
score=pd.DataFrame(score)
score.index=project_industry1.index
score.columns=['score']
#&#x5C06;&#x9879;&#x76EE;&#x5F97;&#x5206;&#x4E0E;&#x9879;&#x76EE;&#x77E9;&#x9635;&#x62FC;&#x63A5;
result=pd.merge(project_clean,g,how='inner',left_on=project_clean.index,right_on=g.index)

第六步：同行业项目按照分值降序排列，并输出excel文件

def func(df):
    return df.sort_values(by='score',ascending=False)
result1=result.groupby('INDUSTRY').apply(func)
result1.to_excel('/Users/saizhang/Desktop/&#x9879;&#x76EE;&#x5206;&#x503C;(&#x6309;&#x7167;&#x884C;&#x4E1A;).xlsx')

Original: https://blog.csdn.net/weixin_42540470/article/details/118067267
Author: AlligatorPear
Title: 如何使用熵值法分组计算核心指标权重，并为项目打分

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/678045/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

雷达图-高效数据解读

雷达图又被叫做蜘蛛网图，适用于显示三个或更多的维度的变量。大家最熟悉的莫过于游戏中的数据分析（如下图）。雷达图是以在同一点开始的轴上显示三个或更多个变量的二维图表形式来显示多元…

人工智能 2023年7月16日
0086
Framework中常用的AI算法有哪些

常用AI算法在AI算法中，有许多常用的算法可以应用于各种不同的问题和任务。这些算法通常涉及到数据的处理、特征工程、模型训练和评估等方面。下面将介绍一些常用的AI算法以及它们的原理…

人工智能 2024年1月1日
0069
图像预处理

目录图像预处理 * 一、颜色空间二、图像处理方法三、特征提取方法四、自适应直方图均衡五、CLAHE 六、形态学运算七、空间域处理及其变换八、高斯金字塔九、拉普拉斯金…

人工智能 2023年7月19日
0077
办公室大神级骚操作：Python控制Excel实现自动化办公

很多做文员的小姐姐一直在说做报表好麻烦呀，但一直找不到一个合适的报表工具，这不… 思来想去，感觉 Excel 就一定程度上能做可视化的, 除了不能动态交互外, 其他都挺…

人工智能 2023年7月7日
0092
Python 详解箱型图法剔除异常值

文章目录一、引言二、Python 实现 ; 一、引言箱型图提供了识别异常值的一个标准：异常值通常被定义为小于 Q L − 1.5 I Q R Q_{L}-1.5IQR{ …

人工智能 2023年7月14日
0090
python合并根目录下所有表格文件并增加文件名索引

目录前言一、代码展示二、主要函数 1.os.walk() 2.pd.concat(）前言遇到了批量合并根目录下大量不同格式文件并进行简单处理的需求，在网上没有搜到完全相同…

人工智能 2023年7月8日
0074
Mac M1配置tensorflow以及切换虚拟环境导入至Spyder

M1芯片基于Arm64架构下搭载tensorflow，现阶段只能参考苹果官方给出的意见，详情链接如下 Apple Developer Metal Mac搭载的系统应当升级至最新版才…

人工智能 2023年5月25日
00100
实验八 Pandas统计分析基础（任务三）

任务3 从excel文件foods.xlsx读取数据，并将ID列作为索引。程序代码如下 import pandas as pd foods = pd.read_excel(‘D:…

人工智能 2023年7月8日
0063
动态聚类法

目录动态聚类法一、K—均值算法(K-means) * 1.1 条件及约定 1.2 基本思想： 1.3 基于使聚类准则函数最小化 – 准则函数聚类准则 1.4 算法…

人工智能 2023年5月31日
00175
Pytorch: 采用thop库正确计算模型计算量FLOPs和模型参数Params 【误区更正】

from thop import profile from thop import clever_format input = torch.randn(1, 3, 224, 224…

人工智能 2023年6月25日
00163
ROS QT界面开发步骤

你需要ROS人机交互软件吗？ GitHub – chengyangkj/Ros_Qt5_Gui_App: ROS human computer interface ba…

人工智能 2023年6月10日
0069
深度学习-卷积神经网络代码详解

构造卷积神经网络 CNN将形状为（高度，宽度，色彩通道数）的张量作为输入，忽略批次的大小。在本实例中，我们将配置CNN处理（32，32，3）的输入，通过参数input_shape传…

人工智能 2023年7月13日
0098
【计算机视觉】基于Python—OpenCV的手势识别详解（一）

文章目录更新日记前言前期准备识别手部模型识别视频输入方法手势识别方法完整代码结语更新日记更新日记：2022.04.18：应各位网友需求，已mp库更新后的手部识别…

人工智能 2023年6月23日
00103
Python多分类问题pr曲线绘制（含代码）

研究了三天的多分类pr曲线问题终于在昨天晚上凌晨一点绘制成功了！！现将所学所感记录一下，一来怕自己会忘可以温故一下，二来希望能给同样有疑惑的铁子们一些启迪！下图为我画的pr曲线，…

人工智能 2023年7月3日
00111
【知识图谱论文】具有生物医学知识图谱逻辑规则的神经多跳推理

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月17日
0071
[Pandas技巧] 时间类型转换与处理

美图欣赏2022/07/28 在平时的需求开发中,经常涉及到利用Pandas处理日期相关类型字段的转换和操作,为此特地记录以下练习案例,帮助大家的同时,也便于日后的学习和复盘案例…

人工智能 2023年7月8日
0067

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

如何使用熵值法分组计算核心指标权重，并为项目打分

第一步：数据读取及清洗

第二步：定义熵值法函数

大家都在看