基于python分析航空公司客户价值《数据挖掘》课程实验报告

2023年5月31日上午9:45 • 人工智能 • 阅读 89

一、实验目的

1）了解K-Means 聚类算法在客户价值分析实例中的应用。
2）利用pandas快速实现数据z-score(标准差）标准化以及用scikit-learn 的聚类库实现K-Means聚类。

二、实验环境

python

三、实验内容

本上机实验的内容包括以下两个方面:
依据航空公司客户价值分析的 LRFMC模型提取客户信息的 LRF”MC指标。对其进行标准差标准化并保存后,采用K-Means算法完成客户的聚类,分析每类客户的特征,从而获得每类客户的价值。
1）利用pandas库读入 LRFMC 指物文件，分别计算各个指标的均值与其标准差,使用标准差标准化公式完成LRFMC 指标的标准化,并将标准化后的数据进行保存。
2）编写 Python程序，完成客户的K-Means聚类,获得聚类中心与类标号。输出聚类中心的特征图,并统计每个类别的客户数。

四、方案设计

4.1总体设计和实现的思路:
将客户关系长度L、消费时间间隔R、消费频率F、飞行里程M和折扣系数的平均值C五个指标作为航空公司识别客户价值指标，记为LRFMC模型。通过LRFMC模型的五个指标进行KMeans聚类，识别出最有价值客户。
航空公司客户数据挖掘主要包括以下步骤：
（1）从航空公司的数据源中进行选择性抽取与新增数据抽取分别形成历史数据和增量数据。
（2）对步骤（1）中形成的两个数据集进行数据探索性分析与预处理，包括数据缺失值与异常值的探索分析，数据的属性规约、清洗和变换。
（3）利用步骤（2）中形成的已完成数据预处理的建模数据，基于旅客价值LRFMC模型进行客户分群，对各个客户群进行特征分析，识别出有价值的客户。
（4）针对模型结果得到不同价值的客户，采用不同的营销手段，提供定制化的服务。
（5）对客户进行流失分析，对流失客户和准流失客户进行用户画像。

4.2实验步骤:

数据探索分析

对数据进行缺失值与异常值分析，分析出数据的规律以及异常值。查找出每列属性观测值中的空值个数、最大值、平均值、最小值。

import pandas as pd

datafile = 'C:/Users/86199/Desktop/air_data.csv'
resultfile = 'C:/Users/86199/Desktop/explore.csv'
data = pd.read_csv(datafile, encoding='utf-8')
explore = data.describe().T
explore = explore[[ 'mean', 'std']]
explore.columns = [ '平均值', '方差']

explore.to_csv(resultfile)
explore.sort_values('方差', ascending=False)

数据清洗

通过数据探索分析，发现数据中存在缺失值，票价最小值为0的记录。由于原始数据量大，这类数据所占的比例较小，对于问题影响不大，因此对其进行丢弃处理。具体处理方法如下：
（1）丢弃票价为空的记录；
（2）丢弃票价为0的记录。

datafile = 'C:/Users/86199/Desktop/air_data.csv'
cleanedfile = 'C:/Users/86199/Desktop/data_cleaned.csv'

data = data[(data['SUM_YR_1'].notnull()) & (data['SUM_YR_2'].notnull())]

criteria1 = data['SUM_YR_1'] != 0
criteria2 = data['SUM_YR_2'] != 0

data = data[criteria1 | criteria2]

data.to_csv(cleanedfile, index=False)

属性规约

原始数据中属性太多，根据航空公司价值LRFMC模型，选择与LRFMC指标相关的6个属性：FFP_DATE、LOAD_TIME、FLIGHT_COUNT、AVG_DISCOUNT、SEG_KM_SUM、LAST_TO_END，删除与其不相关的属性。

datafile = 'C:/Users/86199/Desktop/data_cleaned.csv'
data = pd.read_csv(datafile, encoding='utf-8')

data = data[['LOAD_TIME', 'FFP_DATE', 'LAST_TO_END', 'FLIGHT_COUNT', 'SEG_KM_SUM', 'avg_discount']]
data.head(10)

数据变换

原始数据中并没有直接给出LRFMC五个指标，需要通过原始数据提取这五个指标

data.insert(
    loc = data.columns.get_loc('FFP_DATE') + 1,
    column = 'L',
    value = (pd.to_datetime(data['LOAD_TIME']) - pd.to_datetime(data['FFP_DATE'])).dt.days
)

data = data.loc[:,'L':]
data.columns = ['L', 'R', 'F', 'M', 'C']
data.head(10)

由于5个指标的取值范围数据差异较大，为了消除数量级带来的影响，需要对数据进行标准化处理。

zscoredfile = 'C:/Users/86199/Desktop/zscoreddata.csv'

data = (data - data.mean()) / (data.std())
data.columns = ['Z'+i for i in data.columns]
data.to_csv(zscoredfile, index=False)
data.head(10)

手肘法确认k值

import matplotlib.pyplot as plt
from sklearn.cluster import KMeans

distortions = []

plt.figure(figsize=(8,6))
for i in range(1,16,1):
    clf = KMeans(n_clusters=i)
    s = clf.fit(data)
    distortions.append(clf.inertia_)
k = [1,2,3,4,5,6,7,8,9,10,11,12,13,14,15]
plt.scatter(k, distortions)
plt.plot(k, distortions)
plt.xlabel("k")
plt.xticks([1,2,3,4,5,6,7,8,9,10,11,12,13,14,15])
plt.ylabel("distance")
plt.show()

由上图可看出，K取4或5或6时比较合适
但是聚类的个数需要结合具体业务来确定，在本实验中由于指标个数，将客户聚成5类，所以k=5。

客户聚类（k=5）

采用KMeans聚类算法对客户数据进行客户分群，聚成5类。

import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
datafile = 'C:/Users/86199/Desktop/zscoreddata.csv'
k = 5

data = pd.read_csv(datafile)

kmodel = KMeans(n_clusters=k, n_jobs=4)
kmodel.fit(data)
def get_cluster(data):
    labels = pd.Series(kmodel.labels_)
    nums = labels.value_counts().sort_index()
    types = pd.Series(['客户群'+str(i) for i in range(1, 6)])
    centers = pd.DataFrame(kmodel.cluster_centers_, columns=data.columns)
    new_data = pd.concat([types, nums, centers], axis='columns')
    new_data.columns = ['cluster_names', 'cluster_num', 'ZL', 'ZR', 'ZF', 'ZM', 'ZC']

    return new_data

data = get_cluster(data)

Weka检验

; 客户价值分析

from matplotlib import pyplot as plt

plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False

def plot_radar(data):
    colors = ['tomato', 'darkorange', 'limegreen', 'darkcyan', 'royalblue']
    names = data['cluster_names'].tolist()
    labels = data.columns.tolist()[2:]
    centers = pd.concat([data.iloc[:, 2:], data.iloc[:, 2]], axis=1)
    centers = np.array(centers)
    n = len(labels)
    angles = np.linspace(0, 2*np.pi, n, endpoint=False)
    angles = np.concatenate((angles, [angles[0]]))

    fig = plt.figure(figsize=(6, 6), dpi=100)
    ax = fig.add_subplot(111, polar=True)

    floor = np.floor(centers.min())
    ceil = np.ceil(centers.max())

    for i in range(n):
        ax.plot([angles[i], angles[i]], [floor, ceil], lw=0.5, color='grey')

    for i in range(len(names)):
        ax.plot(angles, centers[i], colors[i], label=names[i])
        plt.fill(angles, centers[i], facecolor=colors[i], alpha=0.2)

    ax.set_thetagrids(angles * 180 / np.pi, labels)
    plt.legend(loc='lower right', bbox_to_anchor=(1.5, 0.0))

    ax.set_theta_zero_location('N')
    ax.spines['polar'].set_visible(False)

    plt.show()

plot_radar(data)

五、总结

对于LRMFC模型，其L\M\F\C指标越大越好，R指标越小越好，我们根据聚类中心结果来对各个客户群进行特征划分。依此找出每个特征对应的最大值、最小值、次大值、次小值。

由上述的特征分析图表说明每个客户群都有显著不同的表现特征，基于该特征描述，我们将案例中客户定义五个等级的客户类别：重要保持客户、重要发展客户、重要挽留客户、一般客户、低价值客户。其中每种客户类别的具体特征如下：

重要保持客户：这类客户的平均折扣率C较高，一般所乘坐的舱位等级较高，最近乘坐过本公司航班R低、乘坐的次数F或里程M较高。这些客户对于航空公司来说是高价值客户，相对来说所占的比例也偏小。航空公司应该优先将资源投放到他们呢身上，对他们进行差异化管理和一对一影响，提供这类用户的忠诚度与满意度，延长这类客户的高水平消费。

重要发展客户：这类客户的平均折扣率C较高，最近乘坐过本公司航班R低，但乘坐次数F或乘坐里程M较低。这类客户入会时间L短，他们是航空公司的潜在价值客户。虽然这类客户目前的价值不是很高，但有很大的发展潜力。航空公司应努力促使这类客户增加在本公司的乘机消费和合作伙伴处的消费，增加客户的钱包份额。通过客户价值的提升，加强这类客户的满意度，提高他们转向竞争对手的转移成本，使他们逐渐称为公司的忠诚客户。

重要挽留客户：这类客户过去所乘航班的平均折扣率C、乘坐次数F或者里程数M较高，但已经较长时间没有乘坐本公司的航班R高或者使乘坐频率变小。他们的客户价值变化的不确定性很高。由于这些客户衰退的原因各不相同，所以掌握客户的最新信息、维持与客户的互动就显得尤为重要。航空公司应该根据这些客户的最近消费时间、消费次数的变化情况、推测客户消费的异动状况，并列出客户名单。对其采取一定的营销手段，延长客户的生命周期。

一般与低价值客户：这类客户所乘航班的平均折扣率C很低，较长时间没有乘坐过本公司航班R高，乘坐次数F或者里程M较低，入会时间L短。这些客户的价值较低，可能是在航空公司机票打折促销时，才会乘坐本公司航班。

根据特征定义我们可以将客户群分类：
客户群1，R为最大值，FM为最小值。可见这类客户最近乘机次数少，里程也较小。故为一般客户。
客户群2，C值最大，R次大，FM为次小值。可见这类客户最近乘机次数少，但其折扣率较大，成绩次数和里程也偏小。故为重要发展客户。
客户群3，F,M为最大值，R为最小值。完全符合重要保持客户。
客户群4，L,C为最小值，即入会时间短，且折扣率小。应归属到低价值客户。
客户群5，L为最大值，F,M为次大值。这类客户入会时间长，乘机次数和总里程偏大，最近乘机时间并未表现明显增加。故为重要挽留客户。

对客户进行特征划分后，针对不同类型的客户群提供不同的产品和服务，提升重要发展客户的价值、稳定和延长重要保持客户的高水平消费、防范重要挽留客户的流失并积极进行关系恢复。

Original: https://blog.csdn.net/sunzhipan11/article/details/122399785
Author: 孙志攀
Title: 基于python分析航空公司客户价值《数据挖掘》课程实验报告

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/550362/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

新兴产业概念扫盲3-AI人工智能-4应用场景及其他

神经网络是理解深度表征的模型，深度学习是训练深度神经网络的算法，两者是一脉相承的关系。本质上讲，神经网络和深度学习都是由数据驱动的，大量有标记的训练样本是复杂模型取得良好性能的前提…

人工智能 2023年6月1日
0077
pandas中的DataFrame类型

DataFrame 是一个表格型的数据结构，可以看成就是excel中的表格。有行有列每一行或者每一列都可以看成是一个Series，所以在创建DataFrame是可以使用Series…

人工智能 2023年7月7日
00106
【基于ROS的URDF练习实例】四轮机器人与摄像头的使用

前言在上一节博客中我们系统的学习了关于URDF的基本使用语法，并从标签、属性、结构关系等多个方面深入体会了URDF文件的框架和理念，本篇文章则主要针对于实际的仿真开发，分别从带有…

人工智能 2023年6月10日
00109
好细的Vue安装与配置

一、下载和安装Vue 官网下载地址Download | Node.js 选择适合自己的版本，推荐LTS，长久稳定版本。我这里选择的是Windows Installer(.msi)…

人工智能 2023年7月29日
0082
DataFrame、Series练习题——租房数据预处理

DataFrame、Series * – + 从字典dict构建Series + 用pandas和numpy分析药店的营业数据 + 随机数组 — 正态分布数组 + 租房…

人工智能 2023年6月19日
0079
图像质量评估(2) — 图像质量相关参数：分辨率

分辨率（解析度，Resolution）分辨率使我们经常听到的一个词，它代表了图像的精细程度，也代表了图像的大小。分辨率决定了在这种大小下，输出信号是否能够包含足够多的信息来获取所…

人工智能 2023年6月20日
00110
neo4j知识图谱3D可视化展示，支持搜索、定位、展开、高亮等功能

知识图谱三维可视化，可无缝于neo4j链接，修改配置文件即可。支持搜索、查找、定位、展开、高亮等功能，节点颜色、大小都可以进行自定义修改。程序前端框架为vue，后端为nodej…

人工智能 2023年6月10日
00403
pandas——玩转数据分析

panda第8讲——利用pandas计算平均值扩充数据表 import pandas as pd df=pd.read_excel(‘F:/桌面杂碎/output.xlsx’,sh…

人工智能 2023年7月16日
0078
CV领域特征描述子1：HOG

CV领域特征描述子：HOG,SIFT–图片的简略替代 HOG：方向梯度直方图本质:梯度的统计信息，能够很好的反映局部图像的边缘、形状图像梯度基本原理：当图像中存在边…

人工智能 2023年6月22日
0069
用Python采集招聘网岗位信息，用Pandas处理做数据可视化（含源码）

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月17日
0083
回归、拟合、分类的基本概念、常见方法及应用场景

（1）回归：回归：找数据点之间关系的分析方法就是回归。回归算法是一种比较常用的机器学习算法，用来表示自变量X和因变量Y之间的关系。从机器学习的角度，构建一个算法模型来做属性X与标…

人工智能 2023年6月17日
0073
vue路由

vue路由目录 * 概述 – 需求：设计思路实现思路分析 – 1.路由 2.使用 3.注意点 4.路由的query参数 5.路由的params参数性…

人工智能 2023年6月29日
0080
去经营企业吧

（1）哲学我前天看了一部李小龙的回忆录视频片段，我想和我今天想表达的事情蛮像的，于是先放在这里。李小龙说水：水无形状，你将水倒入杯里，水就变成杯的形状；你将水倒入瓶里，水便变成…

人工智能 2023年7月15日
0066
python处理csv_to_excel

提取各csv文件不同频率的S参数tx import os.pathimport pandas as pdimport openpyxlimport globfrom os.path…

人工智能 2023年7月7日
0084
Swin-Unet跑自己的数据集（Transformer用于语义分割）

原始代码位置：这个代码的架构和下面这个transunet一样的Github复现之TransUNet（Transformer用于语义分割）_如雾如电的博客-CSDN博客_trans…

人工智能 2023年6月16日
0075
安科瑞配电室环境监控系统解决方案-Susie 周

1、概述配电室综合监控系统包括智能监控系统屏、通讯管理机、UPS电源、视频监控子系统（云台球机、枪机）、环境监测子系统（温度、湿度、水浸、烟感）、控制子系统（灯光、空调、除湿机、…

人工智能 2023年7月29日
0064

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

基于python分析航空公司客户价值《数据挖掘》 课程实验报告