本研究系统的总体结构框图如图1所示。基于终端行为的用户画像需要通过数据采集、数据预处理、数据挖掘三个步骤来完成。数据采集模块为后续工作做好数据准备，首先从日志系统中抽取日志信息，同时从CRM数据库中导出涉及终端的使用者信息。数据预处理模块对数据进行进一步提炼，并完成缺失值填充、异常值处理等工作，形成结构化、干净、完整的数据集。数据挖掘模块使用分类和回归方法正式对数据进行建模。

2 算法设计

2.1 数据预处理

2.1.1 事件表分析

在导出的事件表中加入APP类型属性（app_type）。由于专家定义的特征标签总量较大，若直接将结构化的tag_list与原始宽表连接，会出现维度爆炸的情况；若保留tag_list的原始结构，则需要使用词袋法进行预处理，这会使矩阵过于稀疏。因此这里根据app_id导出标签矩阵，使用无监督的KNN方法进行二次分类，将APP分为20类。

2.1.2 数据规约

1. 提取用户活跃系数

根据事件发生日期date导出用户的活跃系数。用终端的连续活跃天数和单日活跃次数来描述用户的活跃情况，定义活跃系数A如下：

2. 提取用户偏好系数

根据is_installed和is_active导出偏好系数属性（pre_index）。is_installed和is_active是事件表中用户的两种行为，即安装APP和激活APP，这两种行为可以直接说明用户对目标APP的偏好，这里分别给两种行为一个评分，通过加权和的方式来衡量用户对目标APP的偏好程度。其中，由于激活行为表示用户对目标APP具有使用欲望，因此赋予比安装行为更高的权重，定义偏好系数如下：

3. 特征选择

（1）基本属性

从用户信息中选取性别和年龄属性；从终端信息中选取终端品牌和型号属性。

（2）领域属性

用二次分类后的APP类型和数据规约后得到的活跃系数、偏好系数来表征用户的行为。

根据以上属性重新定义表结构，抽取数据组成新表。

4. 数据清洗

以device_id为唯一标识清除重复行
分别处理缺失值和异常值
用词袋法处理离散属性
对数值型属性进行min-max归一化

2.1.3 数据挖掘

本次数据挖掘的目的是探索用户行为与年龄和性别之间的映射关系，由于性别是离散型属性、年龄为连续型属性，因此可以将任务拆分为两个子任务。本文尝试使用KNN与决策树模型求解用户行为与性别的映射，通过简单线性回归和多元回归求解用户行为和年龄间的关系。需要注意的是，因为在预处理环节对年龄做了归一化处理，导出结果时需要对数据进行还原。

3 实验结果

3.1 实验环境及相关参数设置

3.1.1 数据集

数据由训练集、测试集数据组成。涉及终端总数超过2万部，包含用户信息、终端信息和用户行为属性，具体抽取方式见上文算法设计一节中的数据采集部分。在模型训练过程中，将上述训练集按照7:3的比例再拆分为训练集和验证集。

3.1.2 超参数设置

训练决策树模型时使用的是基于信息熵增益的方法，最大深度设置为6；训练KNN模型时设置n_neighbor为40。建立多元回归模型时首先对数据进行Z-score标准化，再使用随机梯度下降法拟合模型。

3.1.3 评价方法

定义两个评价指标如下：

①score1 = accuracy_score(standard[‘gender’], submit[‘gender’])

②score2 = 1/(1 + mean_absolute_error(standard[‘age’], submit[‘age’]))

评价指标为以上两个评分的总和。

3.2 实验结果与分析

为测试本研究提出的模型，本实验分别采用Accuracy和1/(MAE+1)对两个子任务的结果进行评价，如表1序号2至5所示。对于性别预测任务，KNN方法的效果比决策树方法的效果要好；对于年龄预测任务，简单线性回归方法的评分要高于多元回归方法。

在本研究的预处理部分，根据APP标记数据进行了二次分类，同时对数据进行了规约处理，基于原始数据导出用户活跃系数和偏好系数两个新属性，为展现这两项预处理操作对于结果的影响，本研究做了对照实验，见表中”KNN-简单线性回归*”。可以看到在本次实验中，模型的测试效果更大程度上取决于数据预处理时对数据的提炼。

表1 模型在测试集上的评测结果

序号

方法

score1+score2

KNN-简单线性回归*

0.84138

KNN-简单线性回归

0.85261

KNN-多元回归

0.85166

决策树-简单线性回归

0.85128

决策树-多元回归

0.85033

4 结论

本文通过性别和年龄来描述用户，实验证明，如何运用特征工程从原始数据集中提取、选择特征会对模型运行效果造成较大影响。此外，在本实验数据集中，使用KNN与决策树、简单线性回归与多元回归方法的模型效果接近。

Original: https://blog.csdn.net/mustuo/article/details/122133600
Author: mustuo
Title: 讯飞赛题 | 移动设备用户年龄和性别预测

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/600732/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

SPARQL基础入门练习

1、前言知识图谱：Freebase，服务器：virtuoso SPARQL基本语法表一个SPARQL样例 PREFIX ns: <http: rdf.freebase.c…

人工智能 2023年6月1日
0073
Python库积累之pandasql：在 Python 中对Dataframe使用 SQL

Pandasql简介 Pandasql是一个可以让我们直接在Python中对Dataframe进行SQL查询的库。 Python中虽然内置有sqlite数据库，但是如果我们使用sq…

人工智能 2023年7月8日
0060
【PhotoShop】ps 基础知识

【PhotoShop】ps 基础知识概述 ps 文件打开图片常用格式 * JPEG GIF PNG BMP RAW ps 常用参数 * 像素分辨率 (DPI) 颜色模式概述…

人工智能 2023年6月22日
0088
【教程】标注工具Labelimg的安装与使用

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月10日
0054
22.MongoDB删除操作效率及相关问题验证

最近遇到一个了一个MongoDB数据删除的问题，需要一次性删除上线即1.5年前~1年前的数据且之后每天清空一年过期的数据。在数据量比较大的情况下何种方式的删除效率最高是一个值得研究…

人工智能 2023年7月30日
0055
李宏毅 Transformer（介绍 + Encoder部分）

Transformer就是一个,Sequence-to-sequence的model,他的缩写,我们会写做Seq2seq,那Sequence-to-sequence的model,又…

人工智能 2023年5月28日
0091
几个图像处理库整理：OpenCV、PIL(pillow)、skimage和GDAL库

主要是图像处理的几个库对数据的读取方式存在差异，有的时候经常搞混，没有概念，所以大致整理一下，一是增强印象，二是整理便于查阅。关于图像读取函数： 1、opencv库，python…

人工智能 2023年6月18日
0060
6d位姿估计—制作自己的LINEMOD数据集过程记录(ObjectDatasetTools)

先说结论，ObjectDatasetTools不好用，开发了一个有效的方法，最后效果连接如下：有效的方法 Original: https://blog.csdn.net/weix…

人工智能 2023年6月18日
0076
PyTorch：目标检测（object detection）介绍

目标检测（object detection）一、介绍在图像分类任务中，我们假设图像中只有一个主要物体对象，我们只关注如何识别其类别。然而，很多时候图像里有多个我们感兴趣的目…

人工智能 2023年7月9日
0064
vben admin BasicTable 表格的基本使用

vben admin BasicTable 表格的基本使用前言一、使用 vben admin 当中的 table 组件 * 表头数据表格数据二、准备数据 * 表头数据和表格…

人工智能 2023年6月27日
0092
ubuntu服务器安装anaconda并配置pytorch环境

文章目录前言一、安装Anaconda并创建虚拟环境二、安装pytorch 三、更换anaconda镜像源加速pytorch安装前言做深度学习难免会用到实验室服务器上的GP…

人工智能 2023年7月22日
0098
python 数据分析 |3. Pandas 学习

利用Pandas库可以快速地完成数据读写、数据分片／分组统计、数据整理等操作。Pandas的所有功能都是构建在两个最基础的数据结构之上：Series与DataFrame Serie…

人工智能 2023年7月18日
0068
文本预处理库spaCy的基本使用（快速入门）

文章目录 spaCy 简介 spaCy 安装 spaCy的基本使用 spaCy中的几个重要类 spaCy的处理过程（Processing Pipeline）实战：对中文进行分词和…

人工智能 2023年6月15日
00122
[附源码]java毕业设计宠物狗领养网站

项目运行环境配置： Jdk1.8 + Tomcat7.0 + Mysql + HBuilderX（Webstorm也行）+ Eclispe（IntelliJ IDEA,Eclis…

人工智能 2023年6月26日
0086
YOLOV7详细解读（二）论文解读

YOLOV7详细解读（二）论文解读论文解读 YOLOV7详细解读（二）论文解读前言一、YOLOV7是什么？二、论文解读 * 0.摘要 1.引言 2.相关工作 –…

人工智能 2023年6月16日
0060
FS2K人脸素描属性识别

人脸素描属性识别代码：https://github.com/linkcao/FS2K_extract 问题分析需要根据FS2K数据集进行训练和测试，实现输入一张图片，输出该图片…

人工智能 2023年6月4日
0099

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

讯飞赛题 | 移动设备用户年龄和性别预测