某连锁酒店泄露数据的分析

声明

不提供任何下载,不提供任何指引,无需问我怎么得到,我不会回答。

前言

这个分析纯粹是我喜欢数据挖掘,周末闲来无事练一下手。

源文件

源文件是一个SQL Server数据库备份文件,从数据库”shifenzheng”完整备份,从服务器GHOSTSLC-6BBFCB备份,备份日期是2013/5/27 0:45:49 备份用户名叫anyi,备份数据库大小8030071808 (约7.5GB)。

某连锁酒店泄露数据的分析

基本信息

1. 字段

数据库只有一个表,叫 cdsgus。里面有姓名、身份证号码、性别、地址、国家、手机号码、电子邮件等数据,其它的如卡号、固话、传真、公司、教育、兴趣等基本上是残缺甚至没有的,甚至部分人的身份证号码也是错乱的,估计导入的时候没有处理好。

而每个字段都设为长度2000的nvarchar,相当蛋痛,相信这不是原始设计,而单纯是泄露后自行快速导入的产物。

某连锁酒店泄露数据的分析

2. 记录

里面有20050144条记录(2005万)。

3. 姓

取姓名的第一个字符做姓(不考虑复姓),有4644个性,最多是王,其次是张、李、刘、陈,似乎和中国的大姓吻合。有趣的是有人姓”色”、”糊”、”痕”、”&”、”@”、”π”(数学里面的pi)。。。相信是乱写的。

10大姓里面已经占了821万用户。

某连锁酒店泄露数据的分析

4. 性别

男性比女性多一倍。

某连锁酒店泄露数据的分析

5. 年龄段

剔除那些无效或不靠谱年龄,80后是主力,70后次之。90后只有60后的一半,貌似不科学。。。

某连锁酒店泄露数据的分析

5. 省份

省份数据基于身份证号码,部分用户使用的不是身份证号号码,部分用户提供了的数据不合法,我都一并剔除了。江苏、山东和浙江用户最多,相信是某某连锁酒店在这些地区网点最多。

某连锁酒店泄露数据的分析

6. 更多

其实我还可以分析一下如手机提供商(移动/电信/联通等)、登记时间的分布等,甚至多维如不同省份里的不同年龄段里的不同手机用户之类,不过颈椎病发作,强忍疼痛写了这篇博客,就此打住了,休息去。

后言

互联网时代,每天产生的数据越来越多,数据安全问题日益严重,譬如之前的CSDN个人信息泄露,还有几个大游戏网站的数据泄露,当然还有诸多没有公开,只是在某些组织内部流转的。

我的建议,保护好自己的个人信息,不要在网上随意填写敏感数据,譬如身份证等,尽可能不同服务使用不同密码并经常修改。电话号码等,如果非得要填写,填写一个备用号码(专门用来填写申请/注册用,可随便丢弃,不怕别人骚扰)。

Original: https://www.cnblogs.com/unruledboy/p/HotelDataAnalysis.html
Author: 灵感之源
Title: 某连锁酒店泄露数据的分析

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/547555/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球