数据分析(Data Analysis)

数据分析

一、数据分析——基础

1.什么是数据分析

1.1数据分析的概念

  • 数据分析就是利用 数学、统计学理论相结合科学 统计分析方法数据库中的数据、Excel数据、收集的大量数据、网页抓取的数据进行分析,从中提取 有价值的信息形成结论并进行 展示的过程。
  • 数据分析的目的在于将隐藏在一大堆看似 杂乱无章的数据背后, 将有用的信息提取出来,总结出数据的内在规律,以帮助在实际工作中的管理者做出 决策和判断

1.2数据分析的应用

  • 互联网行业
    通过数据分析可以根据客户意向进行 商品推荐以及 针对性广告等。例如,我们熟悉的淘宝
    数据分析(Data Analysis)
  • 医学方面
    智能医疗、健康指数评估以及DNA对比等。
    例如,我们熟悉的手环、体脂称
    数据分析(Data Analysis)
  • 网络安全方面
    通过数据分析建立一个 潜在攻击性分析模型,监测大量的网络访问数据与访问行为,可以 快速识别出可疑网络的访问,起到有效的防御作用
  • 交通方面
    根据交通状况数据与GPS定位系统有效的 预测交通实时路况信息
  • 通信方面
    数据分析可以统计骚扰电话进行 骚扰电话的拦截与黑名单的设置
  • 个人生活
    数据分析可以对 个人喜好、生活习惯等进行分类,为其提供更加周到的个性化服务

; 1.3数据分析方法

数据分析是从数据中提取有价值信息的过程,过程中需要对数据进行各种处理和归类,只有掌握了正确的数据分析方法,才能起到事半功倍的效。

数据分析(Data Analysis)
  • 统计分析类:对比分析法、同比分析、环比分析、定比分析、差异分析、结构分析、因素分析、80/20分析
  • 高级分析类:回归分析法、聚类分析法、相关分析法、矩阵分析法、判别分析法、主成分分析法、因子分析法、对应分析法、时间序列分析
  • 数据挖掘类:机器学习、数据仓库等复合技术为主。

1.3.1对比分析

对比分析法是把客观事物加以比较,以达到认识事物的本质和规律并做出正确的评价。对比分析法通常是把两个相互联系的指标数据进行比较,从数量上展示和说明研究对象规模的大小,水平的高低,速度的快慢,以及各种关系是否协调。

数据分析(Data Analysis)

; 1.3.2同比分析

  • 同比分析就是按照时间如年度、季度、月份、日期等进行扩展,用本期实际发生数与同期历史发生数相比,产生动态相对指标,用以揭示发展水平以及增长速度。
  • 同比分析主要是为了消除季节变动的影响,用以说明本期水平与去年同期水平对比而达到的相对值。
    数据分析(Data Analysis)

1.3.3环比分析

环比分析是报告期水平与前一时期水平之比,表明现象逐期的变化趋势。如果计算一年内各月与前一个月对比,即1月比去年12月,2月比1月,3月比2月,4月比3月,5月比4月,6月比5月,说明逐月的变化程度,如图1所示,环比增长趋势如图2所示

数据分析(Data Analysis)

; 1.3.4 80/20分析

80/20分析,又称二八法则、帕累托法则、帕累托定律、最省力法则或不平衡原则。该法则是由意大利经济学家帕累托提出的。二八法则认为:原因和结果、投入和产出、努力和报酬之间本来存在着无法解释的不平衡。

数据分析(Data Analysis)

1.3.5 回归分析

回归分析多用于统 计分析和预测。它是研究变量之间相关关系以及相互影响程度,通过建立自变量和因变量的方程,研究某个因素受其他因素影响的程度或用来预测。回归分析包括:线性和非线性回归、一元和多元回归。常用的回归是一元线性回归和多元线性回归

数据分析(Data Analysis)

; 1.3.6 聚类分析

聚类分析多用于人群分类,客户分类。所谓聚类是一个将数据集中在某些方面相似的数据成员进行分类组织的过程

数据分析(Data Analysis)

1.3.7时间序列分析

时间序列分析多用于统计和预测。它是按照时间的顺序把随机事件变化发展的过程记录下来,就构成了一个时间序列。时间序列分析就是对时间序列进行观察、研究、找出它的变化和发展规律,预测将来的走势

数据分析(Data Analysis)

; 1.4数据分析工具

数据分析师要求前3的主要技能是: SQL、Python、Excel

数据分析(Data Analysis)
  • Excel是常用的数据分析工具,可以实现基本的数据分析工作,但在数据量较大,公式嵌套很多的情况下,Excel处理起来会很麻烦而且处理速度也会变慢。此时,Python可作为首选,因为Python提供了大量的第三方扩展库,如Numpy、Scipy、Matplotlib、Pandas、Scikit-Learn、Keras和Gensim等,这些库不仅可以对数据进行处理、挖掘、可视化展示,其自带的分析方法模型也使得数据分析变得简单高效,只需编写少量的代码就可以得到分析结果。

1.5数据分析流程

数据分析(Data Analysis)

; 二、数据分析——numpy

2.1numpy概述

2.1.1numpy介绍

  • numpy=Numeric Python
  • 用Python进行 科学(数值)计算的基础库
  • 拥有快速高效的数组
  • 提供高性能数组

2.2数据预处理

2.2.1数据读写

2.2.1.1数据存储

  • ndarray=n-dimensional array object
  • Numpy用于存储 单一数据类型的数组对象
  • 为什么不用Python的数据类型(如列表、字典)存储数据?
    数据分析(Data Analysis)

; 2.2.1.ndarray数组对象

  • ndarray 是一个多维的数组对象,具有矢量算术运算能力和复杂的广播能力,并具有执行速度快和节省空间的特点。
  • ndarray 的一个特点是 同构:即其中所有元素的类型必须相同。
  • ndarray 数据类型
    数据分析(Data Analysis)
  • 数组对象的创建:
    数据分析(Data Analysis)
  • ndarray的属性:
    数据分析(Data Analysis)

2.2.1.3ndarry与标量之间的运算

  • arr=np.array()
  • arr*arr
  • arr-arr
  • 1/arr
  • arr*5
  • 例如:
    数据分析(Data Analysis)
    运算结果:
    数据分析(Data Analysis)

; 2.2.1.4数据读取

import numpy as np
data=np.loadtxt("BeijingPM2.5.csv",delimiter=",",skiprows=1,dtype=float)

数据分析(Data Analysis)

2.2.2数据筛选

原始样本数据可能出现的问题:

  1. 数据不完整
  2. 属性冗余
  3. 数据重复

2.2.2.1解决数据不完整 ——>数据组合

有些数据是分布在不同文件中的,需要 垂直组合到一起:

数据分析(Data Analysis)
  • 方法1:np.vstack((data1,data2))
  • 方法2:np.row_stack((data1,data2))

有些数据的特征分布在不同文件中,需要 水平组合到一起:

数据分析(Data Analysis)
  • 方法1:np.hstack((data1,data2))
  • 方法2:np.column_stack((data1,data2))

; 2.2.2.2解决数据冗余 ——>数据截取

  • 索引
    确定 元素的位置
    行,列使用逗号间隔
  • 例一: 获取第1行数据
    数据分析(Data Analysis)
  • 例二: 获取第3-5行数据
    数据分析(Data Analysis)
  • 例三: 获取第4行第5列数据
    数据分析(Data Analysis)
  • 切片
    抽取某个 范围内的数据;
    起止位置用 冒号隔开
  • 例一:获取前三行数据

数据分析(Data Analysis)
  • 例二:获取第2-4行,3-5列的数据
    数据分析(Data Analysis)
  • 例三:获取2-5列数据
    数据分析(Data Analysis)

2.2.2.3解决数据冗余——> 去除数据集中重复的数据

数据分析(Data Analysis)
  • 删除重复的行:
    data = np.unique(data,axis=0)
    数据分析(Data Analysis)
  • 删除重复的列:
    data = np.unique(data,axis=1)
    数据分析(Data Analysis)

; 2.2.3数据清洗

2.2.3.1数据删除

  • 删除任意的行和列:
    数据分析(Data Analysis)

; 2.2.3.2条件查找

数据分析(Data Analysis)

2.3科学计算

2.3.1科学计算概述

数据分析(Data Analysis)

; 2.3.2计算函数

数据分析(Data Analysis)

2.3.3矩阵乘法

数据分析(Data Analysis)

数据分析(Data Analysis)
  • 例子:
    数据分析(Data Analysis)

; 2.3.4矩阵其他计算函数

数据分析(Data Analysis)

2.4生成数据集

2.4.1数据集生成概述

数据分析(Data Analysis)

; 2.4.2Random函数

数据分析(Data Analysis)
  • 例子:
    数据分析(Data Analysis)
    数据分析(Data Analysis)

2.4.3linspace函数

数据分析(Data Analysis)
  • 例:
    数据分析(Data Analysis)

; 2.5扩展

2.5.1改变数组的维度

数据分析(Data Analysis)

; 2.5.2保存文件

数据分析(Data Analysis)

2.5.3数组的排序

数据分析(Data Analysis)

; 2.5.4数组的分割

数据分析(Data Analysis)

2.5.5 数组迭代

数据分析(Data Analysis)

; 三、数据分析——pandas

3.1pandas概述

  • Pandas = Python Data Analysis Library
  • 基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建
  • 一个强大的Python数据分析的工具包
  • 提供了大量能使我们快速便捷地处理数据的函数和方法

3.2数据读写

3.2.1数据读写概述

数据分析(Data Analysis)

; 3.2.2 数据读取

  • 例:读取xls
    数据分析(Data Analysis)
  • 例:读取csv
    数据分析(Data Analysis)
    数据分析(Data Analysis)

3.2.3 写入文件csv

数据分析(Data Analysis)
数据分析(Data Analysis)

; 3.2.4数据库数据的读写

3.2.4.1 数据库读取概述

数据分析(Data Analysis)

; 3.2.4.2 数据库写入

数据分析(Data Analysis)

3.2.4.3 数据库读取

数据分析(Data Analysis)
数据分析(Data Analysis)

; 3.3数据结构

3.3.1 Series对象

3.3.2 Series对象概述

数据分析(Data Analysis)

; 3.3.2 DataFrame对象

3.3.2.1 DataFrame对象概述

数据分析(Data Analysis)

; 3.3.2.2 DataFrame数组对象创建

数据分析(Data Analysis)

3.3.2.3 DataFrame常用属性

数据分析(Data Analysis)

; 3.3pandas数据预处理

3.3.1pandas数据增加、删除、修改

3.3.1.1 数据查找

  • 使用字典访问key
  • 使用切片loc
  • 使用表达式

3.3.1.2 数据删除

  • 使用drop方法
    数据分析(Data Analysis)

; 3.3.1.3 数据的添加

  • 新建列索引

3.3.1.4 数据的修改和查找

数据分析(Data Analysis)

; 3.3.1.5 数据的合并

数据分析(Data Analysis)

3.3.2pandas数据清洗

3.3.3pandas数据转换

四、数据分析——Matplotlib

五、数据分析——统计分析方法

六、数据分析——scikit-learn

Original: https://blog.csdn.net/maohuiwencom/article/details/121922887
Author: maohuiwencom
Title: 数据分析(Data Analysis)

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/737900/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

  • Python之Numpy扩展包学习与使用——数组数据处理

    写在前面:👀python小白,关于numpy包的学习总结🌲希望大家多多支持,欢迎评论交流🍀 Numpy是一个高性能科学计算与数据分析的Python软件包,也是很多其他Python包…

    Python 2023年8月27日
    077
  • flask—》response

    要在Java中使用OkHttp3客户端连接到 -SocketIO服务器,您需要遵循以下步骤: 1. 在Java应用程序中,使用Maven或Gradle等构建工具将OkHttp3客户…

    Python 2023年8月13日
    046
  • AI 预测到了正确的世界杯胜利者吗 ?

    在过去的一个月里,卡塔尔 2022 年世界杯让我们目睹了一个又一个令人震惊的结果,甚至在决赛之前,让所有人的目光都聚焦在法国和阿根廷两支球队上,其实在球迷们心中,早就开始了各种猜测…

    Python 2023年10月11日
    039
  • 网页图标 favicon.ico 的引入

    如何设置 favicon.ico 通过link标签,在head 标签中添加 <!– href是ico的存放路径 –> <link rel="shor…

    Python 2023年6月3日
    078
  • Python+Pychram+pytest环境搭建

    安装 python 官网下载地址:https://www.python.org/downloads/ 目前已经更新到了3.9.5 Python3.6安装步骤 去命令行输入:pyth…

    Python 2023年9月11日
    063
  • python单例模式和装饰器

    其实,Python 的模块就是天然的单例模式,因为模块在第一次导入时,会生成 .pyc 文件,当第二次导入时,就会直接加载 .pyc 文件,而不会再次执行模块代码。因此,我们只需把…

    Python 2023年6月6日
    035
  • Pandas之十数据分类

    关注微信公众号:数据研发技术,点击菜单:PY宝典,查看往期精彩内容 Pandas中为数据分类的需求提供专门的类型 category,可以由多种方式创建,并结合dataframe或S…

    Python 2023年8月7日
    051
  • manim 动画 svg 的准备工作

    1、选择图像后,选择窗口>图像描摹,注意将图像描摹成黑白色的,且大致内容为白色,仅边框为黑色。这样做的目的是尽可能简化svg,彩色svg会有更多的路径来显示颜色的变化。随后选…

    Python 2023年6月12日
    081
  • FastAPI(七十四)实战开发《在线课程学习系统》接口开发– 删除留言

    可以对留言进行删除,这里的删除,我们使用的是逻辑的删除,不是物理删除 我们来梳理下这里的逻辑 1.用户需要登录 2.请求携带留言的id 3.判断删除留言是否存在 4.存在则删除 那…

    Python 2023年6月15日
    059
  • yolov5训练—VOC数据集划分(训练集、验证集、测试集)和转换YOLO格式

    更新提醒 2023.04.01最新更新 1、修改了 VOC数据集划分和转YOLO格式处理部分下 第2部分数据集划分的 split_train_val.py代码,也不算修改,是感觉新…

    Python 2023年7月31日
    0109
  • WindowsAPI调用和OCR图片识别

    WindowsAPI在每一台Windows系统上开放标准API供开发人员调用. 功能齐全.在这里只介绍三个部分. 1.利用API控制鼠标键盘. 2.对外部程序的读写和监听 3.对外…

    Python 2023年6月6日
    060
  • Python数据科学库06(pandas)(End)

    Python数据科学库06(pandas) 学习06 练习 1、现在我们有2015到2017年25万条911的紧急电话的数据,请统计出出这些数据中不同类型的紧急情况的次数,如果我们…

    Python 2023年9月3日
    043
  • 【前端必会】tapable、hook,webpack的灵魂

    背景 什么是tapable、hook,平时做vue开发时的webpack 配置一直都没弄懂,你也有这种情况吗? 还是看源码,闲来无聊又看一下webpack的源码,看看能否找到一些宝…

    Python 2023年10月20日
    036
  • pytest常用插件使用大全

    文章目录 一.pytest-sugar 二.pytest-rerunfailures * 案例1 三.pytest-repeat * 案例1: 案例2 案例3:测试方法中添加装饰器…

    Python 2023年9月12日
    045
  • Anaconda默认安装在C:Usersxxx.condaenvs中

    目录 问题: 解决: 更改默认安装位置 移动已安装环境 问题: 解决: 更改默认安装位置 用记事本打开 C:\Users\zqk.condarc 在最后插入 envs_dirs:&…

    Python 2023年9月7日
    049
  • MongoDB 的安装详细过程

    MongoDB的简介 简介 1、MongoDB 是为了快速开发互联网 Web 应用而设计的数据库系统。 2、MongoDB 的设计目标是极简、灵活、作为 Web 应用栈的一部分。 …

    Python 2023年9月26日
    039
亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球