python-数据描述与分析2(利用Pandas处理数据 缺失值的处理 数据库的使用)

2.利用Pandas处理数据
2.1 汇总计算
当我们知道如何加载数据后,接下来就是如何处理数据,虽然之前的赋值计算也是一种计算,但是如果Pandas的作用就停留在此,那我们也许只是看到了它的冰山一角,它首先比较吸引人的作用是汇总计算

(1)基本的数学统计计算
这里的基本计算指的是sum、mean等操作,主要是基于Series(也可能是来自DataFrame)进行统计计算。举例如下:

另外,实际应用中不只是这些统计函数在发挥作用,还有很多统计函数,比如计算数值之间的百分比(pct_change),或者是相关数据的系数与协方差等,这里就不讨论了,需要时可查看帮助文档来解决。

2.2 缺失值的处理
(1)缺失值的概念
缺失值是在数据处理中在所难免的问题,pandas对缺失值的处理目的是简化对缺失值处理的工作。缺失值在pandas中使用的是浮点数(numpy.nan:Not a Number),具体代码如下:

(3)填充缺失值
因为数据处理的要求,可能并不需要将所有的数据进行过滤,此时需要对数据进行必要的填充(比如0.0);还可以用线性插值进行必要的填充,而在这个数据处理中需要用到的方式如下所示:

另外,在处理缺失值时除了以上介绍的简单操作之外,更多的时候需要根据数据挖掘需要或者程序运行方面灵活地进行缺失值处理,程序是人为设定的规则,但针对这些规则进行优化组合,将会带来新的效果

3.数据库的使用
关于数据库的使用,虽然各大厂商都在追捧NOSQL,但是目前使用最多的还是关系型数据库(MySQL、SQLServer、PostgreSql等)。总体而言,数据库的选择取决于其性能、数据完整性及应用程序的需求等。
在这里我们使用python内置的sqlite3驱动器,操作过程如下所示:

优化:之前的操作看似简单流畅,但是针对具体应用来看不是很理想,原因在于我们需要对数据库的每次操作进行代码的重写,这样既耗时又耗力,庆幸的是pandas提供了一组方法帮我们解决类似难题。

另外,也就是说read_sql_query(查询语句,连接)返回的就是我们需要的数据格式DataFrame,仅用此句代码搞定。当然这里只是抛砖引玉,当真正需要同数据库进行数据交互时,查询相关文档时最好的方式.

Original: https://www.cnblogs.com/dd0016/p/16768090.html
Author: 肚肚杜杜
Title: python-数据描述与分析2(利用Pandas处理数据 缺失值的处理 数据库的使用)

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/714118/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

  • BlazorWebAssembly+GrpcWeb=未来?

    Blazor WebAssembly是什么 首先来说说 WebAssembly是什么,WebAssembly是一个可以使C#,Java,Golang等静态强类型编程语言, _运行在…

    技术杂谈 2023年7月24日
    073
  • HTML:2.基本结构

    HTML初识 HTML(Hyper Text Markup Language):超文本标记语言 所谓超文本,有2层含义: 它可以加入图片、声音、动画、多媒体等内容(超越文本限制 )…

    技术杂谈 2023年7月11日
    092
  • 低代码实践 简道云

    【简道云官网】零代码轻量级应用搭建平台 注意:表头type取值 user、dept { "header": [ { "id": "…

    技术杂谈 2023年5月31日
    094
  • day3

    链表的定义 class ListNode: def __init__(self, val, next=None): self.val = val self.next = next …

    技术杂谈 2023年7月10日
    076
  • 使序列递增的最小交换

    我们有两个长度相等且不为空的整型数组 A 和 B 。 我们可以交换 A[i] 和 B[i] 的元素。注意这两个元素在各自的序列中应该处于相同的位置。 在交换过一些元素之后,数组 A…

    技术杂谈 2023年6月1日
    0118
  • 个人介绍

    开罐即食。 开罐即食。 posted @2022-09-26 21:57 qAlex_Weiq 阅读(2512 ) 评论() 编辑 Original: https://www.cn…

    技术杂谈 2023年6月21日
    0126
  • Inno Setup 卸载前关闭进程或服务 x86 x64

    1、32位程序的PSVince.dll插件方法。 [Setup] AppName=PSVince AppVerName=PSVince 1.0 DisableProgramGrou…

    技术杂谈 2023年5月31日
    088
  • H3C FAT AP

    posted @2019-09-22 22:26 樊伟胜 阅读(518 ) 评论() 编辑 Original: https://www.cnblogs.com/fanweishen…

    技术杂谈 2023年5月30日
    0108
  • springboot中使用mybatisplus自带插件实现分页

    springboot中使用mybatisplus自带插件实现分页 1.导入mybatisplus分页依赖 <dependency> <groupid>com…

    技术杂谈 2023年7月11日
    077
  • 减少仔猪的挤压死亡率的可穿戴设备简析

    在商业农场中,母猪压死小猪的情况经常发生。根据统计,大约每10头仔猪中就有1头被母猪挤压致死,在有机农场内,这种意外情况发生的频率更高。 根据爱荷华农业科技创业公司SwineTec…

    技术杂谈 2023年5月31日
    081
  • 3分钟快速了解猪齿鱼权限

    猪齿鱼 Choerodon 数智化开发管理平台 ,提供协作、测试、DevOps及容器等工具,帮助企业拉通软件开发和项目管理的需求、设计、开发、部署、测试和运营全流程,全面满足企业研…

    技术杂谈 2023年7月24日
    0104
  • Markdown相关语法介绍

    Markdown相关语法介绍 一、介绍 Markdown是一种轻量级标记语言,后缀是.md或者.markdown。 二、基础使用 标题 h1 ## h2 ### h3 #### h…

    技术杂谈 2023年6月21日
    0101
  • 导出websphere内存镜像

    1.将脚本放致profiles\appservername\bin 下 2.查看一下soap host(在控制台port中能够看到) 3.运行例如以下命令:./wsadmin.sh…

    技术杂谈 2023年5月31日
    081
  • 技术管理进阶——技术部如何做绩效考核设计?

    原创不易,求分享、求一键三连 之前有个同学问我技术部的绩效方案怎么设计,想着这么多年的考核与被考核,我陷入了沉思,一方面是我对考核的认识未必正确、全面,另一方面是有些同学未必能接受…

    技术杂谈 2023年6月1日
    0112
  • PowerBI开发 第二十篇:用自然语言来探索数据–Q&A

    Power BI报表的用户,肯定会被Q&A的功能惊艳到,在查看报表时,仅仅通过输入文本就可以探索数据,并且结果是可视化的,更令人惊艳的时,结果几乎是实时显示出来的。这使得Q…

    技术杂谈 2023年5月31日
    0106
  • Hadoop(二)Hdfs基本操作

    HDFS HDFS由大量服务器组成存储集群,将数据进行分片与副本,实现高容错。 而分片最小的单位就是块。默认块的大小是64M。 HDFS Cli操作 官网https://hadoo…

    技术杂谈 2023年7月24日
    072
亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球