python-数据描述与分析2(利用Pandas处理数据 缺失值的处理 数据库的使用)

2.利用Pandas处理数据
2.1 汇总计算
当我们知道如何加载数据后,接下来就是如何处理数据,虽然之前的赋值计算也是一种计算,但是如果Pandas的作用就停留在此,那我们也许只是看到了它的冰山一角,它首先比较吸引人的作用是汇总计算

(1)基本的数学统计计算
这里的基本计算指的是sum、mean等操作,主要是基于Series(也可能是来自DataFrame)进行统计计算。举例如下:

另外,实际应用中不只是这些统计函数在发挥作用,还有很多统计函数,比如计算数值之间的百分比(pct_change),或者是相关数据的系数与协方差等,这里就不讨论了,需要时可查看帮助文档来解决。

2.2 缺失值的处理
(1)缺失值的概念
缺失值是在数据处理中在所难免的问题,pandas对缺失值的处理目的是简化对缺失值处理的工作。缺失值在pandas中使用的是浮点数(numpy.nan:Not a Number),具体代码如下:

(3)填充缺失值
因为数据处理的要求,可能并不需要将所有的数据进行过滤,此时需要对数据进行必要的填充(比如0.0);还可以用线性插值进行必要的填充,而在这个数据处理中需要用到的方式如下所示:

另外,在处理缺失值时除了以上介绍的简单操作之外,更多的时候需要根据数据挖掘需要或者程序运行方面灵活地进行缺失值处理,程序是人为设定的规则,但针对这些规则进行优化组合,将会带来新的效果

3.数据库的使用
关于数据库的使用,虽然各大厂商都在追捧NOSQL,但是目前使用最多的还是关系型数据库(MySQL、SQLServer、PostgreSql等)。总体而言,数据库的选择取决于其性能、数据完整性及应用程序的需求等。
在这里我们使用python内置的sqlite3驱动器,操作过程如下所示:

优化:之前的操作看似简单流畅,但是针对具体应用来看不是很理想,原因在于我们需要对数据库的每次操作进行代码的重写,这样既耗时又耗力,庆幸的是pandas提供了一组方法帮我们解决类似难题。

另外,也就是说read_sql_query(查询语句,连接)返回的就是我们需要的数据格式DataFrame,仅用此句代码搞定。当然这里只是抛砖引玉,当真正需要同数据库进行数据交互时,查询相关文档时最好的方式.

Original: https://www.cnblogs.com/dd0016/p/16768090.html
Author: 肚肚杜杜
Title: python-数据描述与分析2(利用Pandas处理数据 缺失值的处理 数据库的使用)

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/714118/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球