如何在 Pandas 中使用 SQL

SQL(Structured Query Language, 结构化查询语言)是用于访问和处理数据库的标准的计算机语言,也是数据清洗的神器。

日常的数据统计分析工作中,80%的时间是在做数据清洗,只有20%的时间在优化模型、分析统计结果等。数据清洗的工作的重要性不言而喻,今天先简单介绍下数据清洗中最重要的工具–SQL。

通过sqldf包,可直接在R中的数据框(data.frame)(类似数据库中的表)上进行SQL操作,R中数据清洗常用的dplyr包的许多函数操作也是将相应的命令转化为SQL语句来执行。sqldf包支持SQLite(默认), H2,MySQL及PostgreSQL作为后台来执行SQL语句。SQLite及H2是两个无服务器端,无需配置的轻量级数据库管理系统,在R中安装好并加载sqldf包就可以直接使用SQLite数据库来操作数据,H2同时还需要安装并加载RH2包即可使用(MySQL和PostgreSQL需要繁琐的服务器端客户端的配置)。SQLite灵活轻便,应用非常广泛,集成到了许多IOS及Android的app中。SQLite 没有一个单独的用于存储日期和/或时间的存储类,但 SQLite 能够把日期和时间存储为文本或数值类型(在用SQLite处理日期数据的时候要非常小心,以后再细说)。

主要介绍使用SQLite为后台,通过sqldf中执行SQL语句

library(sqldf)

df2

Original: https://www.cnblogs.com/a00ium/p/15551264.html
Author: DaisyLinux
Title: 如何在 Pandas 中使用 SQL

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/9146/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

发表回复

登录后才能评论
免费咨询
免费咨询
扫码关注
扫码关注
联系站长

站长Johngo!

大数据和算法重度研究者!

持续产出大数据、算法、LeetCode干货,以及业界好资源!

2022012703491714

微信来撩,免费咨询:xiaozhu_tec

分享本页
返回顶部