爬取与数据存储

2023年6月7日上午1:11 • Linux • 阅读 80

ch5. 数据存储

文件存储
JSON文件存储
关系型数据库存储
Mysql

1. JSON文件存储

1. JSON中的对象和数组

*对象

格式为 {key1:value1, key2:value2}. 其中键名可以为字符串, 整数, 值可以为任意类型

*数组

格式为 ['content1', 'content2', ....], 值可以为任意类型
2. JSON的读取

json.loads(): 该方法需要读取对象的格式符合JSON文件格式的要求。输出结果为列表，可以对接过使用索引等操作。
可以接受字符串，也可以接受文本文件。如：

import json
with open('data.json', 'r') as f:
    str = file.read()
    data = json.loads(str)
**3. JSON的输出**
* .dumps(): 该方法将json格式的对象转为字符串，若要将其输出至文件，还需要配合write()和open()方法。如：


import json
data = ...#data是符合json格式的对象
with open('data.json','w', encoding = 'utf-8') as f:
    file.write(json.dumps(data, ensure_ascii = False))
#若json中含有中文就需在open()中指定encoding='utf-8', write()中指定ensure_ascii = False

2. 关系型数据库—MySQL的存储

1. 链接到数据库及相关基本操作

pysql.connect(host = 'localhost', user = 'root', password = '*****', port(3306)): 成功连接后返回一个数据库对象 (令之为db)，利用该数据库对象我们可以对数据库进行增添改查等操作。参数说明
host，默认为localhost
user，登录数据库的用户名
password，数据库的密码
port，数据库端口，默认为3306
db.close(): 在操作完毕后需要将数据库对象关闭。
db.cursor(): 对数据库进行各种操作要通过cursor()方法返回的游标 _(令之为cr)_来进行。
cr.execute('sqlSentence') : 执行语句
cr.fetchone(): 取回sql中返回的结果
db.roolback(): 确保操作为原子操作，保持数据的一致性，即若失败则回退
db.commit(): 插入、更行等操作在执行完 db.execute()后还需要执行该方法才能真正是的操作生效

2. 创建表

创建表的操作关键在于sql语句的书写，以如下代码为例：

import pymqsql
db = pymysql.connect(host = 'localhost', user = 'root', password = '******', port = 3306, db = 'spider')
cr = db.cursor()
sqlSen = 'CREATE TABLE IF NOT EXISTS stuents(id VARCHAR(255) NOT NULL, name VARCHAR(255) NOT NULL, age INT NOT NULL, PRIMARY KEY(id))'
cr.execute(sql)
db.close()

3. 插入数据(动态)

静态插入语句：用拼接字符串的方式来完成

id = '1716240306'
user = 'bob'
age = '20'
db = pysql.connect(...)
cr = db.cursor()
sqlSen = 'INSERT INTO students(id, name, age)' values(%s, %s, %s)
try:
    cr.execute(sql, (id, user, age))
    db.commit()
except:
    db.roolback()

动态插入语句

data = {
    'id':'1716240306',
    'name':'xzy',
    'age':20,
    'gender':'male'
}
tableS = 'studentes'# 用变量保存字段，以便于修改、调用
keysS = ','.join(data.keys())# 用','将data中的键分隔开，以供函数调用使用
valusS = ','.join(['%s'] * len(data))# '['%s'] * 3' == '['%s', '%s', '%s']'
sqlSen = 'INSERT INTO {table}({keys}) VALUES ({values})'.format(table=tableS, keys = keysS, values = valuesS)
#str.format()用于填补字符串，填补入字符串中的{}，format()中填入要填补的内容，从左向右按序填入。若字串中占位符形式为{argName}，则需要在参数中使用argName=value的形式来传递参数
try:
    if cr.execute(sqlSen, tuple(data.values())):  #tuple()元组返回列表，以供sql语句提供参数
        print('successful')
        db.commit()
except:
    print('failed')
    db.roolback()
db.close()

不重复的更新数据

data = {
    'id':'1716240306',
    'name':'xzy',
    'age':20,
    'gender':'male'
}
tableS = 'students'
keysS = ','.join(data.keys())
valuesS = ','.join(['%s']*len(data))
#['%s']*3 == ['%s','%s','%s']
sqlSen = 'INSERT INTO {table}({keys}) VALUES({values}) ON DUPLICATE KEY UPDATE'.format(table = tableS, keys = kyesS, value = valuesS)
#'ON DUPLICATE KEY UPDATE'表示若主键存在就执行更新操作，否则执行插入操作。
updatePart = ','.join(["{key} = %s".format(key = keyS) for key in data])
#In[13]: (["{key} = %s".format(key = keysS) for key in data])
#Out[13]: ['id = %s', 'name = %s', 'age = %s', 'gender = %s']
sqlSen += updatePart
try:
    if cr.execute(sqlSen, tuple(data.values())*2):
#因为在加入更新语句后sqlSen中共有六处需要填进参数，所以需要参数处需要'*2'
        db.commit()
        print('successful')
except:
    db.rollback()
    print('failed')
db.close

查询数据

sqlSen = 'SELECT * FROM students WHERE age >= 20'
try:
    cr.execute(sqlSen)
    print('Count:',cr.rowcount)
    one = cr.fetchone()
    #从sql服务取回了一条结果，随后在sql中的指针自动向后偏移一位
    print('one row: ', one)
    results = cr.fetchall()
    #results保存了sql剩余的所有结果，(有一条结果被fetchone取走)
    pritn('results:', results)
    for aRow in results:
        print(aRow)
except:
    print('error')

Original: https://www.cnblogs.com/dysonxxxxx/p/16582046.html
Author: dysonkkk
Title: 爬取与数据存储

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/578854/

转载文章受原作者版权保护。转载请注明原作者出处！

Linux

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

linux-0.11分析：进程初始化函数init()，第一部分setup((void *) &drive_info) ，第十二篇随笔

进程的初始化函数， init() 先看看这个函吧： void init(void) { int pid,i; setup((void *) &drive_info); (v…

Linux 2023年6月7日
00100
阿里云函数-小米运动

简介是否支持多账号：是消息推送平台： server酱 Qmsg酱 PUSHPLUS 原代码（2022.07.12更新）- 不稳定由于官方接口偶偶失效（每两三月可能失效1-2天（…

Linux 2023年6月7日
0099
基于 vite 创建 vue3 全家桶项目（vite + vue3 + tsx + pinia）

vite 最近非常火，它是 vue 作者尤大神发布前端构建工具，底层基于 Rollup，无论是启动速度还是热加载速度都非常快。vite 随 vue3 正式版一起发布，刚开始的时候与…

Linux 2023年6月7日
00100
exec

exec 函数 exec()函数通过运行其他程序来替换当前进程。新程序启动后PID和老程序一样，就像两个程序接力跑，你的程序把进程交接给了新程序。 exec函数众多，可以分为两种…

Linux 2023年6月7日
00101
pod(三)：pod的管理

服务器版本 docker软件版本 CPU架构 CentOS Linux release 7.4.1708 (Core) Docker version 20.10.12 x86_64…

Linux 2023年6月7日
0093
springboot2 整合 redis 并通过 aop 实现自定义注解

1，相关依赖 pom.xml 片段 org.springframework.boot spring-boot-starter-aop org.springframework.boo…

Linux 2023年5月28日
00106
WPF 给 Pen 的 DashStyle 设置 0 0 的虚线数组将会让渲染线程消耗大量 CPU 资源

给 WPF 的 Pen 的 DashStyle 属性设置 0 0 的虚线，在绘制几何图形时，绘制的几何图形的尺寸将关联渲染线程所使用的 CPU 资源。大约在周长大于 500 时，将…

Linux 2023年6月6日
0060
Spring Boot yaml配置文件解析

1、Spring Boot 配置文件类型和作用 2、yaml 配置文件简介 3、yaml 基础语法 3.1、配置【基本】数据类型 3.2、配置【Object、Map】数据类型 3….

Linux 2023年6月8日
00100
代码审计-Typecho反序列化getshell

0x01 漏洞代码 install.php： php $config = unserialize(base64_decode(Typecho_Cookie::…

Linux 2023年5月28日
0093
操作系统实现-外中断

博客网址：www.shicoder.top微信：18223081347欢迎加群聊天：452380935 这一次我们来对中断中的外中断进行讲解，先给下中断的分类和中断号分配把。中…

Linux 2023年6月13日
00124
一道诡异的考试题

题目：给定$a$张黑牌,$b$白牌，甲，乙两人按以下顺序抽牌：甲抽一张，乙抽一张，然后弃去一张，然后重复以上过程。先抽到黑牌者胜，求甲和乙获胜的概率$mod 10045358…

Linux 2023年6月6日
0087
Java使用Redis删除指定前缀Key

Java使用Redis删除指定前缀Key // 获取Redis中特定前缀 Set keys = stringRedisTemplate.keys("BLOG_SORT_B…

Linux 2023年5月28日
0094
HTTPS 通信过程

posted @2021-11-26 21:23 HOsystem 阅读(27 ) 评论() 编辑 Original: https://www.cnblogs.com/HOsyst…

Linux 2023年6月13日
00152
Python 批处理sql插入 %s 占位符报错

语法错误在查询表达式 ‘%s’ 中。 (-3100) (SQLPrepare)”) 语法错误在查询表达式 ‘%s’ …

Linux 2023年6月7日
00116
logstash写入文件慢的问题排查记录

终于找到根本原因了！！！！！ logstash部署到k8s集群内部的，当所在节点的CPU资源被其他应用抢占时，logstash的处理速度就会降低问题现象 logstash从kaf…

Linux 2023年6月14日
00173
统计Redis中各种数据的大小

如果 MySQL 数据库比较大的话，很容易就能查出是哪些表占用的空间；不过如果 Redis 内存比较大的话， […] Meet so Meet. C plusplus…

Linux 2023年5月28日
0090

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

爬取与数据存储

1. JSON文件存储

1. JSON中的对象和数组

2. 关系型数据库—MySQL的存储

大家都在看