Python 爬虫 爬取斗鱼视频

一、模块使用

requests >>> pip install requests
re

win + R 输入cmd 输入安装命令 pip install 模块名 (如果你觉得安装速度比较慢, 你可以切换国内镜像源)

二、模块安装问题:

  • 如果安装python第三方模块:
  • win + R 输入 cmd 点击确定, 输入安装命令 pip install 模块名 (pip install requests) 回车
  • 在pycharm中点击Terminal(终端) 输入安装命令
  • 安装失败原因:
  • 失败一: pip 不是内部命令
    解决方法: 设置环境变量

  • 失败二: 出现大量报红 (read time out)
    解决方法: 因为是网络链接超时, 需要切换镜像源
    清华:https://pypi.tuna.tsinghua.edu.cn/simple
    阿里云:https://mirrors.aliyun.com/pypi/simple/
    中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/
    华中理工大学:https://pypi.hustunique.com/
    山东理工大学:https://pypi.sdutlinux.org/
    豆瓣:https://pypi.douban.com/simple/
    例如:pip3 install -i https://pypi.doubanio.com/simple/ 模块名

  • 失败三: cmd里面显示已经安装过了, 或者安装成功了, 但是在pycharm里面还是无法导入
    解决方法: 可能安装了多个python版本 (anaconda 或者 python 安装一个即可) 卸载一个就好
    或者你pycharm里面python解释器没有设置好

三、如何配置pycharm里面的python解释器

  1. 选择file(文件) >>> setting(设置) >>> Project(项目) >>> python interpreter(python解释器)
  2. 点击齿轮, 选择add
  3. 添加python安装路径

四、pycharm如何安装插件

  1. 选择file(文件) >>> setting(设置) >>> Plugins(插件)
  2. 点击 Marketplace 输入想要安装的插件名字 比如:翻译插件 输入 translation / 汉化插件 输入 Chinese
  3. 选择相应的插件点击 install(安装) 即可
  4. 安装成功之后 是会弹出 重启pycharm的选项 点击确定, 重启即可生效

五、爬虫基本流程

(1). 数据来源分析

(2). 代码实现步骤过程
1. 发送请求, 模拟浏览器对于url地址发送get请求
2. 获取数据, 获取服务器返回响应数据 —> 开发者工具里面response
3. 解析数据, 提取我们想要数据内容
4. 保存数据, 把数据保存为mp4

六、完整代码

import requestsimport reurl = 'https://v.douyu.com/api/stream/getStreamUrl'data = {    'v': '220320220627',    'did': '10000000000000000000000000001501',    'tt': '1656318502',    'sign': 'f0194e25c25283cbd53ef52c0acf45f8',    'vid': 'kDe0W29DOwaMA4Bz',}headers = {    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36'}response = requests.post(url=url, data=data, headers=headers)print(response.json())m3u8_url = response.json()['data']['thumb_video']['high']['url']print(m3u8_url)m3u8_data = requests.get(url=m3u8_url, headers=headers).textm3u8_data = re.sub('#E.*', '', m3u8_data).split()for ts in m3u8_data:    ts_url = 'https://play-tx-ugcpub.douyucdn2.cn/live/high_33282775320220508200007-upload-d9f8/' + ts    ts_content = requests.get(url=ts_url, headers=headers).content    with open('【奶优米呀】05-07 本场人气值TOP2舞蹈.mp4', mode='ab') as f:        f.write(ts_content)    print(ts_url)

Python 爬虫 爬取斗鱼视频

Python 爬虫 爬取斗鱼视频

Python 爬虫 爬取斗鱼视频

Original: https://blog.51cto.com/u_15668438/5579803
Author: lanxiaofang
Title: Python 爬虫 爬取斗鱼视频

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/500741/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

  • python之mud–闲话

    注入产生的原理: 数据库设置为GBK编码: 宽字节注入源于程序员设置MySQL连接时错误配置为:set character_set_client=gbk,这样配置会引发编码转换从而…

    Python 2022年10月6日
    0222
  • python贪吃蛇开发_python简单贪吃蛇开发

    注入产生的原理: 数据库设置为GBK编码: 宽字节注入源于程序员设置MySQL连接时错误配置为:set character_set_client=gbk,这样配置会引发编码转换从而…

    Python 2023年1月23日
    079
  • python flask框架优点_flask框架有什么用

    Flask框架的特点 1.轻巧 2.简洁 3.扩展性强(个人认为最重要的特点) 4.核心(werkzeug和jinja2)jinja2就是指模板引擎。 Flask确实很&#8221…

    Python 2023年8月14日
    028
  • python 提取数据框列名_Python Pandas – 根据列名重新排列数据框中的列

    df.reindex_axis(sorted(df.columns), axis=1) 这假定对列名进行sorting会给你想要的订单。 如果你的列名不按照字典顺序排列(例如,如果…

    Python 2023年8月7日
    043
  • CTFSHOW菜狗杯 web

    注入产生的原理: 数据库设置为GBK编码: 宽字节注入源于程序员设置MySQL连接时错误配置为:set character_set_client=gbk,这样配置会引发编码转换从而…

    Python 2022年12月24日
    0163
  • scrapy简单实现一个项目

    注入产生的原理: 数据库设置为GBK编码: 宽字节注入源于程序员设置MySQL连接时错误配置为:set character_set_client=gbk,这样配置会引发编码转换从而…

    Python 2023年1月25日
    084
  • Django–08ORM设计

    一、初识Django的ORM设计1.什么是ORM?Object-Relational MappingO:编程语言中的对象R:关系型数据库M:抹平O和R的鸿沟(通过映射) 2.映射的…

    Python 2023年8月4日
    024
  • 基于Python的语音识别系统(孤立词)

    目录1 任务介绍 12 项目实现 12.1 预处理 22.2 特征提取 32.2.1 归一化 32.2.2 预加重 32.2.3 分帧 32.3 加窗 42.3.1 端点检测 62…

    Python 2023年10月26日
    021
  • python小知识–创建scrapy工程步骤

    抵扣说明: 1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。 Original: https://blo…

    Python 2023年10月3日
    027
  • NNDL 作业5 卷积

    注入产生的原理: 数据库设置为GBK编码: 宽字节注入源于程序员设置MySQL连接时错误配置为:set character_set_client=gbk,这样配置会引发编码转换从而…

    Python 2023年1月11日
    0114
  • flask返回的Response类型对象

    注入产生的原理: 数据库设置为GBK编码: 宽字节注入源于程序员设置MySQL连接时错误配置为:set character_set_client=gbk,这样配置会引发编码转换从而…

    Python 2023年1月5日
    0109
  • Python图像处理丨图像缩放、旋转、翻转与图像平移

    注入产生的原理: 数据库设置为GBK编码: 宽字节注入源于程序员设置MySQL连接时错误配置为:set character_set_client=gbk,这样配置会引发编码转换从而…

    Python 2022年8月31日
    0256
  • 2、NumPy数组基本用法

    注入产生的原理: 数据库设置为GBK编码: 宽字节注入源于程序员设置MySQL连接时错误配置为:set character_set_client=gbk,这样配置会引发编码转换从而…

    Python 2023年1月12日
    0150
  • sqlserver字符串转日期_关于日期特征,你想知道操作都在这儿

    注入产生的原理: 数据库设置为GBK编码: 宽字节注入源于程序员设置MySQL连接时错误配置为:set character_set_client=gbk,这样配置会引发编码转换从而…

    Python 2022年12月29日
    0126
  • Pytest之收集用例及命令行参数

    在上一篇Pytest系列文章:Pytest之基本介绍,主要介绍Pytest特点、安装配置及简单运行。 以下主要介绍:Pytest的用例收集规则及命令行参数详解。 一、用例收集 1 …

    Python 2023年9月11日
    025
  • Linux常用命令——sort命令

    注入产生的原理: 数据库设置为GBK编码: 宽字节注入源于程序员设置MySQL连接时错误配置为:set character_set_client=gbk,这样配置会引发编码转换从而…

    Python 2023年2月6日
    0122
亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球