Python采集ip代理，并检测是否可用（仅用于学习交流）

2023年11月9日下午10:27 • Python • 阅读 50

为什么使用ip代理

我们写爬虫程序，爬多了或者请求爬取数据快了，服务器就会拒绝访问，同时一个IP多次快速请求，网站会把你IP封掉，这时候要么等一段时间，要么换IP。

基本思路

1.数据来源分析
找我们想要数据内容, 从哪里来的

2.发送请求
对于目标网址发送请求 https://www.kuaidaili.com/free/

3.获取数据
获取服务器返回响应数据(网页源代码)

4.解析数据
提取我们想要的数据内容

5.保存数据
爬音乐视频本地csv 数据库… IP检测, 检测IP代理是否可用可用用IP代理保存

#兄弟们学习python，有时候不知道怎么学，从哪里开始学。掌握了基本的一些语法或者做了两个案例后，不知道下一步怎么走，不知道如何去学习更加高深的知识。
#那么对于这些大兄弟们，我准备了大量的免费视频教程，PDF电子书籍，以及视频源的源代码！
#还会有大佬解答！
#都在这个群里了 924040232
#欢迎加入，一起讨论 一起学习！

代码展示

模块拓展

requests 是数据请求模块，属于第三方模块，安装方法 pip install requests

re 是正则表达式模块，属于内置模块，不需要安装；

parsel 是数据解析模块，属于第三方模块，这个是scrapy框架核心组件，安装方法 pip install parsel

from 从
import 导入
从什么模块里面导入什么方法
from xxx import * 导入所有方法

全部代码

import requests
import re
import parsel

flis = []
lis_1 = []

for page in range(11, 21):
    url = f'https://www.kuaidaili.com/free/inha/{page}/'  # 确定请求url地址

    # 用requests模块里面get 方法 对于url地址发送请求, 最后用response变量接收返回数据
    response = requests.get(url)

    # xpath 提取数据
    selector = parsel.Selector(response.text) # 把html 字符串数据转成 selector 对象
    ip_list = selector.xpath('//*[@id="list"]/table/tbody/tr/td[1]/text()').getall()
    port_list = selector.xpath('//*[@id="list"]/table/tbody/tr/td[2]/text()').getall()

    for ip, port in zip(ip_list, port_list):

        proxy = ip + ':' + port
        proxies_dict = {
            "http": "http://" + proxy,
            "https": "http://" + proxy,
        }

        lis.append(proxies_dict)

        try:
            response = requests.get(url=url, proxies=proxies_dict, timeout=1)
            if response.status_code == 200:
                print('当前代理IP: ', proxies_dict,  '可以使用')
                lis_1.append(proxies_dict)
        except:
            print('当前代理IP: ', proxies_dict,  '请求超时, 检测不合格')

print('获取的代理IP数量: ', len(lis))
print('获取可用的IP代理数量: ', len(lis_1))
print('获取可用的IP代理: ', lis_1)

dit = {
    'http': 'http://110.189.152.86:40698',
    'https': 'http://110.189.152.86:40698'
}

视频展示

视频都有详细讲解，初学者文章看不太明白，可以看视频学习哈~

视频地址：爬虫必备技能：一招解决访问网站ip受限问题

Original: https://www.cnblogs.com/hahaa/p/15881269.html
Author: 轻松学Python
Title: Python采集ip代理，并检测是否可用（仅用于学习交流）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/814980/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

python中read excel_Python 中pandas.read_excel详细介绍

Python 中pandas.read_excel详细介绍 #coding:utf-8 import pandas as pd import numpy as np fileful…

Python 2023年8月9日
0029
Self-Attention：初步理解

Self-Attention 的基本结构与计算 Attention（注意力）实际上就是权重的另一种应用的称呼，其具体结构与初始输入的 content (\vec{x_{1}}, \…

Python 2023年10月28日
0036
怎么让饼状图里面显示百分比_教你用matplotlib绘制带有负值的饼状图

matplotlib官网示例中给出了很多简单易用的饼图绘制范例，这里先在官网范例的基础上，做一个简单的总结。利用函数 ax1.pie绘制饼状图，传入的参数分别为： sizes 切…

Python 2023年9月5日
00147
【云原生 | Docker】腾讯云部署Django项目（服务器选型、git配置、docker三分钟部署）

🤵‍♂️ 个人主页: @计算机魔术师👨‍💻 作者简介：CSDN内容合伙人，全栈领域优质创作者。该文章收录专栏✨—【Django | 项目开发】从入门到上线专栏—✨ 书接上文我们…

Python 2023年8月6日
0044
【神经网络】(10) Resnet18、34 残差网络复现，附python完整代码

各位同学好，今天和大家分享一下 TensorFlow 深度学习中如何搭载 Resnet18 和 Resnet34 残差神经网络，残差网络利用 shotcut 的方法成功解决了网络…

Python 2023年8月2日
00151
pandas行和列的操作

在Pandas中，Series是一维容器，DataFrame表示一个数据表。DataFrame中的任一行、任一列都是Series。 Series的创建可以指定index。 s1 =…

Python 2023年8月17日
0067
pandas计数函数：value_counts( )和counts( )的使用

介绍一下如何在python里使用value_counts( )和counts( )进行计数。一、counts( )函数 1、count()在字符串里的使用函数体及主要参数： c…

Python 2023年9月26日
0065
matplotlib绘制四个子图

import matplotlib.pyplot as pltimport pandas as pdimport numpy as npimport seaborn as snsp…

Python 2023年9月1日
0054
conda和docker的一些记录

0.复盘最近在接触docker的过程中，发现conda的使用不可避免，在docker用到镜像开启新的容器中势必要再配一遍anaconda,而我每次都要搜索一大堆配置指令，在搜索过程…

Python 2023年9月8日
0046
matplotlib库使用

axes Axes.barh 创建一个水平条形图。 The bars are positioned at y with the given alignment. Their dim…

Python 2023年9月4日
0051
pandas rolling方法_Python pandas.rolling_max方法代码示例

需要导入模块: import pandas [as 别名] 或者: from pandas import rolling_max [as 别名] def getKDJ(close,…

Python 2023年8月18日
0064
用于机器学习的 NumPy（ML）

🔎大家好，我是Sonhhxg_柒，希望你看完之后，能对你有所帮助，不足请指正！共同学习交流🔎📝个人主页－Sonhhxg_柒的博客_CSDN博客📃🎁欢迎各位→点赞👍 + 收藏⭐️ +…

Python 2023年8月24日
0049
图像识别基础代码汇总（python+opencv）

为了方便复制粘贴，汇总一下基础图像处理代码（如有遗漏欢迎指出，后续再添加修改）没有原理讲解，我也是个小白，方便日后写代码直接复制使用做的笔记一、导入需要用的设置二、读入、显示、…

Python 2023年8月23日
0071
scipy的安装教程

导读上篇文章Python的数学计算库scipy介绍中已经详细介绍过了 scipy的用途，这篇文章主要来介绍如何安装scipy，本篇文章安装Python包的方法适用于其他的包安装…

Python 2023年8月1日
0065
pyspark DataFrame问题解决

pyspark.sql.DataFrame.dropDuplicates(subset=None) 作用：返回删除重复行的新 DataFrame，可选择仅考虑某些列。 Exampl…

Python 2023年8月19日
0064
霍格沃兹测试开发学社技术学习笔记之pytest的使用

简介 pytest是一个成熟的全功能python测试框架测试用例的skip和xfail，自动失败重试等处理能够支持简单的单元测试和复杂的功能测试，还可以用来做selenium/…

Python 2023年9月13日
0049

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Python采集ip代理，并检测是否可用（仅用于学习交流）

大家都在看