关于爬虫技术的探讨

2023年7月17日上午2:22 • 人工智能 • 阅读 51

写这篇文章，主要用于交流目的，将自己最近学到的技术进行一个大致的总结。仅此而已，欢迎评论交流。

声明：本人写博客纯粹是喜欢python，仅此而已。

好啦，废话就这么多，接下来是正文。

笔者留意爬虫很多时候啦，写的爬虫脚本也是有点数量，至于质量和代码的可阅读性可能需要下功夫改进，鉴于本人自学原因，所以代码追求的更多的是可行性，并没有严格的进行代码的函数包装以及类的使用。

说到爬虫，我看过崔才庆的相关书籍，确实真的不错，书中谈论很多实现数据爬取的方法，本片博客也是参照这本书来浅谈爬虫技术。

我觉得实现爬虫的话其实使用的库其实就那么几个吧（个人觉得好用），当然可以根据自己喜好来，其实如果可以达到目的即可，我一般的话爬取静态网页的话，一般使用的是requests库，涉及到动态网页，网页内容是被渲染过的，然而自己对效率的话追求不高的话，我觉得selenium挺不错的，只是需要安装谷歌驱动配合使用，其实这个我觉得是比较好用的，不需要什么解决编码的问题，如果用requests的话有些网站需要解决编码问题，不是所有的网站用utf-8解码就可以啦，这个之前困惑自己也是很久的。再说说移动端，移动端如手机的内容爬取，个人比较推荐的是appium这个库，这个库和selenium库的语法规则很相似。其实selenium和appium库都是自动化测试所用的库，不仅仅是爬虫能够用到，其实自动化测试啊，额一些脚本如（挂网课啊还是比较好的）。

好啦进入正题吧，下面就介绍requests库、selenium库和appium库，最近好像有一个比较万能的库叫playwright,听说挺好用的，若是觉得我说的太过于普通，可以试试这个库，可以自己看文档学。

首先先讲讲requests库

其实requests库爬取东西真的不难，就那个套路罢了，可以设置模板，每次直接调用就行。

import requests
from lxml import etree
url="&#x4F60;&#x60F3;&#x8981;&#x722C;&#x53D6;&#x7684;&#x7F51;&#x7AD9;"
headers={"user-agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36"
}#&#x8BBE;&#x7F6E;headers,&#x7528;&#x4E8E;&#x53CD;&#x722C;
res=requests.get(url=url,headers=headers)#&#x8FD9;&#x91CC;&#x53EF;&#x4EE5;&#x4F7F;&#x7528;&#x81EA;&#x5DF1;&#x7684;&#x4EE3;&#x7406;&#x6C60;&#xFF0C;&#x4F46;&#x662F;&#x4E00;&#x822C;&#x4EBA;&#x7528;&#x4E0D;&#x5230;&#xFF0C;&#x8FD9;&#x6837;&#x5DF2;&#x7ECF;&#x53EF;&#x4EE5;&#x5566;&#xFF0C;&#x52A0;&#x4EE3;&#x7406;&#x53EF;&#x4EE5;&#x7F51;&#x4E0A;&#x641C;&#xFF0C;&#x4E00;&#x822C;&#x662F;&#x81EA;&#x5DF1;IP&#x88AB;&#x5C01;&#x4E86;&#x65F6;&#x5019;&#x53EF;&#x80FD;&#x7528;&#x5230;&#xFF0C;&#x6211;&#x57FA;&#x672C;&#x4E0A;&#x6CA1;&#x7528;&#xFF0C;&#x826F;&#x6C11;&#x826F;&#x6C11;

res.encoding=res.apparent_encoding#&#x8FD9;&#x53E5;&#x8BDD;&#x662F;&#x8FDB;&#x884C;&#x7F16;&#x7801;&#x8F6C;&#x5316;&#xFF0C;&#x4E00;&#x822C;&#x4EBA;&#x5199;&#x7684;&#x662F;res.encoding=utf-8&#xFF0C;&#x4F46;&#x662F;&#x6709;&#x65F6;&#x5019;&#x5F88;&#x70E6;&#xFF0C;&#x8FD9;&#x53E5;&#x8BDD;&#x53EF;&#x4EE5;&#x8BF4;&#x6BD4;&#x8F83;&#x4E07;&#x80FD;&#xFF0C;&#x4E00;&#x822C;&#x4E0D;&#x4F1A;&#x51FA;&#x73B0;&#x9519;&#x8BEF;&#xFF0C;&#x8FD9;&#x4E5F;&#x662F;&#x6211;&#x4E4B;&#x524D;&#x641C;&#x5BFB;&#x5F88;&#x4E45;&#x7684;&#x7F16;&#x7801;&#x95EE;&#x9898;&#x89E3;&#x51B3;&#x65B9;&#x6CD5;&#xFF0C;&#x4E00;&#x822C;&#x5199;&#x8FD9;&#x4E2A;&#x5C31;&#x597D;&#x4E86;&#x3002;
html=etree.HTML(res.text)#&#x9875;&#x9762;&#x89E3;&#x6790;
li_list=html.xpath('')#&#x5B9A;&#x4F4D;&#x722C;&#x53D6;&#x76F8;&#x5173;&#x5185;&#x5BB9;

其实requests使用一般需要自己会抓包技术，找到对应内容的真实网址，然后对HTML进行解析提取自己想要的信息，多看看相关的视频即可，最难的也是笔者认为要命的东西就是那个提取类容部分，就是正则的使用，这个真的很重要，爬东西容易，解析东西还是比较难的，不然爬取下来不过是乱码罢了。

下边直接给大家上个例子吧，仅供学习交流使用

-*- codeing = utf-8 -*-
@Time : 2021/4/1 19:42
@Author : &#x4F60;&#x731C;
@File : &#x65B0;&#x95FB;&#x70ED;&#x70B9;&#x6574;&#x5408;&#x7248;&#x7A0B;&#x5E8F;.py
@software: PyCharm

import requests
from lxml import etree
import os
if not os.path.exists('D:/&#x65B0;&#x95FB;&#x70ED;&#x70B9;'):
    os.mkdir('D:/&#x65B0;&#x95FB;&#x70ED;&#x70B9;')
if not os.path.exists('D:/&#x65B0;&#x95FB;&#x70ED;&#x70B9;/&#x70ED;&#x70B9;&#x7F51;&#x5740;'):
    os.mkdir('D:/&#x65B0;&#x95FB;&#x70ED;&#x70B9;/&#x70ED;&#x70B9;&#x7F51;&#x5740;')
if not os.path.exists('D:/&#x65B0;&#x95FB;&#x70ED;&#x70B9;/&#x6570;&#x636E;&#x5206;&#x6790;&#x5305;'):
    os.mkdir('D:/&#x65B0;&#x95FB;&#x70ED;&#x70B9;/&#x6570;&#x636E;&#x5206;&#x6790;&#x5305;')

url="http://www.ijiandao.com/hot/media"
headers={"user-agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36"
}
res=requests.get(url=url,headers=headers)
res.encoding='utf-8'
html=etree.HTML(res.text)
li_list=html.xpath('//ul[@class="hot_new_list"]//li')
fp=open('D:/&#x65B0;&#x95FB;&#x70ED;&#x70B9;/&#x70ED;&#x70B9;&#x7F51;&#x5740;/&#x77E5;&#x4E4E;&#xFF0C;&#x6296;&#x97F3;&#xFF0C;&#x5FAE;&#x535A;&#x65B0;&#x95FB;&#x70ED;&#x70B9;.doc','w',encoding='utf-8')
fp1=open('D:/&#x65B0;&#x95FB;&#x70ED;&#x70B9;/&#x77E5;&#x4E4E;&#xFF0C;&#x6296;&#x97F3;&#xFF0C;&#x5FAE;&#x535A;&#x65B0;&#x95FB;&#x70ED;&#x70B9;.txt','w',encoding='utf-8')
fp2=open('D:/&#x65B0;&#x95FB;&#x70ED;&#x70B9;/&#x6570;&#x636E;&#x5206;&#x6790;&#x5305;/&#x77E5;&#x4E4E;&#xFF0C;&#x6296;&#x97F3;&#xFF0C;&#x5FAE;&#x535A;&#x65B0;&#x95FB;&#x70ED;&#x70B9;.xlsx','w',encoding='utf-8')
times=1
for li in li_list:
    while times>10:
        times=1
        fp.write(str("--------------"*10)+"\n"*4)
        fp1.write(str("--------------"*10)+"\n" * 4)
        fp2.write(str("--------------" * 10) + "\n" * 4)
    img_src=li.xpath('./span[2]/a/text()')
    img_href=li.xpath('./span[2]/a/@href')
    if len(img_src)>0 and len(img_href)>0:
        img_href='http://www.ijiandao.com'+img_href[0]
        fp.write(str(times)+"&#x3001;"+"\n"+str(img_src[0])+'\n'+str(img_href[0])+'\n'*2)
        fp1.write(str(times) +"&#x3001;"+ "\n"+str(img_src[0])+ '\n' * 2)
        fp2.write(str(times) + "&#x3001;"+str(img_src[0]) + '\n' * 2)
        print(str(img_src[0])+"&#x722C;&#x53D6;&#x5B8C;&#x6210;&#xFF01;&#xFF01;&#xFF01;")
        times=times+1
url="https://s.weibo.com/top/summary"
headers={"user-agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36"
}
res=requests.get(url=url,headers=headers)

res.encoding='utf-8'
html=etree.HTML(res.text)
li_list=html.xpath('//div[@class="data"]//tr')
fp=open('D:/&#x65B0;&#x95FB;&#x70ED;&#x70B9;/&#x70ED;&#x70B9;&#x7F51;&#x5740;/&#x5FAE;&#x535A;&#x65B0;&#x95FB;&#x70ED;&#x70B9;&#xFF08;&#x8BE6;&#x7EC6;&#x7248;&#xFF09;.doc','w',encoding='utf-8')
fp1=open('D:/&#x65B0;&#x95FB;&#x70ED;&#x70B9;/&#x5FAE;&#x535A;&#x65B0;&#x95FB;&#x70ED;&#x70B9;&#xFF08;&#x8BE6;&#x7EC6;&#x7248;&#xFF09;.txt','w',encoding='utf-8')
fp2=open('D:/&#x65B0;&#x95FB;&#x70ED;&#x70B9;/&#x6570;&#x636E;&#x5206;&#x6790;&#x5305;/&#x5FAE;&#x535A;&#x65B0;&#x95FB;&#x70ED;&#x70B9;&#xFF08;&#x8BE6;&#x7EC6;&#x7248;&#xFF09;.xlsx','w',encoding='utf-8')
times=1
for li in li_list:
    img_src=li.xpath('./td[2]/a/text()')
    img_href=li.xpath('./td[2]/a/@href')
    if len(img_src)>0 and len(img_href)>0:
        #fp.write(img_src+'\n')
        #print(img_src,type(img_src))
        img_href='https://s.weibo.com/top/summary'+img_href[0]
        fp.write(str(times) + "&#x3001;" + "\n" + str(img_src[0]) + '\n' + str(img_href[0]) + '\n' * 2)
        fp1.write(str(times) + "&#x3001;" + "\n" + str(img_src[0]) + '\n' * 2)
        fp2.write(str(times) + "&#x3001;" + str(img_src[0]) + '\n' * 2)
        print(str(img_src[0])+"&#x722C;&#x53D6;&#x5B8C;&#x6210;&#xFF01;&#xFF01;&#xFF01;")
        if times == 10:
            fp.write(str("--------------" * 10) + "\n" * 4)
            fp1.write(str("--------------" * 10) + "\n" * 4)
        if times == 20:
            fp.write(str("--------------" * 10) + "\n" * 4)
            fp1.write(str("--------------" * 10) + "\n" * 4)
        if times == 30:
            fp.write(str("--------------" * 10) + "\n" * 4)
            fp1.write(str("--------------" * 10) + "\n" * 4)
        if times == 40:
            fp.write(str("--------------" * 10) + "\n" * 4)
            fp1.write(str("--------------" * 10) + "\n" * 4)
        if times == 50:
            fp.write(str("--------------" * 10) + "\n" * 4)
            fp1.write(str("--------------" * 10) + "\n" * 4)
        times=times+1
url="http://top.baidu.com/buzz?b=1"
headers={"user-agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36"
}
res=requests.get(url=url,headers=headers)
res.encoding='gb2312'
html=etree.HTML(res.text)
li_list=html.xpath('//table[@class="list-table"]//tr')
fp=open('D:/&#x65B0;&#x95FB;&#x70ED;&#x70B9;/&#x70ED;&#x70B9;&#x7F51;&#x5740;/&#x767E;&#x5EA6;&#x65B0;&#x95FB;&#x70ED;&#x70B9;.doc','w',encoding='utf-8')
fp1=open('D:/&#x65B0;&#x95FB;&#x70ED;&#x70B9;/&#x767E;&#x5EA6;&#x65B0;&#x95FB;&#x70ED;&#x70B9;.txt','w',encoding='utf-8')
fp2=open('D:/&#x65B0;&#x95FB;&#x70ED;&#x70B9;/&#x6570;&#x636E;&#x5206;&#x6790;&#x5305;/&#x767E;&#x5EA6;&#x65B0;&#x95FB;&#x70ED;&#x70B9;.xlsx','w',encoding='utf-8')
times=1
for li in li_list:
    img_src=li.xpath('./td[2]/a[@href_top]/text()')
    img_href=li.xpath('./td[2]/a/@href')
    if len(img_src)>0:
        fp.write(str(times) + "&#x3001;" + "\n" + str(img_src[0]) + '\n' + str(img_href[0]) + '\n' * 2)
        fp1.write(str(times) + "&#x3001;" + "\n" + str(img_src[0]) + '\n' * 2)
        fp2.write(str(times) + "&#x3001;" + str(img_src[0]) + '\n' * 2)
        print(str(img_src[0])+"&#x722C;&#x53D6;&#x5B8C;&#x6210;&#xFF01;&#xFF01;&#xFF01;")
        if times == 10:
            fp.write(str("--------------" * 10) + "\n" * 4)
            fp1.write(str("--------------" * 10) + "\n" * 4)
            fp2.write(str("--------------" * 10) + "\n" * 4)
        if times == 20:
            fp.write(str("--------------" * 10) + "\n" * 4)
            fp1.write(str("--------------" * 10) + "\n" * 4)
            fp2.write(str("--------------" * 10) + "\n" * 4)
        if times == 30:
            fp.write(str("--------------" * 10) + "\n" * 4)
            fp1.write(str("--------------" * 10) + "\n" * 4)
            fp2.write(str("--------------" * 10) + "\n" * 4)
        if times == 40:
            fp.write(str("--------------" * 10) + "\n" * 4)
            fp1.write(str("--------------" * 10) + "\n" * 4)
            fp2.write(str("--------------" * 10) + "\n" * 4)
        if times == 50:
            fp.write(str("--------------" * 10) + "\n" * 4)
            fp1.write(str("--------------" * 10) + "\n" * 4)
            fp2.write(str("--------------" * 10) + "\n" * 4)
        times=times+1

这段代码是我之前为了练手而做的，所以年代比较久远，还是那句话，这段代码可能没有维护，所以可能有几个网站的运行不了，大家图个乐，看看思路就好，欢迎评论交流。

接下来就是selenium

selenium需要下载对应的一个驱动哈，具体操作网上找，很简单的不难，这里不赘述啦，直接上模板

from selenium import webdriver
from selenium.webdriver import ChromeOptions
import time
option = ChromeOptions()  # &#x5B9E;&#x4F8B;&#x5316;&#x4E00;&#x4E2A;ChromeOptions&#x5BF9;&#x8C61;
option.add_argument("user-agent=Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36")
option.add_experimental_option('excludeSwitches', ['enable-automation'])  # &#x4EE5;&#x952E;&#x503C;&#x5BF9;&#x7684;&#x5F62;&#x5F0F;&#x52A0;&#x5165;&#x53C2;&#x6570;
option.add_experimental_option('useAutomationExtension', False)
wd= webdriver.Chrome(executable_path='D:/chromedriver.exe', options=option)  # &#x5728;&#x8C03;&#x7528;&#x6D4F;&#x89C8;&#x5668;&#xFF0C;&#x9A71;&#x52A8;&#x65F6;&#x4F20;&#x5165;option&#x53C2;&#x6570;&#x5C31;&#x80FD;&#x5B9E;&#x73B0;undefined&#xFF0C;executable_path&#x662F;&#x5BF9;&#x5E94;&#x9A71;&#x52A8;&#x7684;&#x4F4D;&#x7F6E;&#xFF0C;&#x81EA;&#x5DF1;&#x653E;&#x54EA;&#x5199;&#x54EA;&#x5C31;&#x597D;&#x3002;options&#x662F;&#x4E00;&#x4E2A;&#x53CD;&#x722C;&#x7684;&#x4E00;&#x4E2A;&#x63AA;&#x65BD;&#xFF0C;&#x8FD9;&#x4E2A;&#x4E5F;&#x662F;&#x81EA;&#x5DF1;&#x641C;&#x7D22;&#x7684;&#x4E00;&#x4E2A;&#xFF0C;&#x76EE;&#x524D;&#x6548;&#x679C;&#x8FD8;&#x884C;&#x5427;
wd.get('')#&#x722C;&#x53D6;&#x7F51;&#x5740;&#xFF0C;

下面上案例，其实selenium爬虫就是模拟用户操作，对网页内容进行爬取，这样更加灵活，对于一些动态的渲染网页简直好用到不行，再也不用去一个一个点开包，一个一个查找相应的数据，最大的弊端就是爬取效率，此外一切都好，还有就是注意time.sleep.的使用，因为是模拟人工操作，所以对网页跳转的时间可能因网速，服务器响应等可能加载时间比较久容易报错，可以设置显性等待和隐性等待进行解决。

相关例子如下，本例子仅供参考学习交流。

from selenium import webdriver
import time
start_time=time.time()
fp = open('D:/&#x9752;&#x5E74;&#x5927;&#x5B66;&#x4E60;&#x63D0;&#x9192;/&#x540D;&#x5355;1.txt', 'w', encoding='utf-8')
fp.write('\n')
wd = webdriver.Chrome(executable_path='D:/Chromedriver.exe')
wd.get('https://jxtw.h5yunban.cn/jxtw-qndxx/admin/login.php')
wd.find_element_by_id('LAY-user-login-username').send_keys('')#&#x6A21;&#x62DF;&#x767B;&#x5F55;
time.sleep(1)
wd.find_element_by_id('LAY-user-login-password').send_keys('')#&#x6A21;&#x62DF;&#x767B;&#x5F55;
wd.find_element_by_xpath('//*[@id="LAY-user-login"]/div[1]/div[2]/div[3]/button').click()
time.sleep(2)
wd.implicitly_wait(10)
try:
    wd.find_element_by_xpath('//*[@id="LAY-system-side-menu"]//a').click()
    time.sleep(1)
except:
    wd.find_element_by_xpath('//*[@id="LAY-system-side-menu"]//a').click()
    time.sleep(1)
wd.implicitly_wait(10)#&#x9690;&#x6027;&#x7B49;&#x5F85;
i_frame = wd.find_element_by_class_name('layadmin-iframe')#&#x7A97;&#x53E3;&#x8DF3;&#x8F6C;
wd.switch_to.frame(i_frame)
time.sleep(2)
wd.find_element_by_xpath('/html/body/div[1]/div/div/div/div[2]/div[1]/div[3]/div[1]//input').click()
wd.implicitly_wait(10)
wd.find_element_by_xpath('/html/body/div[1]/div/div/div/div[2]/div[1]/div[3]/div[1]//input').clear()
time.sleep(1)
wd.find_element_by_xpath('/html/body/div[1]/div/div/div/div[2]/div[1]/div[3]/div[1]/div/div/dl/dd[53]').click()
time.sleep(1)
wd.find_element_by_xpath('//a[1]').click()
time.sleep(1)
name_list = wd.find_elements_by_xpath('/html/body/div[1]/div/div/div/div[2]/div[2]/div/div[2]/table/tbody/tr/td[6]')
time.sleep(1)
for name in name_list:
    name_new = name.text
    fp.write(name_new + '\n')
time.sleep(1)

wd.find_element_by_xpath('//a[2]').click()
time.sleep(1)
name_list = wd.find_elements_by_xpath('/html/body/div[1]/div/div/div/div[2]/div[2]/div/div[2]/table/tbody/tr/td[6]')
time.sleep(1)
for name in name_list:
    name_new = name.text
    fp.write(name_new + '\n')

好累啊，快受不了啦，大家凑合看吧哈哈，selenium注意的是，一个是那个等待时间的设置，再一个就是那个窗口的跳转wd.switch_to.frame(i_frame)，就这个，还有就是进去了一个窗口，要记得写跳出窗口的操作，网上一位老师说的很好，就是你进入一扇门，走之前要关上一扇门再离开。大概就这么多，重要的是自己要去花时间去实际操作，这样才能孰能生巧。

最后就是移动端的操作，这个需要下载安装的操作比较多，需要安装appium桌面端还有模拟器，我用的模拟器是夜神浏览器，缺点是有些app在上面装不了。大家可以自己看着来，这个一定要按照网上操作来，是需要设置环境变量的，耐心点就好了。

下面上例子

from appium import webdriver
from appium.webdriver.extensions.android.nativekey import AndroidKey
from appium.webdriver.common.touch_action import TouchAction
import time
desired_caps = {
        "platformName": "Android",
        "platformVersion": "7",
        "deviceName": "127.0.0.1:62001",
        "appPackage": "com.tencent.mobileqq",
        "appActivity": ".activity.SplashActivity",
        "noReset": True,
        'unicodeKeyboard': True# &#x4F7F;&#x7528;&#x81EA;&#x5E26;&#x8F93;&#x5165;&#x6CD5;&#xFF0C;&#x8F93;&#x5165;&#x4E2D;&#x6587;&#x65F6;&#x586B;True
    }
driver = webdriver.Remote('http://localhost:4723/wd/hub', desired_caps)
driver.implicitly_wait(5)

name=[]
with open('D:/&#x73ED;&#x7FA4;.txt','r',encoding='utf-8') as fp:
    list=fp.readlines()
    for li in list:
        li.index('\n')
        name_1=li[0:li.index('\n')]
        name.append('@%s'%name_1)
def class_enter(name):
    el6 = driver.find_element_by_id("com.tencent.mobileqq:id/input")
    el6.send_keys(name)

def class_name():
    el1 = driver.find_element_by_accessibility_id("&#x641C;&#x7D22;")
    el1.click()
    el2 = driver.find_element_by_id("com.tencent.mobileqq:id/et_search_keyword")
    el2.send_keys('')
    driver.implicitly_wait(7)
    el3 = driver.find_element_by_xpath(
        "/hierarchy/android.widget.FrameLayout/android.widget.LinearLayout/android.widget.FrameLayout/android.widget.LinearLayout/android.widget.FrameLayout/android.widget.FrameLayout/android.widget.RelativeLayout/android.widget.AbsListView/android.widget.LinearLayout[2]/android.widget.LinearLayout/android.widget.LinearLayout/android.widget.RelativeLayout/android.widget.RelativeLayout/android.widget.TextView[1]")
    el3.click()
    class_enter(name=('&#x8BF7;&#x4E0B;&#x9762;&#x540C;&#x5B66;&#x6293;&#x7D27;&#x65F6;&#x95F4;&#x5B8C;&#x6210;&#x9752;&#x5E74;&#x5927;&#x5B66;&#x4E60;%s'%name[0:]))
    # driver.find_element_by_id('com.tencent.mobileqq:id/fun_btn')
class_name()

appium这个本身很复杂，我感觉一般用不着，反正现阶段我没有用到，这个运行需要同时打开python+appium桌面端+夜神浏览器，还是比较多的，大家酌情使用吧，先这样吧，欢迎指正。

以上内容均是我个人进行总结，也许没有考虑到读者感受的地方请多多保函，海涵海涵，如有不才之处欢迎指正。

Original: https://blog.csdn.net/mobing678/article/details/123454962
Author: #一只有梦想的咸鱼#
Title: 关于爬虫技术的探讨

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/697694/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

常用的图像增强方法

大规模数据集是成功应用深度神经网络的前提。例如，我们可以对图像进行不同方式的裁剪，使感兴趣的物体出现在不同位置，从而减轻模型对物体出现位置的依赖性。我们也可以调整亮度、色彩等因素来…

人工智能 2023年6月25日
00114
【Anaconda3】笔记内容008：详解Anaconda3的安装、Conda虚拟环境创建和其他项目环境的布置

目录摘要一将电脑中的原有的Anaconda3环境删除二进行Anaconda3安装三创建虚拟环境四如何在虚拟环境中复制原项目环境五补充下conda如何更全局源 …

人工智能 2023年7月17日
0061
sklearn支持向量机（SVM）多分类问题

模型 sklearn.svm中的支持向量机：Classify： SVC、 nuSVC、 LinearSVCRegression： SVR、 nuSVR、 LinearSVR One…

人工智能 2023年7月3日
0081
Yolov5如何更换BiFPN?

🌟想了解YOLO系列算法更多教程欢迎订阅我的专栏🌟 对于基础薄弱的同学来说，推荐阅读《目标检测蓝皮书》 📘，里面涵盖了丰富的目标检测实用知识，是你迅速掌握目标检测的理想选择！如果…

人工智能 2023年7月20日
0041
RealSense D435i深度相机介绍

文章目录 * – D435i硬件结构及各个组件原理详解 – + 前言 + 一、硬件参数信息 + 二、视觉处理器D4 + 三、深度模块 + 四、红外投影仪(I…

人工智能 2023年7月26日
0062
逻辑回归（Logistic Regression)详解

逻辑回归也称作logistic回归分析，是一种广义的线性回归分析模型，属于机器学习中的监督学习。其推导过程与计算方式类似于回归的过程，但实际上主要是用来解决二分类问题（也可以解决多…

人工智能 2023年7月3日
0052
泰坦尼克号沉船数据分析与可视化、数据建模与分类预测【Python | 机器学习-Sklearn】

泰坦尼克号沉船数据之美——起于悲剧，止于浪漫前言：泰坦尼克号，不只是卡梅隆导演的经典电影，它是一个真实存在的悲剧，也是电影的故事背景与题材。作为一个IT人，分析事实还得看数据，了…

人工智能 2023年7月6日
00107
pandas DataFrame 交集并集补集

1.场景，对于colums都相同的dataframe做过滤的时候例如： df1 = DataFrame([[‘a’, 10, ‘男’], [‘b’, 11, ‘男’], [‘c’…

人工智能 2023年6月2日
0087
吴恩达2022机器学习——第二部分高级学习算法第二周笔记

目录 * – 1.Tensorflow实现 – 2.模型训练细节 – 3.Sigmoid激活函数的替代方案 – 4.如何选择激活函数…

人工智能 2023年6月15日
0067
模型蒸馏1

两种蒸馏形式：模型蒸馏（模型压缩，模型不同，特征相同）优势特征蒸馏（大模型使用全量特征，适用于模型相同，特征不同）俩种训练方式： pre-train是预先训练teacher…

人工智能 2023年6月25日
0062
python使用speech_recognition进行语音识别及响应超时的解决办法

最近想要做一个语音识别系统，在网上发现可以使用谷歌的speech_recognition做语音识别，但是问题多多。安装speech_recognition 安装大家肯定都清楚，直…

人工智能 2023年5月25日
00160
pytorch 多分类中的损失函数

前言 pytorch 中的损失函数： CrossEntropyLoss LogSoftmax NLLLoss Softmax 在多分类的时候，我们希望输出是符合概率分布的，所以利用…

人工智能 2023年7月20日
0050
Tensorflow实现CNN

定义变量 => 搭建网络 => 选定优化目标 => 如何达到目标 => 启动 => 做记录/看效果定义变量是为了承载网络的输入，tf 里面，可以是 …

人工智能 2023年5月23日
0074
一篇博客搞定移动端布局

一篇博客搞定移动端布局 * – 移动端开发 – + 相关概念 + * 屏幕相关 * – 1. 屏幕大小 – 2. 屏幕分辨率 &#8…

人工智能 2023年6月29日
0067
SVM(Support Vector Machines)支持向量机算法原理以及应用详解+Python代码实现

一、引论二、理论铺垫线性可分性（linear separability）超平面决策边界 Original: https://blog.csdn.net/master_hun…

人工智能 2023年6月23日
0064
opencv （三十四）边缘提取（拉普拉斯算子、Canny算法）

小白学视觉，笔记，扩展 Sobel 和Scharr，当对X方向求边缘，实际得到的是垂直方向的边缘信息；当对Y方向求边缘，实际得到的是水平方向的边缘信息；斜方向的边缘，X,Y方向都…

人工智能 2023年5月26日
0098

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

关于爬虫技术的探讨

大家都在看