2021年挖掘猫眼专业版电影票房数据

2023年9月3日上午4:55 • Python • 阅读 63

概述

自己看着玩玩，如有侵权，请联系我，立刻删除

爬取关键点
1.猫眼票房字体动态加密，需要破解
2.截止今日20210101-20211214，有350天左右，需要ip代理池，Proxypool，代理池搭建链接如下：
通过github搭建代理池
3.需要构造浏览器头段，user-agent
随机生成浏览器
4.猫眼专业版，中间有几天浏览器页面看不到，采用后面额外处理的方法
5.主要采用selenium+pyquer+request+无头Edge的方法

提前告知
缺点：爬取350页需要2小时，主要是留给浏览器加载JS的时间，每页留了10s

; 破解动态字体加密 font.py

关键点，需要对woff文件由一定的了解
猫眼加密文件为

使用requests，下载woff文件，
采用fontTools，获取字体编码
采用matplotlib，绘制编码出来的坐标图
采用ddddocr（一种轻便OCR），识别图像数据
最终：编码与数字对应起来， 得到编码映射字典

#font.py
from fontTools.ttLib import TTFont
import matplotlib.pyplot as plt
import numpy as np
import ddddocr
from os import remove

def get_fontdict(woff_path, woffname):
    #&#x6253;&#x5F00;woff&#x6587;&#x4EF6;,&#x83B7;&#x53D6;&#x7F16;&#x7801;&#x5217;&#x8868;&#xFF0C;&#x5B57;&#x4F53;&#x5750;&#x6807;&#x5217;&#x8868;
    base_font = TTFont(r'{}\{}'.format(woff_path, woffname))

    #&#x83B7;&#x53D6;&#x5B57;&#x4F53;&#x7F16;&#x7801;
    #['uniEA9E', 'uniE528', 'uniE4A0', 'uniF0D8', 'uniF19A', 'uniEC3C', 'uniF7BE', 'uniF702', 'uniEE91', 'uniEC82']
    font_name = base_font.getGlyphOrder()[2:]

    #&#x83B7;&#x53D6;&#x6BCF;&#x4E2A;&#x5B57;&#x4F53;&#x7F16;&#x7801;&#x5BF9;&#x5E94;&#x7684;&#x5750;&#x6807;
    zb = [base_font['glyf'][i].coordinates for i in font_name]

    #OCR
    ocr = ddddocr.DdddOcr()
    #&#x8BC6;&#x522B;&#x51FA;&#x7684;&#x6570;&#x5B57;&#x5217;&#x8868;
    font_id = []

    #&#x5C06;&#x6BCF;&#x4E2A;&#x5750;&#x6807;&#x7ED8;&#x5236;&#xFF0C;&#x7ED8;&#x5236;&#x4E24;&#x4E2A;&#x51FA;&#x6765;,&#x5E76;&#x4F7F;&#x7528;ocr&#x8FDB;&#x884C;&#x8BC6;&#x522B;&#x6570;&#x5B57;
    fig, ax = plt.subplots()
    for index, one in enumerate(zb):
        x, y = [i[0] for i in one], [i[1] for i in one]
        #plt.scatte(x, y, c='r')
        plt.plot(x, y)
        x_n = [i + np.max(x) + 100 for i in x]
        #plt.scatter(x_n, y, c='r')
        plt.plot(x_n, y)
        plt.fill(x, y, 'black')
        plt.fill(x_n, y, 'black')
        # &#x53BB;&#x8FB9;&#x6846;
        ax.spines['top'].set_visible(False)
        ax.spines['right'].set_visible(False)
        ax.spines['bottom'].set_visible(False)
        ax.spines['left'].set_visible(False)
        # &#x53BB;&#x523B;&#x5EA6;
        plt.axis('off')
        plt.fill(x, y, 'black')

        #&#x5B58;&#x50A8;&#x56FE;&#x7247;
        plt.savefig(r'{}\img-{}.png'.format(woff_path, index))
        #time.sleep(2)
        plt.close()
        #&#x8BC6;&#x522B;&#x56FE;&#x7247;
        with open(r'{}\img-{}.png'.format(woff_path, index), 'rb') as f:
            img_bytes = f.read()
            res = ocr.classification(img_bytes)
            font_id.append(res)
        #&#x5220;&#x9664;&#x56FE;&#x7247;
        remove(r'{}\img-{}.png'.format(woff_path, index))

    font_dict = {}
    for i in range(len(font_name)):
        font_dict[font_name[i].lower()] = font_id[i][0]
    return font_dict

使用及结果如下：

aa = get_fontdict(r'C:\Users\26053\Desktop\&#x8BBA;&#x6587;\Python\github\&#x732B;&#x773C;&#x4E13;&#x4E1A;&#x7248;','test.woff')
print(aa)
#{'unie0a8': '1', 'uniebad': '9', 'unie340': '4', 'unie6a7': '6', 'unieba2': '3', 'unif4a0': '0', 'unif740': '7', 'uniec65': '2', 'unif1c9': '8', 'unie804': '5'}

挖掘开始

开启IP池
搭建好proxypool后，启动，启动方式参考上面搭建IP代理池的链接

引入库

使用selenium作为浏览器爬取，所见所得
使用msedge驱动，这个地方需要自己安装msedge驱动

import selenium
from selenium import webdriver
from pyquery import PyQuery as pq
from selenium.common.exceptions import TimeoutException,NoSuchElementException
import pandas as pd
import time
import requests
from msedge.selenium_tools import EdgeOptions
from msedge.selenium_tools import Edge
from fake_useragent import UserAgent
from font import *
import re
import os

调用useragent/ip

#ua,&#x4F7F;&#x7528;&#x672C;&#x5730;&#x7684;json&#x6587;&#x4EF6;
ua = UserAgent(path=r'C:\Users\26053\Desktop\&#x8BBA;&#x6587;\Python\github\&#x957F;&#x6D25;&#x6E56;\ua.json')
#headers = {'User-Agent': ua.random}

#&#x4F7F;&#x7528;IP&#x4EE3;&#x7406;&#x6C60;&#x63A5;&#x53E3;
#5010&#xFF1A;settings&#x4E2D;&#x8BBE;&#x7F6E;&#x7684;&#x76D1;&#x542C;&#x7AEF;&#x53E3;&#xFF0C;&#x4E0D;&#x662F;Redis&#x670D;&#x52A1;&#x7684;&#x7AEF;&#x53E3;
#get:&#x76F4;&#x63A5;&#x83B7;&#x53D6;&#x4E00;&#x4E2A;&#x53EF;&#x7528;&#x4EE3;&#x7406;
#count&#xFF1A;&#x83B7;&#x53D6;&#x4EE3;&#x7406;&#x6C60;&#x4E2D;&#x53EF;&#x7528;dialing&#x7684;&#x6570;&#x91CF;
def get_proxy():
    proxy=requests.get("http://127.0.0.1:5010/get/").json().get('proxy')
    return proxy

#proxies={'http':'http://'+get_proxy()}  #requests

保存下载woff文件，获取解密后的字体
woff文件直接保存到当前文件夹路径

curr_path=os.getcwd()
#c:\Users\26053\Desktop\&#x8BBA;&#x6587;\Python\github\&#x732B;&#x773C;&#x4E13;&#x4E1A;&#x7248;

save .woff
def writeFont(font_file,woff_name):
    cur_path = r'{}\{}'.format(curr_path, woff_name)
    with open(cur_path, 'wb') as f:
        f.write(font_file)
    #print('&#x5DF2;&#x4FDD;&#x5B58;')

浏览器的page_source，解析出woff链接，使用requestsf抓取，保存下来，调用font.py，得到编码映射

def parse_font(source): #&#x53C2;&#x6570;&#x6765;&#x6E90;&#x6D4F;&#x89C8;&#x5668;&#x7684;&#x9875;&#x9762;&#x8D44;&#x6E90;
    page_font_style=source.find('#font-style-sheet').text() #&#x786E;&#x5B9A;&#x672C;&#x9875;&#x5B57;&#x4F53;&#x7684;&#x6E32;&#x67D3;&#x5BC6;&#x7801;&#x672C;&#x8FDE;&#x63A5;
    woff_url='https:' + re.search(',url\(".*\.woff"\)', page_font_style).group().split('"')[1]
    woff_name=woff_url[-13:]

    #requests&#x53C2;&#x6570;
    headers = {'User-Agent': ua.random}
    proxies={'http':'http://'+get_proxy()}  #requests
    woff_content=requests.get(url=woff_url,headers=headers,proxies=proxies).content  #&#x83B7;&#x53D6;woff&#x7684;&#x4E8C;&#x8FDB;&#x5236;&#x6587;&#x4EF6;

    #woff&#x6587;&#x4EF6;&#x4FDD;&#x5B58;&#x4E0B;&#x6765;
    writeFont(woff_content,woff_name)

    #&#x89E3;&#x6790;woff&#x6587;&#x4EF6;
    #&#x83B7;&#x53D6;&#x5B57;&#x4F53;&#x6620;&#x5C04;&#x5B57;&#x5178;
    font_dict=get_fontdict(curr_path,woff_name)  #&#x8C03;&#x7528;font.py

    #&#x89E3;&#x6790;&#x5B8C;&#x6210;&#x540E;&#xFF0C;&#x5220;&#x9664;woff&#x6587;&#x4EF6;
    remove(r'{}\{}'.format(curr_path, woff_name))
    return font_dict

提前定义我们需要的票房文本，使用字典替换

def finally_font(font_dict,data):  #&#x5B57;&#x5178;&#x7F16;&#x7801;&#x6620;&#x5C04;&#xFF0C;&#x5F85;&#x89E3;&#x6790;&#x7684;&#x6587;&#x4EF6;&#x6BB5;
    #&#x5C06;&#x5F85;&#x89E3;&#x6790;&#x7684;&#x5B57;&#x4F53;&#x4F7F;&#x7528;&#x5B57;&#x5178;&#x89E3;&#x6790;
    data = repr(data).replace(r'\u', 'uni')
    for key, value in font_dict.items():
        data = data.replace(key, value)

    return data

解析页面资源

对每一页，使用解析库PyQuery，用css选择器定位数据

def get_data(source):
    font_dict=parse_font(source)

    #&#x5F53;&#x65E5;&#x65F6;&#x95F4;
    curr_time=source.find('.cal-current').text()

    movie_list=source.find('tbody')
    amount_list=[]
    for movieinfo in movie_list.find('tr').items():
        dic={}
        dic['&#x65E5;&#x671F;']=curr_time
        dic['&#x5F71;&#x7247;']=movieinfo.find('.moviename-td').attr('title')
        dic['&#x5F53;&#x524D;&#x4FE1;&#x606F;']=movieinfo.find('.moviename-info').text()

        #&#x6309;&#x7167;&#x5B57;&#x5178;&#x6620;&#x5C04;&#xFF0C;&#x5BF9;&#x7EFC;&#x5408;&#x7968;&#x623F;&#x5B57;&#x4F53;&#x8FDB;&#x884C;&#x89E3;&#x5BC6;
        encrypt=movieinfo.find('.realtime.mtsi-num').text()
        dic['&#x7EFC;&#x5408;&#x7968;&#x623F;']=finally_font(font_dict,encrypt)

        #&#x5144;&#x5F1F;&#x8282;&#x70B9;&#xFF0C;&#x5168;&#x90E8;&#x63D0;&#x53D6;
        tdlist=movieinfo.find('.realtime.mtsi-num').siblings()
        infolist=[]
        for data in tdlist.items():
            infolist.append(data.text())

        dic['&#x7968;&#x623F;&#x5360;&#x6BD4;']=infolist[-5]
        dic['&#x6392;&#x7247;&#x573A;&#x6B21;']=infolist[-4]
        dic['&#x6392;&#x7247;&#x5360;&#x6BD4;']=infolist[-3]
        dic['&#x573A;&#x5747;&#x4EBA;&#x6B21;']=infolist[-2]
        dic['&#x4E0A;&#x5EA7;&#x7387;']  =infolist[-1]
        amount_list.append(dic)
    return amount_list

主抓取函数

确定url：猫眼专业版，初始url：https://piaofang.maoyan.com/dashboard/movie? date=2021-12-14，后面的日期变动，查看的就是当日的信息数据
确定页面翻页方式：修改后面的date，从2021-01-01一直到2021-12-15，抓取每一页
浏览器配置：selenium+edge，无头浏览器，
对每一页资源，直接调用上述的所有函数，解析出想要的数据
*额外的：猫眼专业版在2021年2月15日附近出现2天的空白时间，可能是网站在维护，没有数据
并且，抓取过程中，由于网速波动，会出现几次页面抓取不成功的情况，整体抓完之后，再重新抓那几天的数据


primary_url='https://piaofang.maoyan.com/dashboard/movie?date='
def get_source(init_url,start,end):

    #&#x65F6;&#x95F4;&#x5C5E;&#x6027;,&#x6BCF;&#x4E00;&#x9875;
    get_time=pd.date_range(start=start,end=end)
    str_time=get_time.strftime("%Y-%m-%d")

    data_list=[]
    for i in range(len(str_time)):
        url=init_url+str_time[i]

        #&#x6D4F;&#x89C8;&#x5668;&#x914D;&#x7F6E;
        edge_options = EdgeOptions()
        # &#x8BBE;&#x7F6E;&#x65E0;&#x754C;&#x9762;&#x6A21;&#x5F0F;&#xFF0C;&#x4E5F;&#x53EF;&#x4EE5;&#x6DFB;&#x52A0;&#x5176;&#x5B83;&#x8BBE;&#x7F6E;
        edge_options.use_chromium = True
        edge_options.add_argument('headless')
        #&#x4E0D;&#x51FA;&#x73B0;&#x81EA;&#x52A8;&#x6D4B;&#x8BD5;&#x5B57;&#x6837;
        edge_options.add_experimental_option('excludeSwitches', ['enable-automation'])
        browser = Edge(options=edge_options, executable_path='msedgedriver.exe')
        browser.get(url)
        time.sleep(10)

        source=pq(browser.page_source)
        try:
            data=get_data(source)
        except:
            browser.quit()
            print(str_time[i],'&#x9875;&#x9762;&#x9519;&#x8BEF;**************************')
            pass

        data_list.append(data)
        browser.quit()
        print(str_time[i],'&#x5DF2;&#x88AB;&#x83B7;&#x53D6;')

    return data_list

使用

#&#x83B7;&#x53D6;2021&#x5E74;1&#x6708;&#x5230;12&#x6708;&#x7684;&#x4FE1;&#x606F;
start='1/1/2021'
end='12/14/2021'
data_year=get_source(init_url=primary_url,start=start,end=end)

结果

#&#x63D0;&#x53D6;&#x5D4C;&#x5957;&#x5217;&#x8868;
#&#x5C06;&#x5D4C;&#x5957;&#x5217;&#x8868;&#x4E2D;&#x7684;&#x6240;&#x6709;&#x6570;&#x636E;&#x5168;&#x90E8;&#x53D6;&#x51FA;&#x6765;
datalist=[]
for item in data_year:
    if isinstance(item,list):#&#x5982;&#x679C;&#x5143;&#x7D20;&#x662F;&#x5217;&#x8868;
        for data in item:
            datalist.append(data)
    else:
        datalist.append(item)
datalist

保存为csv文件

df=pd.DataFrame(datalist)
df.to_csv('&#x732B;&#x773C;&#x4E13;&#x4E1A;&#x7248;&#x7535;&#x538B;&#x7968;&#x623F;&#x6570;&#x636E;.csv')

额外操作

由于selenium页面渲染等其他原因，中间会有几天数据抓取错误，但是使用浏览器可以重新查看，
额外如下：重获取3月17,4月19,8月28数据
重获取出错几天

start1='3/17/2021'
end1='3/18/2021'
#data_year=get_source(init_url=primary_url,start=start,end=end)
three_month=get_source(init_url=primary_url,start=start1,end=end1)

start2='4/19/2021'
end2='4/18/2021'
four_month=get_source(init_url=primary_url,start=start2,end=end2)

start3='8/28/2021'
end3='8/29/2021'
eight_month=get_source(init_url=primary_url,start=start3,end=end3)

提取出错几天数据

extend_list=[]
extend_list.extend(three_month)
extend_list.extend(four_month)
extend_list.extend(eight_month)

#&#x63D0;&#x53D6;&#x5D4C;&#x5957;&#x5217;&#x8868;
#&#x5C06;&#x5D4C;&#x5957;&#x5217;&#x8868;&#x4E2D;&#x7684;&#x6240;&#x6709;&#x6570;&#x636E;&#x5168;&#x90E8;&#x53D6;&#x51FA;&#x6765;
extendlist=[]
for item in extend_list:
    if isinstance(item,list):#&#x5982;&#x679C;&#x5143;&#x7D20;&#x662F;&#x5217;&#x8868;
        for data in item:
            extendlist.append(data)
    else:
        extendlist.append(item)
extendlist

将重获取的数据与前面的数据在竖直方向合并，生成最终的结果文件

extend_df=pd.DataFrame(extendlist)
finally_data=pd.concat([df,extend_df],axis=0) #&#x7AD6;&#x65B9;&#x5411;&#x5408;&#x5E76;
finally_data.to_csv('&#x732B;&#x773C;&#x4E13;&#x4E1A;&#x7248;&#x7535;&#x538B;&#x7968;&#x623F;&#x6570;&#x636E;_finally.csv')

Original: https://blog.csdn.net/qh_aichun/article/details/121933382
Author: 铁憨憨0304
Title: 2021年挖掘猫眼专业版电影票房数据

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/766688/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

np.expand_dims

np.expand_dims（维度dimension）的作用：假设有一张灰度图，读取之后的shape是( 360， 480)，而模型的输入要求是( 1, 360 , 480 ) …

Python 2023年8月1日
0051
TF-IDF算法(原理+python代码实现）

### 回答1： TF-IDF 算法_是一种常用的文本处理 _算法，可以用于计算文本中每个单词的重要程度。在 Python_中，可以使用scikit-learn库来 _实现 TF-…

Python 2023年11月5日
0056
深度学习参数介绍&作用（持续更新）

提示：本博客是&#…

Python 2023年10月7日
0057
UCI数据集详解及其数据处理（附148个数据集及处理代码）

摘要：本文对机器学习中的 _UCI_数据集进行介绍，带你从 _UCI_数据集官网出发一步步深入认识数据集，并就下载的原始数据详细讲解了不同类型的数据集整理如何通过程序进行整理。为了…

Python 2023年10月28日
0053
【OpenAI】基于 Gym-CarRacing 的自动驾驶项目 | 车道检测功能的实现 | 边缘检测与分配 | 样条拟合

💭 写在前面：本篇是关于多伦多大学自动驾驶专业项目的博客。GYM-Box2D CarRacing 是一种在 OpenAI Gym 平台上开发和比较强化学习算法的模拟环境。它是流行…

Python 2023年11月6日
0051
Pandas（二）—— 索引、分组

Python模块 —— Pandas Pandas（二）—— 索引、分组 * 三、索引 – 3.1 索引器 + 3.1.1 列索引、行索引 3.1.2 loc索引器、i…

Python 2023年8月7日
0076
智慧供应链的学习笔记（库存管理、配补货、仓间调拨、控制塔等）

文章目录 1 供应链集成系统案例 * 1.1 京东物流一体化供应链 – 1.1.1 算法中台 1.1.2 易卜工程化平台 1.2 美团：到店供应链及商品平台建设实践 2…

Python 2023年9月28日
0060
图像分类方法总结

1. 图像分类问题描述图像分类问题是计算机视觉领域的基础问题，它的目的是根据图像的语义信息将不同类别图像区分开来，实现最小的分类误差。具体任务要求是从给定的分类集合中给图像分配一…

Python 2023年10月8日
0052
pytorch加速下载（conda与pip）

1.前言工作环境中，因为环境统一升级，会出现torch和cuda版本不对应的现象，就需要根据服务器的cuda版本，下载相对应的pytorch。使用Start Locally | …

Python 2023年9月8日
0051
NSGA2、NSGA-II实现、基于分配的多目标进化-Python

算法流程： P：父辈种群Q：子辈种群R：P并上Q -》之后依据偏序关系进行排序在实际上，能在原来数组上改就到原来数组上改，要产生新的那就产生新的，分配一次内存时间应该影响不大，…

Python 2023年10月28日
0033
使用scrapy爬取糗事百科的的段子,并保存到redis

爬取的初始网址是: https://www.qiushibaike.com/text/page/1/ 首先需要创建项目 cd 目录路径进入到对应的目录然后使用下面的代码进行创建 s…

Python 2023年10月2日
0057
python numpy 交换两列或者两行数据

交换numpy数据两列的值，交换两行的值类似 a = np.random.random((5, 2)) print(a) a[:, [0, 1]] = a[:, [1, 0]] p…

Python 2023年8月23日
0074
Python 万能代码模版：爬虫代码篇

你好，我是悦创。很多同学一听到 Python 或编程语言，可能条件反射就会觉得”很难”。但今天的 Python 课程是个例外，因为今天讲的 Python …

Python 2023年8月3日
0069
Python实现房产数据分析与可视化数据分析实战

Python库的选择话说，工欲善其事，必先利其器，虽然我们已经选择Python来完成剩余的工作，但是我们需要考虑具体选择使用Pytho的哪些利器来帮助我们更快更好地完成剩余的工作…

Python 2023年7月31日
0069
【python游戏制作】僵尸来袭 ~ 快来一起创造植物叭~

前言哈喽！大家好，我是魔王呐~ 看到下面这一段话，大家是不是会想起你在某种时候玩过的一款游戏呐~ 一魅惑菇晃着脑袋生产阳光的向日葵，突突突吐着子弹的豌豆射手！行动迟缓种类丰…

Python 2023年8月2日
0052
主机访问在虚拟机上运行的项目

介绍本文环境二以centos7.5介绍环境三以ubuntu20.04介绍方式二环境：python3.6+django2.2 方式三环境：python3.6+flask(dja…

Python 2023年8月4日
0037

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31