【毕业设计】基于大数据的电影数据爬取分析可视化系统

2023年7月16日下午2:18 • 人工智能 • 阅读 53

文章目录

0 前言
1 课题背景
2 项目效果展示
*
2.1 主界面展示
2.2电影数据查询
2.3可视化展示
3 数据爬取
*
3.1 Requests
3.2 bs4
3.3 MySQL数据库
4 可视化技术
*
4.1 Flask
4.2 ECharts
补充：不做成web系统
5 最后

0 前言

🔥 这两年开始毕业设计和毕业答辩的要求和难度不断提升，传统的毕设题目缺少创新和亮点，往往达不到毕业答辩的要求，这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师的要求。

为了大家能够顺利以及最少的精力通过毕设，学长分享优质毕业设计项目，今天要分享的是

🚩 基于大数据的电影数据爬取分析可视化系统

🥇学长这里给一个题目综合评分(每项满分5分)

难度系数：4分
工作量：4分
创新点：3分

🧿 选题指导, 项目分享：

https://gitee.com/dancheng-senior/project-sharing-1/blob/master/%E6%AF%95%E8%AE%BE%E6%8C%87%E5%AF%BC/README.md

1 课题背景

随着互联网的快速发展，越来越多的人喜欢在微博、知乎、豆瓣等社交网站上发表自己对某些事物的想法、态度或意见。用户同时也会将自己购买的产品或体验到的服务，在这些社区式的网站上评价，这样通常会带动他人也前去购买或体验，形成口碑效应。

社交应用及网站上有源源不断的信息发布，这些信息中隐含着大量对我们及企业有收集价值的资源。就像用户评分和评价系统中，用户不但会对作品进行评比，还分享和传播了作品信息。如果能够获取这些数据并对其进行分析，可以让人们挑选到满意的书籍、选择出一部精彩的电影，也可以帮助企业改进产品的服务等。使用爬虫程序可以高效地对社交网站上的信息进行收集、组织和管理。豆瓣网作为社交网站的代表，提供了在图书、电影和音乐等方面独树一帜的评分、推荐及比价体系，在社交网络中产生了深远的影响。

2 项目效果展示

2.1 主界面展示

; 2.2电影数据查询

管理员可对电影数据进行查询，可根据”最低评分”，”最高评分”，”上映年份”，”电影类型”，”上映地区”，”影名关键字”等标签进行筛选、查询。

2.3可视化展示

电影类型矩形图：可以清楚的看到剧情，纪录片，喜剧类型的电影所占比重较大。

上映年份漏斗图：可以看到中国、美国上映地区较多。

上映年份分布、电影评分分布图。

时间轴图：可随年份动态变化效果。

地区类型分布饼状图

频数统计词云图：可根据主演、导演、编剧和电影排名生成相应的词云图

; 3 数据爬取

3.1 Requests

requests是Python用于网络请求的第三库，也是爬虫获取网络数据的重要工具，使用的时候需要导入

本项目中相关代码：

import requests
from bs4 import BeautifulSoup
from lxml import html

etree = html.etree
import csv

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36"
}
hrefs = []

def get_film_url(url):
    try:
        r = requests.get(url, headers=headers)
        selector = etree.HTML(r.text)
        movie_hrefs = selector.xpath('//div[@class="hd"]/a/@href')
        for i in range(0, len(movie_hrefs)):
            hrefs.append(movie_hrefs[i])
    except Exception as e:
        print(e)

def save_url():
    try:

        for href in hrefs:

            file_path = "./豆瓣电影TOP250链接.csv"
            with open(file_path, "a+", newline='', encoding='gb18030') as csvfile:
                writer = csv.writer(csvfile)
                writer.writerow([href])
    except Exception as e:
        print(e)

def main():

    for i in range(0, 250, 25):
        url = "https://movie.douban.com/top250?start=" + str(i) + ""
        get_film_url(url)
    save_url()

if __name__ == '__main__':
    main()

3.2 bs4

bs4即BeautifulSoup，是python种的一个库，最主要的内容就是从网页中抓取数据。

Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整的应用程序。

Beautiful Soup自动将输入文档转换为Unicode编码，输出文档转换为utf-8编码。你不需要考虑编码方式，除非文档没有指定一个编码方式，这时，Beautiful Soup就不能自动识别编码方式了。然后，你仅仅需要说明一下原始编码方式就可以了。

Beautiful Soup已成为和lxml、html6lib一样出色的python解释器，为用户灵活地提供不同的解析策略或强劲的速度。

3.3 MySQL数据库

利用Pymysql，将爬取到的数据存入数据库中，相关代码如下：


        conn = pymysql.connect(host='127.0.0.1', port=3306, user='root', passwd='123456', db='douban', charset='utf8')

        cursor = conn.cursor()

        query = 'insert into tb_film(url, filmname, score, showtime, genres, areas, directors, scriptwriters, actors, comments) values(%s,%s,%s,%s,%s,%s,%s,%s,%s,%s)'

        values = (
            url, filmname, score, showtime, genres_list, area_list,  directors_list, scriptwriters_list,
            actors_list,
            comment)
        cursor.execute(query, values)

        conn.commit()

4 可视化技术

4.1 Flask

Flask是一个基于Werkzeug和Jinja2的轻量级Web应用程序框架。与其他同类型框架相比，Flask的灵活性、轻便性和安全性更高，而且容易上手，它可以与MVC模式很好地结合进行开发。Flask也有强大的定制性，开发者可以依据实际需要增加相应的功能，在实现丰富的功能和扩展的同时能够保证核心功能的简单。Flask丰富的插件库能够让用户实现网站定制的个性化，从而开发出功能强大的网站。

本项目在Flask开发后端时，前端请求会遇到跨域的问题，解决该问题有修改数据类型为jsonp，采用GET方法，或者在Flask端加上响应头等方式，在此使用安装Flask-CORS库的方式解决跨域问题。此外需要安装请求库axios。

部分相关代码：

from flask import Flask
from flask import request, redirect
from flask import render_template, url_for
from flask_paginate import Pagination
from sqlalchemy import create_engine,Column,Integer,SmallInteger,String
from sqlalchemy import create_engine
from sqlalchemy.orm import sessionmaker
from sqlalchemy.ext.declarative import declarative_base
from flask_sqlalchemy import SQLAlchemy
db = SQLAlchemy()
from list_data import select_score, select_showtime, select_genres, select_areas, film_data
from genres import show_genres
from areas import show_areas
from showtime import show_showtime
from score import show_score
from timeline_score import show_score_top
from timeline_comment import show_comment_top
from select_showtime import select_showtime
from select_showtime import showtime_group
from film_search import film_search

app = Flask(__name__)
app.jinja_env.auto_reload = True
app.config['TEMPLATES_AUTO_RELOAD'] = True

engine = create_engine("mysql+pymysql://root:123456@localhost:3306/douban?charset=utf8",echo = True)

Session =sessionmaker(bind=engine)
session =Session

Base = declarative_base()

class Film(Base):

    __tablename__= 'tb_film'

    id = Column(Integer,primary_key=True,autoincrement=True)
    url =Column(String(250))
    filmname =Column(String(50))
    score =Column(String)
    comments =Column(Integer)
    showtime =Column(Integer)
    genres =Column(String(20))
    areas =Column(String(20))
    actors =Column(String(50))
    directors =Column(String(50))
    scriptwriters =Column(String(50))

@app.route('/')
def index():

    return render_template('login.html')

@app.route('/register')
def register():

    return render_template('register.html')

@app.route('/index')
def welcom2index():

    return render_template('index.html')

@app.route('/welcome')
def welcome():
    print('done')
    return render_template('pages/welcome.html')

@app.route("/page_none")
def page_none():
    return render_template('page_none')

@app.route('/login', methods=['POST'])

def login():
    print(request.form['username'])

    if request.form['username'] == 'admin' and request.form['password'] == '123456':
        return render_template('index.html')

@app.route("/list")
@app.route("/list/")
def list(limit=10):

    t_low = select_score()[0]
    t_high = select_score()[1]
    t_showtime = select_showtime()
    t_genres = select_genres()
    t_areas = select_areas()

    page = int(request.args.get("page", 1))
    start = (page - 1) * limit
    if request.args.get("low") or request.args.get("high") or request.args.get("showtime") or request.args.get("areas") or request.args.get("genres") or request.args.get("filmname"):

        r_low = request.args.get("low")
        r_high = request.args.get("high")
        r_showtime = request.args.get("showtime")
        r_genres = request.args.get("genres")
        r_areas = request.args.get("areas")
        r_filmname = request.args.get("filmname")

        print("参数：{},{},{},{},{}".format(r_low, r_high, r_showtime, r_genres, r_areas,r_filmname))
        print("参数1：{}".format(type(r_low)))
        print("参数2：{}".format(len(r_low)))
        r_films = film_data(low=r_low, high=r_high, showtime=r_showtime, genres=r_genres, areas=r_areas, filmname=r_filmname)[0]
        r_row = film_data(low=r_low, high=r_high, showtime=r_showtime, genres=r_genres, areas=r_areas, filmname=r_filmname)[1]

        r_end = page * limit if r_row > page * limit else r_row
        r_paginate = Pagination(page=page, total=r_row)
        r_ret = r_films[start:r_end]
        return render_template('pages/order/list.html', low=t_low, high=t_high, showtime=t_showtime, genres=t_genres,
                           areas=t_areas, films=r_ret, row=r_row,paginate=r_paginate)
    else:

        films = film_data()[0]
        row = film_data()[1]
        end = page * limit if row > page * limit else row
        paginate = Pagination(page=page, total=row)
        ret=films[start:end]
        print("res:{}".format(ret))
        return render_template('pages/order/list.html', low=t_low, high=t_high, showtime=t_showtime, genres=t_genres,
                           areas=t_areas, films=ret,row=row, paginate=paginate)

4.2 ECharts

ECharts（Enterprise Charts）是百度开源的数据可视化工具，底层依赖轻量级Canvas库ZRender。兼容了几乎全部常用浏览器的特点，使它可广泛用于PC客户端和手机客户端。ECharts能辅助开发者整合用户数据，创新性的完成个性化设置可视化图表。支持折线图（区域图）、柱状图（条状图）、散点图（气泡图）、K线图、饼图（环形图）等，通过导入 js 库在 Java Web 项目上运行。

数据预览

import pandas as pd
import json

credits = pd.read_csv('./tmdb_5000_credits.csv')
print('credits:\n', credits)
print('*' * 100)
print('credits:\n', credits.columns)
print('*' * 100)
print('credits:\n', credits.info())
print('*' * 100)

movies = pd.read_csv('./tmdb_5000_movies.csv')
print('movies:\n', movies)
print('#' * 100)
print('movies:\n', movies.columns)
print('#' * 100)
print('movies:\n', movies.info())
print('#' * 100)

合并数据集

先将 credits 数据集和 movie 数据集中的数据合并在一起，再查看合并后的数据集信息

代码实现：


credits.rename(columns={'movie_id': 'id'}, inplace=True)

all_data = pd.merge(left=credits, right=movies, on=['id', 'title'], how='outer')
print('all_data:\n', all_data)
print('all_data:\n', all_data.columns)
print('all_data:\n', all_data.dtypes)

选取子集

由于数据集中包含的信息过多，其中部分数据并不是我们研究的重点，所以从中选取我们需要的数据：

代码实现：


all_data = all_data['original_title', 'crew', 'release_date', 'genres', 'keywords',
                    'production_companies', 'production_countries', 'revenue',
                    'budget', 'runtime', 'vote_average']
print('all_data的列索引：\n', all_data.columns)
print('all_data的形状：\n', all_data.shape)

由于后面的数据分析涉及到电影类型的利润计算，先求出每部电影的利润，并在数据集 data 中增加 profit 数据列

代码实现：


all_data['profit'] = all_data['revenue'] - all_data['budget']
print('all_data的列索引：\n', all_data)
print('all_data的形状：\n', all_data)

缺失值处理

代码实现：


res_null = pd.isnull(all_data).sum()
print('缺失值检测结果：\n', res_null)

mask = all_data.loc[:, 'release_date'].isnull()

movie_name = all_data.loc[mask, 'title']
print('缺失上映日期的电影名称为：\n', movie_name)

all_data.loc[mask, 'release_date'] = '2014-06-01'

all_data.loc[:, 'release_date'] = pd.to_datetime(all_data.loc[:, 'release_date'])

all_data.loc[:, 'release_year'] = all_data.loc[:, 'release_date'].dt.year

通过上面的结果信息可以知道：整个数据集缺失的数据比较少。其中 release_date（首次上映日期）缺失 1 个数据,可以通过网上查询补齐这个数据，填补 release_date（首次上映日期）数据

数据格式转换

genres 列数据处理：

代码实现：


print('电影风格：\n', all_data.loc[:, 'genres'])

all_data.loc[:, 'genres'] = all_data.loc[:, 'genres'].transform(json.loads)

all_movie_type = set()

def get_movie_type(val):
"""
    获取电影类型
    :param val: 数据
    :return: 提取之后的电影类型数据
"""

    type_list = []

    for item in val:

        if item:

            movie_type = item['name']

            type_list.append(movie_type)

            all_movie_type.add(movie_type)

    return ','.join(type_list)

all_data.loc[:, 'genres'] = all_data.loc[:, 'genres'].transform(get_movie_type)

print('获取电影类型之后的结果：\n', all_data.loc[:, 'genres'])

all_movie_type = list(all_movie_type)

for column in all_movie_type:

    all_data.loc[:, column] = 0

    mask = all_data.loc[:, 'genres'].str.contains(column)

    all_data.loc[mask, column] = 1

print('all_data:\n', all_data)

数据可视化

绘制电影数据类型随时间变化趋势图

import matplotlib.pyplot as plt

plt.figure()

plt.rcParams['font.sans-serif'] = 'SimHei'

plt.rcParams['axes.unicode_minus'] = False

x = groupby_year.index
for movie_type in groupby_year.columns:

    y = groupby_year[movie_type]

    plt.plot(x, y)

plt.title('电影数据类型随时间变化趋势图')

plt.legend(groupby_year.columns, fontsize='x-small')

plt.ylabel('数量')

plt.xlabel('年份')

plt.grid(b=True, alpha=0.2)

plt.savefig('./电影数据类型随时间变化')

plt.show()

分析结论：从图中观察到，随着时间的推移，所有电影类型都呈现出增长趋势，尤其是 1992 年以后各个类型的电影均增长迅速，其中 Drama(戏剧)和 Comedy(喜剧)增长最快，目前仍是最热门的电影类型

绘制各种类型电影数量的统计柱状图

绘制各种电影类型的占比饼图

电影类型平均利润数据可视化


bar = Bar(

    init_opts=opts.InitOpts(
        width='900px',
        height='600px',
        theme="white"
    )
)

bar.add_xaxis(
    xaxis_data=res_series.index.tolist()
)

bar.add_yaxis(
    series_name=' ',
    yaxis_data=[float('%.2f' % i) for i in (res_series / 1000000)],
    color='#6495ED'
)

bar.set_global_opts(

    title_opts=opts.TitleOpts(
        title='各种电影类型利润统计柱状图',

        pos_left='center',
        pos_top='3%'
    ),

    legend_opts=opts.LegendOpts(
        is_show=False,
    ),

    xaxis_opts=opts.AxisOpts(
        name='利润(百万)'
    ),

    yaxis_opts=opts.AxisOpts(
        name='电影类型'
    )
)

bar.set_series_opts(
    label_opts=opts.LabelOpts(
        is_show=True,
        position='right',
        color='#000000',
        formatter='{c}'
    )
)

bar.reversal_axis()

bar.render('./各种电影类型利润统计柱状图.html')

分析结论：

从图中观察到，拍摄 Animation、Adventure、Fantasy 这三类电影盈利最好，而拍摄 Foreign、TV Movie 这两类电影会存在亏本的风险

未完待续。。。。。。

补充：不做成web系统

数据预览

import pandas as pd
import json

credits = pd.read_csv('./tmdb_5000_credits.csv')
print('credits:\n', credits)
print('*' * 100)
print('credits:\n', credits.columns)
print('*' * 100)
print('credits:\n', credits.info())
print('*' * 100)

movies = pd.read_csv('./tmdb_5000_movies.csv')
print('movies:\n', movies)
print('#' * 100)
print('movies:\n', movies.columns)
print('#' * 100)
print('movies:\n', movies.info())
print('#' * 100)

合并数据集

先将 credits 数据集和 movie 数据集中的数据合并在一起，再查看合并后的数据集信息

代码实现：


credits.rename(columns={'movie_id': 'id'}, inplace=True)

all_data = pd.merge(left=credits, right=movies, on=['id', 'title'], how='outer')
print('all_data:\n', all_data)
print('all_data:\n', all_data.columns)
print('all_data:\n', all_data.dtypes)

选取子集

由于数据集中包含的信息过多，其中部分数据并不是我们研究的重点，所以从中选取我们需要的数据：

代码实现：


all_data = all_data['original_title', 'crew', 'release_date', 'genres', 'keywords',
                    'production_companies', 'production_countries', 'revenue',
                    'budget', 'runtime', 'vote_average']
print('all_data的列索引：\n', all_data.columns)
print('all_data的形状：\n', all_data.shape)

由于后面的数据分析涉及到电影类型的利润计算，先求出每部电影的利润，并在数据集 data 中增加 profit 数据列

代码实现：


all_data['profit'] = all_data['revenue'] - all_data['budget']
print('all_data的列索引：\n', all_data)
print('all_data的形状：\n', all_data)

缺失值处理

代码实现：


res_null = pd.isnull(all_data).sum()
print('缺失值检测结果：\n', res_null)

mask = all_data.loc[:, 'release_date'].isnull()

movie_name = all_data.loc[mask, 'title']
print('缺失上映日期的电影名称为：\n', movie_name)

all_data.loc[mask, 'release_date'] = '2014-06-01'

all_data.loc[:, 'release_date'] = pd.to_datetime(all_data.loc[:, 'release_date'])

all_data.loc[:, 'release_year'] = all_data.loc[:, 'release_date'].dt.year

数据格式转换

genres 列数据处理：

代码实现：


print('电影风格：\n', all_data.loc[:, 'genres'])

all_data.loc[:, 'genres'] = all_data.loc[:, 'genres'].transform(json.loads)

all_movie_type = set()

def get_movie_type(val):
"""
    获取电影类型
    :param val: 数据
    :return: 提取之后的电影类型数据
"""

    type_list = []

    for item in val:

        if item:

            movie_type = item['name']

            type_list.append(movie_type)

            all_movie_type.add(movie_type)

    return ','.join(type_list)

all_data.loc[:, 'genres'] = all_data.loc[:, 'genres'].transform(get_movie_type)

print('获取电影类型之后的结果：\n', all_data.loc[:, 'genres'])

all_movie_type = list(all_movie_type)

for column in all_movie_type:

    all_data.loc[:, column] = 0

    mask = all_data.loc[:, 'genres'].str.contains(column)

    all_data.loc[mask, column] = 1

print('all_data:\n', all_data)

数据可视化

绘制电影数据类型随时间变化趋势图

import matplotlib.pyplot as plt

plt.figure()

plt.rcParams['font.sans-serif'] = 'SimHei'

plt.rcParams['axes.unicode_minus'] = False

x = groupby_year.index
for movie_type in groupby_year.columns:

    y = groupby_year[movie_type]

    plt.plot(x, y)

plt.title('电影数据类型随时间变化趋势图')

plt.legend(groupby_year.columns, fontsize='x-small')

plt.ylabel('数量')

plt.xlabel('年份')

plt.grid(b=True, alpha=0.2)

plt.savefig('./电影数据类型随时间变化')

plt.show()

绘制各种类型电影数量的统计柱状图

绘制各种电影类型的占比饼图

电影类型平均利润数据可视化


bar = Bar(

    init_opts=opts.InitOpts(
        width='900px',
        height='600px',
        theme="white"
    )
)

bar.add_xaxis(
    xaxis_data=res_series.index.tolist()
)

bar.add_yaxis(
    series_name=' ',
    yaxis_data=[float('%.2f' % i) for i in (res_series / 1000000)],
    color='#6495ED'
)

bar.set_global_opts(

    title_opts=opts.TitleOpts(
        title='各种电影类型利润统计柱状图',

        pos_left='center',
        pos_top='3%'
    ),

    legend_opts=opts.LegendOpts(
        is_show=False,
    ),

    xaxis_opts=opts.AxisOpts(
        name='利润(百万)'
    ),

    yaxis_opts=opts.AxisOpts(
        name='电影类型'
    )
)

bar.set_series_opts(
    label_opts=opts.LabelOpts(
        is_show=True,
        position='right',
        color='#000000',
        formatter='{c}'
    )
)

bar.reversal_axis()

bar.render('./各种电影类型利润统计柱状图.html')

🧿 选题指导, 项目分享：

https://gitee.com/dancheng-senior/project-sharing-1/blob/master/%E6%AF%95%E8%AE%BE%E6%8C%87%E5%AF%BC/README.md

5 最后

Original: https://blog.csdn.net/HUXINY/article/details/125845148
Author: DanCheng-studio
Title: 【毕业设计】基于大数据的电影数据爬取分析可视化系统

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/696575/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

模型训练完准确率为0的解决方法,以及模型验证方法(resize和reshape区别)

目录模型训练完准确率一直为0 完整的模型验证套路：test reshape和reszie的区别 debug方法模型训练完准确率一直为0 计算准确率或者输出看loss、准确率时，…

人工智能 2023年7月21日
0062
可变形卷积（DCN）

可变形卷积即DCN（全称为Deformable Conv）提出于ICCV 2017的一篇文章: Deformable Convolutional Networks 论文paper地…

人工智能 2023年6月16日
0051
常用的数据清洗方法学习笔记（全面、完整）

常用的数据清洗方法在数据处理过程中，一般都需要进行数据的处理工作，如数据集是否存在重复、是否存在缺失、数据是否具有一定的完整性和一致性、数据中是否存在异常值等，当发现数据中可能存…

人工智能 2023年7月17日
0056
数仓的一些重要知识，数据域、业务过程、度量、指标、维度、命名规则

数仓的一些重要知识，数据域、业务过程、度量、指标、维度、命名规则规范定义指以维度建模作为里理论基础，构建总线矩阵，划分和定义数据域、业务过程、维度、度量、原子指标、修饰类型、修饰…

人工智能 2023年6月19日
0060
基于Python是疫情期间教育领域新闻知识图谱分析

目录第一章数据抓取与文本提取 11.1数据抓取 11.1.1网页链接定位 11.1.2 获取新闻信息 11.1.3 文件写入 11.1.4 爬取结果展示 21.2 分词 31.3…

人工智能 2023年6月4日
0063
yolov5检测图片用detect.py

一、检测问题解决今天在用detect.py以及自己训练的模型检测图片时，遇到了一些问题，在这总结一下子1、修改代码看下面这段代码，是yolo.py中的Model类中的forwar…

人工智能 2023年7月22日
0053
opencv中的SIFT

最近需要使用opencv里的SIFT算法查了网上的教程，安装了opencv_contrib扩展模块大致通过如下形式的语句调用： xfeatures2d::SIFT::creat…

人工智能 2023年7月20日
0053
计算机视觉之边缘提取

目录复习一、边缘提取 * 1、什么是边缘？ 2、什么是边缘提取？ – (1)边缘检测 (2)高频信号&低频信号 (3)边缘检测的原理和步骤 (4)图像锐化 …

人工智能 2023年6月18日
0078
Win10 OpenCV编译安装CUDA版本

Win10 + Microsoft Visual Studio Community 2017 + CUDA11.3 + CUDNN8.2 + RTX GeForce 3090 + …

人工智能 2023年6月19日
0086
随机森林分类+随机森林回归+实例：用随机森林回归填补缺失值+机器学习调参思想+实例：随机森林在乳腺癌数据上的调参

文章目录一、集成算法概述二、重要参数 * 1、控制基评估器的参数 2、n_estimators 3、random_state 4、bootstrap & oob_sco…

人工智能 2023年6月17日
0074
目标检测模型开发文档v1.0

目标检测模型的数据准备、训练和预测过程开发文档开发步骤：一：数据采集与数据标注二：训练模型三：测试模型代码文件：yolo4_tiny.py，CSPdarknet53_tiny….

人工智能 2023年7月19日
0043
Attention及其pytorch代码实现

基于RNN的Seq2Seq的基本假设：原始序列的最后一个隐含状态（一个向量）包含了该序列的全部信息。 （这显&am…

人工智能 2023年6月16日
0084
Excel数据分析—制作客户画像

客户画像——关于客户多方面特征或信息的描述集合（1）一种分类描述客户的方式，通过对海量用户数据的分析进行更多信息的提取，帮助解决如何把数据转化为商业价值的问题。（2）构建客户画…

人工智能 2023年7月16日
00125
云GPU（恒源云）训练的具体操作流程

简介这篇博客主要讲一下怎么使用云服务器上的GPU跑程序，主要是一些设置和操作步骤，具体的训练步骤可以看我的另一篇博客。以下步骤可能会有遗漏，也可能和你们有一些差别，有什么问题可…

人工智能 2023年6月16日
00147
pandas计算某列每行带有分隔符的数据中包含特定值的次数

某次做一个数据的处理，要计算用户的粉丝数量，数据集大概是这样的：传播节点微博用户id关注用户idsae26e5e3db7626dcaf6819ce5492d534″0…

人工智能 2023年7月8日
0072
2021电赛F题送药小车视觉部分的一种思路（双OpenMV法）

使用两块OpenMV解答送药小车视觉部分前言：最近参加了2021年电赛的F题，因为诸多原因未能完赛，现将图像识别部分的记录一下，交流学习。目录使用两块OpenMV解答送药小车…

人工智能 2023年6月2日
0082

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

【毕业设计】基于大数据的电影数据爬取分析可视化系统

文章目录

2.1 主界面展示

; 2.2电影数据查询

2.3可视化展示

3.1 Requests

3.2 bs4

3.3 MySQL数据库

4.1 Flask

4.2 ECharts

补充：不做成web系统

大家都在看