一、爬虫项目
1、爬虫基础
a、网页上面会有相同的数据
b、去重处理
布隆过滤器
哈希存储
c、标签匹配:
正则表达式
beautiful soup或lxml这种标签提取库
d、动态内容
phantomjs
selenium
二、爬豆瓣网电影
网站地址:https://www.douban.com/
准备工作:
1、在数据库中创建表
movie.sql
movie_info;gutter:false;
CREATE TABLE(
idint(10) unsigned NOT NULL AUTO_INCREMENT,
movie_idint(11) unsigned NOT NULL COMMENT '电影id',
movie_namevarchar(100) COMMENT '电影名称',
movie_picvarchar(200) COMMENT '电影图片',
movie_directorvarchar(50) COMMENT '电影导演',
movie_writervarchar(50) COMMENT '电影编剧',
movie_countryvarchar(50) COMMENT '电影产地',
movie_languagevarchar(50) COMMENT '电影语言',
movie_main_charactervarchar(50) COMMENT '电影主演',
movie_typevarchar(50) COMMENT '电影类型',
movie_on_timetimestamp DEFAULT '0000-00-00 00:00:00' COMMENT '电影上映时间',
movie_spanvarchar(20) COMMENT '电影时长',
movie_gradevarchar(5) COMMENT '电影评分',
remarkvarchar(500) DEFAULT '' COMMENT '备注',
_create_timetimestamp NOT NULL DEFAULT '0000-00-00 00:00:00' COMMENT '创建时间',
_modify_timetimestamp NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP COMMENT '修改时间',
_statustinyint(1) DEFAULT '1',
id
PRIMARY KEY (),
idx_movie_id
KEY(
movie_id),
idx_create_time
KEY(
_create_time),
idx_modify_time
KEY(
_modify_time)
) ENGINE=InnoDB AUTO_INCREMENT=20 DEFAULT CHARSET=utf8 COMMENT='电影信息表';</p>
<pre><code>
2、创建一个新项目
;gutter:false;
D:\GoFiles\src\web>bee new crawl_movice
______
| ___ \
| |_/ / ___ ___
| ___ \ / _ \ / _ \
| |_/ /| __/| __/
\____/ \___| \___| v1.10.0
2019/02/16 10:49:19 INFO ▶ 0001 Creating application…
create D:\GoFiles\src\web\crawl_movice\
create D:\GoFiles\src\web\crawl_movice\conf\
create D:\GoFiles\src\web\crawl_movice\controllers\
create D:\GoFiles\src\web\crawl_movice\models\
create D:\GoFiles\src\web\crawl_movice\routers\
create D:\GoFiles\src\web\crawl_movice\tests\
create D:\GoFiles\src\web\crawl_movice\static\
create D:\GoFiles\src\web\crawl_movice\static\js\
create D:\GoFiles\src\web\crawl_movice\static\css\
create D:\GoFiles\src\web\crawl_movice\static\img\
create D:\GoFiles\src\web\crawl_movice\views\
create D:\GoFiles\src\web\crawl_movice\conf\app.conf
create D:\GoFiles\src\web\crawl_movice\controllers\default.go
create D:\GoFiles\src\web\crawl_movice\views\index.tpl
create D:\GoFiles\src\web\crawl_movice\routers\router.go
create D:\GoFiles\src\web\crawl_movice\tests\default_test.go
create D:\GoFiles\src\web\crawl_movice\main.go
2019/02/16 10:49:20 SUCCESS ▶ 0002 New application successfully created!
Original: https://www.cnblogs.com/nulige/p/10386915.html
Author: 努力哥
Title: Go语言之高级篇Beego框架之爬虫项目实战
原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/535790/
转载文章受原作者版权保护。转载请注明原作者出处!