巨潮资讯分析

2023年7月17日下午8:04 • 人工智能 • 阅读 50

巨潮资讯分析

（1）爬取巨潮资讯万科A网站下载pdf
（2）从pdf中筛选指定字段
（3）利用python进行可视化分析

前言

博主最近接的一个单子的需求需要是爬取巨潮资讯中指定公司的年度报告pdf并且下载下来再对pdf筛选指定字段再进行可视化分析

鉴于预算问题可视化分析就使用了最基本的几个图表例如散点图
折线图以及柱状图

一、先对巨潮资讯网页进行分析

爬虫和反爬虫的斗争都是无时无刻的这个网页的反爬机制我做的时候就遇见了两个
1.网页在翻页的时候url是没有变化的

观察这两张图片的url是没有变化的
通过这么分析我们可以使用两种方法一种是利用post请求进行获取网页源代码
第二种就是利用python的selenium库进行分析
2.网页每刷新一次不是立刻就能刷新出数据来的
今天博主使用的就是第二种方法方法过多就不一一讲解了

; （1）、功能准备

1.引入库

代码如下（示例）：

import re
import time
import requests
from selenium import webdriver
from selenium.webdriver.common.by import By

使用selenium的话需要在电脑上自行安装对应浏览器的驱动除了系统自带的库都需要使用pip install 进行安装

2.代码如下

代码如下（示例）：

list = []
def page_turn():
    url = 'http://www.cninfo.com.cn/new/disclosure/stock?orgId=gssz0000002&stockCode=000002#latestAnnouncement'
    browser.get(url)
    time.sleep(1)
    browser.find_element(By.XPATH,'//*[@id="main"]/div[3]/div/div[2]/div/div/div[2]/div[1]/div[1]/form/div[2]/div/span/button').click()
    browser.find_element(By.CLASS_NAME, 'cate-checkbox-txt').click()
    browser.find_element(By.XPATH,'//*[@id="main"]/div[3]/div/div[2]/div/div/div[2]/div[1]/div[4]/div/div/button[2]').click()
    time.sleep(1)
    data = browser.page_source
    print("执行翻页操作")
    return data

    # if page_next =
def search(data):
    # 获取网页源代码
    # 获取网页标题
    p_title = '(.*?)'
    title = re.findall(p_title, data)
    # 获取网页网址
    p_href = ' + href[index]
        href[index] = re.sub('amp;', '', href[index])
        # pdf文件下载
        res = requests.get(url=href[index])
        path = "问询函//" + title[index] + ".pdf"
        # print(path)
        print(href[index])
        list.append(href[index])
        try:
            for i in list:
                browser.get(i)
                browser.find_element(By.XPATH,'//*[@id="noticeDetail"]/div/div[1]/div[3]/div[1]/button').click()
            print("第" + str(index + 1) + "号文件爬取成功！")
        except:
            print("不是pdf版本")
def main():
        url = 'http://www.cninfo.com.cn/new/disclosure/stock?orgId=gssz0000002&stockCode=000002#latestAnnouncement'
        browser.get(url)
        time.sleep(1)
        browser.find_element(By.XPATH,'//*[@id="main"]/div[3]/div/div[2]/div/div/div[2]/div[1]/div[1]/form/div[2]/div/span/button').click()
        browser.find_element(By.CLASS_NAME,'cate-checkbox-txt').click()

        time.sleep(1)
        data = browser.page_source
        return data
if __name__ == "__main__":
    chrome_options = webdriver.ChromeOptions()
    chrome_options.add_argument('--headless')
    #设置下载路径
    prefs = {'profile.default_content_settings.popups': 0 ,'download.default_directory':r'c:\Users\13252\PycharmProjects\pythonProject\巨潮资讯\公告pdf'}
    chrome_options.add_experimental_option('prefs',prefs)
    browser = webdriver.Chrome(options=chrome_options)
    main()
    search(main())
    page_turn()
    search(page_turn())

该处使用的是利用selenium进行pdf下载

二、对指定字段进行筛选写入csv中

引入库

import pdfplumber
import os
import csv

代码如下

import pdfplumber
import os
import csv
def parase_pdf(table_keyword,inside_keyword,outside_keyword):

    global pdffile_list
    global parase_out_writer
    global parase_out
    global OUT_DIR
    global file_names
    while True:

        if len(file_names):
            print('--------{}---------'.format(len(file_names)))
            file_name=file_names[0]
            file_names.remove(file_name)
            if file_name.endswith('.PDF') or file_name.endswith('.pdf'):
                path =os.path.join(OUT_DIR,file_name)
                print('get pdf address')

                try:
                    pdf = pdfplumber.open(path,password='')
                except:
                    print("*************open pdf error*******************")
                print("*************open pdf*******************")

                find_table=0
                find_pre_table=0
                find_keyword=0
                find_keyword_outside=0
                name_find=[]
                value_find=[]
                page_find=[]

                begin_index=int(len(pdf.pages)/2)
                for i in range(begin_index,len(pdf.pages)):
                    if find_table:
                        find_pre_table=1
                    else:
                        find_pre_table=0
                    find_table=0
                    page=pdf.pages[i]

                    data=page.extract_text()
                    if len(table_keyword):
                        for keyword in table_keyword:
                            if keyword in data:
                                find_table=1
                            else:
                                find_table=0
                                break
                    else:
                        find_table=1

                    if find_table or find_pre_table:
                        data_list=data.strip().split()
                        for j in range(len(data_list)):
                            if len(inside_keyword):
                                for keyword in inside_keyword:
                                    if keyword in data_list[j]:
                                        find_keyword=1
                            else:
                                find_keyword=1

                            if find_keyword:
                                find_keyword=0
                                print('run here')
                                if len(outside_keyword):
                                    for keyword in outside_keyword:
                                        if keyword not in data_list[j]:
                                            find_keyword_outside=1
                                        else:
                                            find_keyword_outside=0
                                            break
                                else:
                                    find_keyword_outside=1

                                if find_keyword_outside:
                                    find_keyword_outside=0
                                    try:
                                        temp_value=data_list[j+1]
                                        temp_value=temp_value.replace(',','')
                                        temp_value=float(temp_value)
                                        name_find.append(data_list[j])
                                        value_find.append(temp_value)
                                        page_find.append(i)
                                        try:
                                            parase_out_writer.writerows([[file_name,data_list[j],str(temp_value),data_list[j+1],str(i)]])
                                        except:
                                            pass
                                        parase_out.flush()
                                        print("*****find******{} value is {} and {}".format(data_list[j],data_list[j+1],temp_value))
                                        print("*************find in page {}*******************".format(i))
                                        print("*************find in {}*******************".format(path))
                                        break
                                    except:
                                        continue
                pdf.close()

                print('****time to processing PDF file is ')
            else:
                path =os.path.join(OUT_DIR,file_name)

    return name_find,value_find,page_find
OUT_DIR = r'公告pdf'
table_keyword=['利润表']
inside_keyword=['营业收入']
outside_keyword=['收到']

file_names=os.listdir(OUT_DIR)
parase_out_file_path=OUT_DIR+'/parase_out_file2.csv'
parase_out=open(parase_out_file_path, 'w', newline='', encoding='utf-8')
parase_out_writer = csv.writer(parase_out)
parase_pdf(table_keyword,inside_keyword,outside_keyword)

import pdfplumber
import os
import csv
inside_keyword = '资产负债率'
def parase_pdf(inside_keyword):

    global pdffile_list
    global parase_out_writer
    global parase_out
    global OUT_DIR
    global file_names
    while True:

        if len(file_names):
            print('--------{}---------'.format(len(file_names)))
            file_name = file_names[0]
            file_names.remove(file_name)
            if file_name.endswith('.PDF') or file_name.endswith('.pdf'):
                path = os.path.join(OUT_DIR, file_name)
                print('get pdf address')
                try:
                    pdf = pdfplumber.open(path,password='')
                except:
                    print("*************open pdf error*******************")
                print("*************open pdf*******************")
                for page in pdf.pages:
                    data = page.extract_text()
                    if inside_keyword in page.extract_text():

                        data_list = data.strip().split()
                        for j in range(len(data_list)):
                                    if inside_keyword in data_list[j]:

                                        print('提取'+f'{inside_keyword}'+'中')
                                        if len(data_list[j])<7:
                                            print(data_list[j],data_list[j+1])

                                            try:
                                                parase_out_writer.writerows([[file_name, data_list[j],data_list[j + 1]]])
                                            except:
                                                pass
                                            parase_out.flush()

OUT_DIR = r'公告pdf'
file_names=os.listdir(OUT_DIR)
parase_out_file_path=OUT_DIR+'/parase_out_file5.csv'
parase_out=open(parase_out_file_path, 'w', newline='', encoding='utf-8')
parase_out_writer = csv.writer(parase_out)
parase_pdf(inside_keyword)

总结

提示：这里对pdf内容提取进行总结：
因为博主要提取的资产负债率是百分比和营业收入和营业利润有区别所以将二者分开提取之后如果需要应用的话将路径改为自己的文件路径

三、对csv里的数据进行可视化分析

（1）
我们从pdf里面提取的数据仍然是不规整的这时候怎么办呢
就得给它进行数据清洗和数据规整了
直接上代码

第一步

import pandas as pd
import re
df = pd.read_csv(r'C:\Users\13252\PycharmProjects\pythonProject\巨潮资讯\公告pdf\parase_out_file2.csv'),header=None,names=['id','earning','number1','number2']新增表头

第二步

df['year'] = df['name'].apply(lambda x: re.findall(r'\d{4}',x)[0])
df.to_csv(r'C:\Users\13252\PycharmProjects\pythonProject\巨潮资讯\公告pdf\parase_out_file2.csv',index=False)
df

这样看起来是不是舒服老多了博主目测强迫症一枚

df = pd.read_csv(r'C:\Users\13252\PycharmProjects\pythonProject\巨潮资讯\公告pdf\parase_out_file2.csv')

df.sort_values("year",ascending=True,inplace=True)
df.to_csv(r'C:\Users\13252\PycharmProjects\pythonProject\巨潮资讯\公告pdf\parase_out_file2.csv',index=False)

df1 = pd.read_csv(r'C:\Users\13252\PycharmProjects\pythonProject\巨潮资讯\公告pdf\parase_out_file3.csv')
df1.sort_values("year",ascending=True,inplace=True)
df1.to_csv(r'C:\Users\13252\PycharmProjects\pythonProject\巨潮资讯\公告pdf\parase_out_file3.csv',index=False)
df1

df3 = pd.read_csv(r'C:\Users\13252\PycharmProjects\pythonProject\巨潮资讯\公告pdf\parase_out_file4.csv')

df3['year'] = df3['name'].apply(lambda x: re.findall(r'\d{4}',x)[-1])
df3.sort_values("year",ascending=True,inplace=True)
df3.to_csv(r'C:\Users\13252\PycharmProjects\pythonProject\巨潮资讯\公告pdf\parase_out_file4.csv',index=False)
df3

df3.drop_duplicates('data',keep='first',inplace=True)
df3.to_csv(r'C:\Users\13252\PycharmProjects\pythonProject\巨潮资讯\公告pdf\parase_out_file4.csv',index=False)
df3

这些数据虽然不多但是感觉有点乱乱的需要排序去重还需要添加行和列
（2）
第二步我们需要开始进行图表的绘制
引入我们所需要的库

import matplotlib
import pandas as pd
import matplotlib.pyplot as plt
from matplotlib.pyplot import MultipleLocator

因为每个数据都是一个原理所以博主就不一一举例了

折线图的绘制

df = pd.read_csv(r'C:\Users\13252\PycharmProjects\pythonProject\巨潮资讯\公告pdf\parase_out_file2.csv')
plt.figure(figsize=(16,6))
ax=plt.gca()
x_major_locator=MultipleLocator(1)
ax.xaxis.set_major_locator(x_major_locator)
plt.plot(df['year'],df['number1'],color='#A0522D',marker='o',label="营业收入",linewidth=2,linestyle="--")

散点图的绘制

引入我们需要的库

import matplotlib
import pandas as pd
import matplotlib.pyplot as plt
from matplotlib.pyplot import MultipleLocator

df = pd.read_csv(r'C:\Users\13252\PycharmProjects\pythonProject\巨潮资讯\公告pdf\parase_out_file2.csv')
plt.figure(figsize=(16,6))
x=df['year']
y=df['number1']
ax=plt.gca()
x_major_locator=MultipleLocator(1)
ax.xaxis.set_major_locator(x_major_locator)
plt.scatter(x,y,alpha=0.5,marker='*',c='r',label="五角")

效果图

柱状图的绘制

引入库

import pandas as pd
import matplotlib.pyplot as plt
from numpy import arange
from matplotlib.font_manager import FontProperties

plt.style.use('fivethirtyeight')
df = pd.read_csv(r'C:\Users\13252\PycharmProjects\pythonProject\巨潮资讯\公告pdf\parase_out_file2.csv')

date = df['year']
data=df['number1']
plt.bar(date,data,width=0.5,alpha=0.5)
plt.title("主营业务收入和营业收入",fontproperties=font_set)

柱状图的绘制

总结

每个图表的我只写出了一个csv数据绘制的图表其余的只需要照葫芦画瓢即可
萌新写代码可能有的地方没标注出来或者有的地方没写出来希望各位大神多多指出
有问题的可以私下找我私聊欢迎大家多多指正

Original: https://blog.csdn.net/h123456789999999/article/details/122504416
Author: 红糖番薯
Title: 巨潮资讯分析

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/699384/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

论文阅读：染色归一化

题目：染色标准化在大肠组织卷积网络分类中的重要性（THE IMPORTANCE OF STAIN NORMALIZATION IN COLORECTAL TISSUE CLASSI…

人工智能 2023年7月13日
0082
Python中利用Opencv实现图像读入，通道分离，显示常用函数总结

一、读入图像常用的函数：1. cv2.imread(参数1，参数2) 参数1：图像路径，参数2读取方式参数2的取值：1，加载一张彩色图像，忽视透明度，也可设为cv2.IMREAD…

人工智能 2023年7月19日
0056
GPT模型介绍并且使用pytorch实现一个小型GPT中文闲聊系统

文章目录 GPT模型介绍 * 无监督训练方式模型结构微调下游任务输入形式 GPT-2 GPT-3 pytorch实现一个小型GPT中文闲聊系统 GPT模型介绍 GPT与BER…

人工智能 2023年5月27日
0077
SparkDF操作与SQL交互和相关函数整理

SparkDF与SparkSQL交互操作函数笔记 * – + 一、生成DF方式 + * 1.toDF * 2.createDataFrame * 3.list 转 DF…

人工智能 2023年7月16日
0032
使用pandas进行读取、合并、写入csv文件

文章目录导包读取csv文件——pd.read_csv(‘path’) 合并csv文件——pd.merge(文件1，文件2，on = [共同的列名]) 写入csv文件——data…

人工智能 2023年7月7日
0049
二十一、文本情感分类二

1.1 文本训练化概述深度学习构建模型前需要将文本转化为向量表示（Word Embedding）。首先需要将文本转化为数字（文本序列化），在把数字转化为向量。可以考虑把文本中的…

人工智能 2023年5月28日
0066
回归问题常用损失函数L1Loss、L2Loss、SmoothL1Loss

L1范数误差(L1 loss) 代表：MAE(Mean Absolute Error, 均绝对误差)。即估计值f ( x ) f(x)f (x )与真实值y y y之间距离的均值。…

人工智能 2023年6月17日
0085
医学影像处理工具：SimpleITK学习笔记（二）图像基本操作

本节大纲 sitk图像的构造 sitk中的常见属性值像素的相关操作 SimpleITK和Numpy的相互转换类型转化中的index顺序 sitk图像的构造 sitk有几种构建图…

人工智能 2023年5月26日
0058
NLP入门到精通必读-掌握基于Python的自然语言处理

本书介绍自然语言处理是计算语言学和人工智能研究人机交互的领域之一。它提供了计算机和人类语言之间的无缝交互，并使计算机能够在机器学习的帮助下理解人类的语言。本书将为读者提供如何在P…

人工智能 2023年5月30日
0068
Attentional Feature Fusion 注意力特征融合

Attentional Feature Fusion 注意力特征融合最近看到一篇比较不错的特征融合方法，基于注意力机制的 AAF ，与此前的 SENet 、 SKNet 等很相似…

人工智能 2023年6月15日
0059
语义分割 Semantic Segmentation

文章目录 * – 【UNet】 – 【LadderNet:Multi-path networks based on UNet for medical Ima…

人工智能 2023年5月25日
0081
tensorflow中tf.raw_ops.ApplyCenteredRMSProp()函数的使用

功能 data_type = np.float16 idxs_np = np.random.randint(0, 3, size=3).astype(np.int32) var =…

人工智能 2023年5月25日
0040
推荐系统经典面试题（附答案和解析）

问题1：召回分支的作用是什么？解析：快速帮助用户找到可能感兴趣的候选物品；减少排序模型的候选输入，降低系统RT。问题2：如何离线评价召回阶段各种模型算法的好坏？由于没有明确的召…

人工智能 2023年5月30日
0090
几个聚类算法

文章目录一、什么是聚类二、聚类算法 * 2.1聚类数据集 2.2亲和力传播 2.3聚合聚类 2.4K均值 2.5Mini-Batch K均值 2.6光谱聚类为大家提供免费的G…

人工智能 2023年6月3日
0074
【老生谈算法】matlab实现图像平滑算法——图像平滑算法

基于MATLAB的图像平滑算法实现及应用 1、原文下载：本算法原文如下，有需要的朋友可以点击进行下载序号原文（点击下载）本项目原文 2、算法详解：第一章、概述1.1 图像…

人工智能 2023年6月18日
0064
解决YOLOV5训练时P、R、mAP等值均为0的问题

最近用YOLOV5训练自己的数据集，出现了训练失败的情况，比如box，obj，cls，labels等均为nan或0，找了很多办法，其实就是cuda与PyTorch版本的问题 Epo…

人工智能 2023年7月20日
0064

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

巨潮资讯分析

1.引入库

2.代码如下

三、对csv里的数据进行可视化分析

折线图的绘制

散点图的绘制

柱状图的绘制

总结

大家都在看