【Python】数据分析、爬取PDF文件使用Jieba词库进行分析计算银行数字化转型指数

2023年6月4日下午2:15 • 人工智能 • 阅读 119

这里我使用Jieba对转换好的txt文档读取分词，在此基础上，根据词库对上市银行年度报表进行匹配与词频汇总，同时剔除关键词前存在否定表达的词频后进行对数化得到银行业数字化转型指数。

源代码如下：

&#x5BFC;&#x5165;&#x4F9D;&#x8D56;
import jieba
import numpy as np

text_paths = r'&#x5174;&#x4E1A;&#x94F6;&#x884C;2021 &#x5E74; &#x5E74; &#x5EA6; &#x62A5; &#x544A;'
text_path = f'&#x94F6;&#x884C;\\&#x5174;&#x4E1A;&#x94F6;&#x884C;\\{text_paths}.pdf'
text_path2 = f'&#x94F6;&#x884C;\\&#x5174;&#x4E1A;&#x94F6;&#x884C;\\TXT\\{text_paths}'

def fun():
    # &#x8BFB;&#x53D6;&#x6587;&#x672C;
    txt = open(f"{text_path2}.txt", "r", encoding='utf-8').read()
    # &#x4F7F;&#x7528;&#x7CBE;&#x786E;&#x6A21;&#x5F0F;&#x5BF9;&#x6587;&#x672C;&#x8FDB;&#x884C;&#x5206;&#x8BCD;
    words = jieba.lcut(txt)
    # &#x901A;&#x8FC7;&#x952E;&#x503C;&#x5BF9;&#x7684;&#x5F62;&#x5F0F;&#x5B58;&#x50A8;&#x8BCD;&#x8BED;&#x53CA;&#x5176;&#x51FA;&#x73B0;&#x7684;&#x6B21;&#x6570;
    counts = {}
    for word in words:
        # &#x53BB;&#x6389;&#x8BCD;&#x8BED;&#x4E2D;&#x7684;&#x7A7A;&#x683C;
        word = word.replace('  ', '')
        # &#x5982;&#x679C;&#x8BCD;&#x8BED;&#x957F;&#x5EA6;&#x4E3A;1&#xFF0C;&#x5219;&#x5FFD;&#x7565;&#x7EDF;&#x8BA1;
        if len(word) == 1:
            continue
        # &#x8FDB;&#x884C;&#x7D2F;&#x8BA1;
        else:
            counts[word] = counts.get(word, 0) + 1
    # # &#x5C06;&#x5B57;&#x5178;&#x8F6C;&#x4E3A;&#x5217;&#x8868;
    # items = list(counts.items())
    # # &#x6839;&#x636E;&#x8BCD;&#x8BED;&#x51FA;&#x73B0;&#x7684;&#x6B21;&#x6570;&#x8FDB;&#x884C;&#x4ECE;&#x5927;&#x5230;&#x5C0F;&#x6392;&#x5E8F;
    # items.sort(key=lambda x: x[1], reverse=True)

    # &#x67E5;&#x627E;&#x6307;&#x6570;&#x8BCD;(&#x81EA;&#x5B9A;&#x4E49;&#x8BCD;&#x5E93;)
    cKu = ["&#x4EBA;&#x5DE5;&#x667A;&#x80FD;","&#x7F51;&#x8054;","&#x5E73;&#x53F0;","&#x667A;&#x80FD;&#x7A7F;&#x6234;","&#x667A;&#x6167;&#x519C;&#x4E1A;","&#x667A;&#x80FD;&#x98CE;&#x63A7;","&#x667A;&#x80FD;&#x4EA4;&#x901A;","&#x667A;&#x80FD;&#x533B;&#x7597;","&#x667A;&#x80FD;&#x5BA2;&#x670D;","&#x667A;&#x80FD;&#x6295;&#x987E;","&#x667A;&#x80FD;&#x67DC;&#x53F0;","&#x6570;&#x5B57;&#x8425;&#x9500;","&#x6570;&#x5B57;&#x91D1;&#x878D;","Fintech","&#x91D1;&#x878D;&#x79D1;&#x6280;","&#x91CF;&#x5316;&#x91D1;&#x878D;","&#x5F00;&#x653E;&#x94F6;&#x884C;","API","&#x7F51;&#x94F6;","&#x79C1;&#x4EBA;&#x94F6;&#x884C;","&#x573A;&#x666F;","&#x4F9B;&#x5E94;&#x94FE;&#x91D1;&#x878D;","&#x6570;&#x5B57;&#x666E;&#x60E0;&#x91D1;&#x878D;","&#x4E92;&#x8054;&#x7F51;&#x91D1;&#x878D;","&#x624B;&#x673A;&#x94F6;&#x884C;","APP","NFC&#x652F;&#x4ED8;","&#x79FB;&#x52A8;&#x652F;&#x4ED8;","&#x624B;&#x673A;&#x652F;&#x4ED8;","&#x7B2C;&#x4E09;&#x65B9;&#x652F;&#x4ED8;","&#x7535;&#x5B50;&#x5546;&#x52A1;","&#x79C1;&#x4EBA;&#x94F6;&#x884C;","B2B","B2C","C2B","C2C","O2O","&#x5927;&#x6570;&#x636E;","&#x6570;&#x5B57;&#x6316;&#x6398;","&#x4FE1;&#x606F;&#x79D1;&#x6280;","&#x6587;&#x672C;&#x6316;&#x6398;","&#x6570;&#x636E;&#x53EF;&#x89C6;&#x5316;","&#x5F02;&#x6784;&#x6570;&#x636E;","&#x5F81;&#x4FE1;","&#x589E;&#x5F3A;&#x73B0;&#x5B9E;","&#x6DF7;&#x5408;&#x73B0;&#x5B9E;","&#x865A;&#x62DF;&#x73B0;&#x5B9E;","&#x6570;&#x636E;&#x5206;&#x6790;","IT","&#x7269;&#x8054;&#x7F51;","&#x4FE1;&#x606F;&#x7269;&#x7406;&#x7CFB;&#x7EDF;","&#x79C1;&#x6709;&#x4E91;","&#x516C;&#x6709;&#x4E91;","&#x4E91;&#x8BA1;&#x7B97;","&#x6D41;&#x8BA1;&#x7B97;","&#x56FE;&#x8BA1;&#x7B97;","&#x5185;&#x5B58;&#x8BA1;&#x7B97;","&#x591A;&#x65B9;&#x5B89;&#x5168;&#x8BA1;&#x7B97;","&#x7C7B;&#x8111;&#x8BA1;&#x7B97;","&#x7EFF;&#x8272;&#x8BA1;&#x7B97;","&#x8BA4;&#x77E5;&#x8BA1;&#x7B97;","&#x878D;&#x5408;&#x67B6;&#x6784;","&#x4EBF;&#x7EA7;&#x5E76;&#x53D1;","EB&#x7EA7;&#x5B58;&#x50A8;","&#x533A;&#x5757;&#x94FE;","&#x6570;&#x5B57;&#x8D27;&#x5E01;","&#x5206;&#x5E03;&#x5F0F;&#x8BB0;&#x8D26;","&#x5206;&#x5E03;&#x5F0F;&#x8BA1;&#x7B97;","&#x5DEE;&#x5206;&#x9690;&#x79C1;&#x6280;&#x672F;","&#x667A;&#x80FD;&#x91D1;&#x878D;&#x5408;&#x7EA6;","&#x5546;&#x4E1A;&#x667A;&#x80FD;","&#x56FE;&#x50CF;&#x7406;&#x89E3;","&#x6295;&#x8D44;&#x51B3;&#x7B56;&#x8F85;&#x52A9;&#x7CFB;&#x7EDF;","&#x667A;&#x80FD;&#x6570;&#x636E;&#x5206;&#x6790;","&#x5171;&#x4EAB;","&#x673A;&#x5668;&#x5B66;&#x4E60;","&#x8BED;&#x4E49;&#x641C;&#x7D22;","&#x751F;&#x7269;&#x8BC6;&#x522B;&#x6280;&#x672F;","&#x4EBA;&#x8138;&#x8BC6;&#x522B;","&#x8BED;&#x97F3;&#x8BC6;&#x522B;","&#x8EAB;&#x4EFD;&#x9A8C;&#x8BC1;","&#x4EBA;&#x7269;&#x753B;&#x50CF;","&#x7CBE;&#x51C6;&#x5339;&#x914D;","&#x5B9A;&#x5236;","&#x654F;&#x6377;&#x5316;"]
    nums = 0

    for wd in cKu:
        for word,val in counts.items():
            # print(f"{word} = {val}")
            if wd == word:
                nums += val
    print(f"&#x8BCD;&#x9891;&#x6570;: {nums}")
    print("&#x53D6;&#x5BF9;&#x6570;&#x540E;: {:.4f}".format(np.log(nums)))
    # &#x7ED3;&#x5C3E;&#x4FDD;&#x7559;&#x4E86;4&#x4F4D;&#x5C0F;&#x6570;

&#x4E3B;&#x51FD;&#x6570;
if __name__ == '__main__':
    fun()

三、终制版代码

要实现需求就需要对上述两种操作分别先后进行，比较不便，为了更加方便大量统计、计算并使用，将上述两模块结合在一起，就是终制版

源代码如下：

import pyocr
import importlib
import sys
import time
import jieba
import numpy as np

importlib.reload(sys)
time1 = time.time()
print("&#x521D;&#x59CB;&#x65F6;&#x95F4;&#x4E3A;&#xFF1A;",time1)

import os.path
from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LTTextBoxHorizontal, LAParams
from pdfminer.pdfinterp import PDFTextExtractionNotAllowed

text_paths = r'&#x5357;&#x4EAC;2020 &#x5E74;&#x5E74;&#x5EA6;&#x62A5;&#x544A;'
text_path = f'&#x94F6;&#x884C;\\&#x5357;&#x4EAC;&#x94F6;&#x884C;\\{text_paths}.pdf'
text_path2 = f'&#x94F6;&#x884C;\\&#x5357;&#x4EAC;&#x94F6;&#x884C;\\TXT\\{text_paths}'

def parse():
    '''&#x89E3;&#x6790;PDF&#x6587;&#x672C;&#xFF0C;&#x5E76;&#x4FDD;&#x5B58;&#x5230;TXT&#x6587;&#x4EF6;&#x4E2D;'''
    print("------&#x5F00;&#x59CB;&#x8F6C;&#x6362;------")

    fp = open(text_path, 'rb')
    # &#x7528;&#x6587;&#x4EF6;&#x5BF9;&#x8C61;&#x521B;&#x5EFA;&#x4E00;&#x4E2A;PDF&#x6587;&#x6863;&#x5206;&#x6790;&#x5668;
    parser = PDFParser(fp)
    # &#x521B;&#x5EFA;&#x4E00;&#x4E2A;PDF&#x6587;&#x6863;
    doc = PDFDocument()
    # &#x8FDE;&#x63A5;&#x5206;&#x6790;&#x5668;&#xFF0C;&#x4E0E;&#x6587;&#x6863;&#x5BF9;&#x8C61;
    parser.set_document(doc)
    doc.set_parser(parser)

    # &#x63D0;&#x4F9B;&#x521D;&#x59CB;&#x5316;&#x5BC6;&#x7801;&#xFF0C;&#x5982;&#x679C;&#x6CA1;&#x6709;&#x5BC6;&#x7801;&#xFF0C;&#x5C31;&#x521B;&#x5EFA;&#x4E00;&#x4E2A;&#x7A7A;&#x7684;&#x5B57;&#x7B26;&#x4E32;
    doc.initialize()

    # &#x68C0;&#x6D4B;&#x6587;&#x6863;&#x662F;&#x5426;&#x63D0;&#x4F9B;txt&#x8F6C;&#x6362;&#xFF0C;&#x4E0D;&#x63D0;&#x4F9B;&#x5C31;&#x5FFD;&#x7565;
    if not doc.is_extractable:
        raise PDFTextExtractionNotAllowed
    else:
        # &#x521B;&#x5EFA;PDF&#xFF0C;&#x8D44;&#x6E90;&#x7BA1;&#x7406;&#x5668;&#xFF0C;&#x6765;&#x5171;&#x4EAB;&#x8D44;&#x6E90;
        rsrcmgr = PDFResourceManager()
        # &#x521B;&#x5EFA;&#x4E00;&#x4E2A;PDF&#x8BBE;&#x5907;&#x5BF9;&#x8C61;
        laparams = LAParams()
        device = PDFPageAggregator(rsrcmgr, laparams=laparams)
        # &#x521B;&#x5EFA;&#x4E00;&#x4E2A;PDF&#x89E3;&#x91CA;&#x5176;&#x5BF9;&#x8C61;
        interpreter = PDFPageInterpreter(rsrcmgr, device)

        # &#x5FAA;&#x73AF;&#x904D;&#x5386;&#x5217;&#x8868;&#xFF0C;&#x6BCF;&#x6B21;&#x5904;&#x7406;&#x4E00;&#x4E2A;page&#x5185;&#x5BB9;
        # doc.get_pages() &#x83B7;&#x53D6;page&#x5217;&#x8868;
        for page in doc.get_pages():
            interpreter.process_page(page)
            # &#x63A5;&#x53D7;&#x8BE5;&#x9875;&#x9762;&#x7684;LTPage&#x5BF9;&#x8C61;
            layout = device.get_result()
            # &#x8FD9;&#x91CC;layout&#x662F;&#x4E00;&#x4E2A;LTPage&#x5BF9;&#x8C61; &#x91CC;&#x9762;&#x5B58;&#x653E;&#x7740; &#x8FD9;&#x4E2A;page&#x89E3;&#x6790;&#x51FA;&#x7684;&#x5404;&#x79CD;&#x5BF9;&#x8C61;
            # &#x4E00;&#x822C;&#x5305;&#x62EC;LTTextBox, LTFigure, LTImage, LTTextBoxHorizontal &#x7B49;&#x7B49;
            # &#x60F3;&#x8981;&#x83B7;&#x53D6;&#x6587;&#x672C;&#x5C31;&#x83B7;&#x5F97;&#x5BF9;&#x8C61;&#x7684;text&#x5C5E;&#x6027;&#xFF0C;
            for x in layout:
                if (isinstance(x, LTTextBoxHorizontal)):
                    with open(f'{text_path2}.txt', 'a',encoding='utf-8') as f:
                        results = x.get_text()
                        print(results)
                        f.write(results + "\n")
                    f.close()
    print("------&#x8F6C;&#x6362;&#x5B8C;&#x6210;------")

------------------&#x4E8C;---------------

def fun():
    # &#x8BFB;&#x53D6;&#x6587;&#x672C;
    txt = open(f"{text_path2}.txt", "r", encoding='utf-8').read()
    # &#x4F7F;&#x7528;&#x7CBE;&#x786E;&#x6A21;&#x5F0F;&#x5BF9;&#x6587;&#x672C;&#x8FDB;&#x884C;&#x5206;&#x8BCD;
    words = jieba.lcut(txt)
    # &#x901A;&#x8FC7;&#x952E;&#x503C;&#x5BF9;&#x7684;&#x5F62;&#x5F0F;&#x5B58;&#x50A8;&#x8BCD;&#x8BED;&#x53CA;&#x5176;&#x51FA;&#x73B0;&#x7684;&#x6B21;&#x6570;
    counts = {}
    for word in words:
        # &#x53BB;&#x6389;&#x8BCD;&#x8BED;&#x4E2D;&#x7684;&#x7A7A;&#x683C;
        word = word.replace('  ', '')
        # &#x5982;&#x679C;&#x8BCD;&#x8BED;&#x957F;&#x5EA6;&#x4E3A;1&#xFF0C;&#x5219;&#x5FFD;&#x7565;&#x7EDF;&#x8BA1;
        if len(word) == 1:
            continue
        # &#x8FDB;&#x884C;&#x7D2F;&#x8BA1;
        else:
            counts[word] = counts.get(word, 0) + 1
    # # &#x5C06;&#x5B57;&#x5178;&#x8F6C;&#x4E3A;&#x5217;&#x8868;
    # items = list(counts.items())
    # # &#x6839;&#x636E;&#x8BCD;&#x8BED;&#x51FA;&#x73B0;&#x7684;&#x6B21;&#x6570;&#x8FDB;&#x884C;&#x4ECE;&#x5927;&#x5230;&#x5C0F;&#x6392;&#x5E8F;
    # items.sort(key=lambda x: x[1], reverse=True)

    # &#x67E5;&#x627E;&#x6307;&#x6570;&#x8BCD;(&#x81EA;&#x5B9A;&#x4E49;&#x8BCD;&#x5E93;)
    cKu = ["&#x4EBA;&#x5DE5;&#x667A;&#x80FD;","&#x7F51;&#x8054;","&#x5E73;&#x53F0;","&#x667A;&#x80FD;&#x7A7F;&#x6234;","&#x667A;&#x6167;&#x519C;&#x4E1A;","&#x667A;&#x80FD;&#x98CE;&#x63A7;","&#x667A;&#x80FD;&#x4EA4;&#x901A;","&#x667A;&#x80FD;&#x533B;&#x7597;","&#x667A;&#x80FD;&#x5BA2;&#x670D;","&#x667A;&#x80FD;&#x6295;&#x987E;","&#x667A;&#x80FD;&#x67DC;&#x53F0;","&#x6570;&#x5B57;&#x8425;&#x9500;","&#x6570;&#x5B57;&#x91D1;&#x878D;","Fintech","&#x91D1;&#x878D;&#x79D1;&#x6280;","&#x91CF;&#x5316;&#x91D1;&#x878D;","&#x5F00;&#x653E;&#x94F6;&#x884C;","API","&#x7F51;&#x94F6;","&#x79C1;&#x4EBA;&#x94F6;&#x884C;","&#x573A;&#x666F;","&#x4F9B;&#x5E94;&#x94FE;&#x91D1;&#x878D;","&#x6570;&#x5B57;&#x666E;&#x60E0;&#x91D1;&#x878D;","&#x4E92;&#x8054;&#x7F51;&#x91D1;&#x878D;","&#x624B;&#x673A;&#x94F6;&#x884C;","APP","NFC&#x652F;&#x4ED8;","&#x79FB;&#x52A8;&#x652F;&#x4ED8;","&#x624B;&#x673A;&#x652F;&#x4ED8;","&#x7B2C;&#x4E09;&#x65B9;&#x652F;&#x4ED8;","&#x7535;&#x5B50;&#x5546;&#x52A1;","&#x79C1;&#x4EBA;&#x94F6;&#x884C;","B2B","B2C","C2B","C2C","O2O","&#x5927;&#x6570;&#x636E;","&#x6570;&#x5B57;&#x6316;&#x6398;","&#x4FE1;&#x606F;&#x79D1;&#x6280;","&#x6587;&#x672C;&#x6316;&#x6398;","&#x6570;&#x636E;&#x53EF;&#x89C6;&#x5316;","&#x5F02;&#x6784;&#x6570;&#x636E;","&#x5F81;&#x4FE1;","&#x589E;&#x5F3A;&#x73B0;&#x5B9E;","&#x6DF7;&#x5408;&#x73B0;&#x5B9E;","&#x865A;&#x62DF;&#x73B0;&#x5B9E;","&#x6570;&#x636E;&#x5206;&#x6790;","IT","&#x7269;&#x8054;&#x7F51;","&#x4FE1;&#x606F;&#x7269;&#x7406;&#x7CFB;&#x7EDF;","&#x79C1;&#x6709;&#x4E91;","&#x516C;&#x6709;&#x4E91;","&#x4E91;&#x8BA1;&#x7B97;","&#x6D41;&#x8BA1;&#x7B97;","&#x56FE;&#x8BA1;&#x7B97;","&#x5185;&#x5B58;&#x8BA1;&#x7B97;","&#x591A;&#x65B9;&#x5B89;&#x5168;&#x8BA1;&#x7B97;","&#x7C7B;&#x8111;&#x8BA1;&#x7B97;","&#x7EFF;&#x8272;&#x8BA1;&#x7B97;","&#x8BA4;&#x77E5;&#x8BA1;&#x7B97;","&#x878D;&#x5408;&#x67B6;&#x6784;","&#x4EBF;&#x7EA7;&#x5E76;&#x53D1;","EB&#x7EA7;&#x5B58;&#x50A8;","&#x533A;&#x5757;&#x94FE;","&#x6570;&#x5B57;&#x8D27;&#x5E01;","&#x5206;&#x5E03;&#x5F0F;&#x8BB0;&#x8D26;","&#x5206;&#x5E03;&#x5F0F;&#x8BA1;&#x7B97;","&#x5DEE;&#x5206;&#x9690;&#x79C1;&#x6280;&#x672F;","&#x667A;&#x80FD;&#x91D1;&#x878D;&#x5408;&#x7EA6;","&#x5546;&#x4E1A;&#x667A;&#x80FD;","&#x56FE;&#x50CF;&#x7406;&#x89E3;","&#x6295;&#x8D44;&#x51B3;&#x7B56;&#x8F85;&#x52A9;&#x7CFB;&#x7EDF;","&#x667A;&#x80FD;&#x6570;&#x636E;&#x5206;&#x6790;","&#x5171;&#x4EAB;","&#x673A;&#x5668;&#x5B66;&#x4E60;","&#x8BED;&#x4E49;&#x641C;&#x7D22;","&#x751F;&#x7269;&#x8BC6;&#x522B;&#x6280;&#x672F;","&#x4EBA;&#x8138;&#x8BC6;&#x522B;","&#x8BED;&#x97F3;&#x8BC6;&#x522B;","&#x8EAB;&#x4EFD;&#x9A8C;&#x8BC1;","&#x4EBA;&#x7269;&#x753B;&#x50CF;","&#x7CBE;&#x51C6;&#x5339;&#x914D;","&#x5B9A;&#x5236;","&#x654F;&#x6377;&#x5316;"]
    nums = 0

    for wd in cKu:
        for word,val in counts.items():
            # print(f"{word} = {val}")
            if wd == word:
                nums += val
    print(f"&#x8BCD;&#x9891;&#x6570;: {nums}")
    print("&#x53D6;&#x5BF9;&#x6570;&#x540E;: {:.4f}".format(np.log(nums)))

if __name__ == '__main__':
    parse()
    time2 = time.time()
    print("&#x603B;&#x5171;&#x6D88;&#x8017;&#x65F6;&#x95F4;&#x4E3A;:", time2 - time1)
    fun()

当然，在读取操作目标名字方法main仍有诸多不便，因此可以加上读取文件夹下所有文件名，再使用列表将其循环遍历操作便可解决这个问题，后续有时间可以再写一写

读取指定路径下所有文件：

import os

filePath = 'D:\\pythonProject\\&#x6570;&#x636E;&#x5206;&#x6790;\\&#x94F6;&#x884C;\\&#x5174;&#x4E1A;&#x94F6;&#x884C;'
&#x6587;&#x4EF6;&#x8DEF;&#x5F84;
fileNames = os.listdir(filePath)
&#x83B7;&#x53D6;&#x7684;&#x8DEF;&#x5F84;&#x4E0B;&#x6587;&#x4EF6;&#x540D;&#x79F0;&#x5217;&#x8868;&#x5F62;&#x5F0F;&#x5B58;&#x5230;fileNames
print(fileNames)
&#x6253;&#x5370;
print('---------')

for name in fileNames:
    print(name)

四、追更：

原来import的对PDF有关的包做了调整，故现在报错，更新如下：（2023-1-9）

import os.path
from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LTTextBoxHorizontal, LAParams
from pdfminer.pdfinterp import PDFTextExtractionNotAllowed

改后：

import os.path
from pdfminer.pdfparser import PDFParser
from pdfminer.pdfdocument  import PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LTTextBoxHorizontal, LAParams
from pdfminer.pdfpage  import PDFTextExtractionNotAllowed

完整代码：

import pyocr
import importlib
import sys
import time
import jieba
import numpy as np

importlib.reload(sys)
time1 = time.time()
print("&#x521D;&#x59CB;&#x65F6;&#x95F4;&#x4E3A;&#xFF1A;",time1)

import os.path
from pdfminer.pdfparser import PDFParser
from pdfminer.pdfdocument  import PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LTTextBoxHorizontal, LAParams
from pdfminer.pdfpage  import PDFTextExtractionNotAllowed

text_paths = r'&#x5357;&#x4EAC;2020 &#x5E74;&#x5E74;&#x5EA6;&#x62A5;&#x544A;'
text_path = f'&#x94F6;&#x884C;\\&#x5357;&#x4EAC;&#x94F6;&#x884C;\\{text_paths}.pdf'
text_path2 = f'&#x94F6;&#x884C;\\&#x5357;&#x4EAC;&#x94F6;&#x884C;\\TXT\\{text_paths}'

def parse():
    '''&#x89E3;&#x6790;PDF&#x6587;&#x672C;&#xFF0C;&#x5E76;&#x4FDD;&#x5B58;&#x5230;TXT&#x6587;&#x4EF6;&#x4E2D;'''
    print("------&#x5F00;&#x59CB;&#x8F6C;&#x6362;------")

    fp = open(text_path, 'rb')
    # &#x7528;&#x6587;&#x4EF6;&#x5BF9;&#x8C61;&#x521B;&#x5EFA;&#x4E00;&#x4E2A;PDF&#x6587;&#x6863;&#x5206;&#x6790;&#x5668;
    parser = PDFParser(fp)
    # &#x521B;&#x5EFA;&#x4E00;&#x4E2A;PDF&#x6587;&#x6863;
    doc = PDFDocument()
    # &#x8FDE;&#x63A5;&#x5206;&#x6790;&#x5668;&#xFF0C;&#x4E0E;&#x6587;&#x6863;&#x5BF9;&#x8C61;
    parser.set_document(doc)
    doc.set_parser(parser)

    # &#x63D0;&#x4F9B;&#x521D;&#x59CB;&#x5316;&#x5BC6;&#x7801;&#xFF0C;&#x5982;&#x679C;&#x6CA1;&#x6709;&#x5BC6;&#x7801;&#xFF0C;&#x5C31;&#x521B;&#x5EFA;&#x4E00;&#x4E2A;&#x7A7A;&#x7684;&#x5B57;&#x7B26;&#x4E32;
    doc.initialize()

    # &#x68C0;&#x6D4B;&#x6587;&#x6863;&#x662F;&#x5426;&#x63D0;&#x4F9B;txt&#x8F6C;&#x6362;&#xFF0C;&#x4E0D;&#x63D0;&#x4F9B;&#x5C31;&#x5FFD;&#x7565;
    if not doc.is_extractable:
        raise PDFTextExtractionNotAllowed
    else:
        # &#x521B;&#x5EFA;PDF&#xFF0C;&#x8D44;&#x6E90;&#x7BA1;&#x7406;&#x5668;&#xFF0C;&#x6765;&#x5171;&#x4EAB;&#x8D44;&#x6E90;
        rsrcmgr = PDFResourceManager()
        # &#x521B;&#x5EFA;&#x4E00;&#x4E2A;PDF&#x8BBE;&#x5907;&#x5BF9;&#x8C61;
        laparams = LAParams()
        device = PDFPageAggregator(rsrcmgr, laparams=laparams)
        # &#x521B;&#x5EFA;&#x4E00;&#x4E2A;PDF&#x89E3;&#x91CA;&#x5176;&#x5BF9;&#x8C61;
        interpreter = PDFPageInterpreter(rsrcmgr, device)

        # &#x5FAA;&#x73AF;&#x904D;&#x5386;&#x5217;&#x8868;&#xFF0C;&#x6BCF;&#x6B21;&#x5904;&#x7406;&#x4E00;&#x4E2A;page&#x5185;&#x5BB9;
        # doc.get_pages() &#x83B7;&#x53D6;page&#x5217;&#x8868;
        for page in doc.get_pages():
            interpreter.process_page(page)
            # &#x63A5;&#x53D7;&#x8BE5;&#x9875;&#x9762;&#x7684;LTPage&#x5BF9;&#x8C61;
            layout = device.get_result()
            # &#x8FD9;&#x91CC;layout&#x662F;&#x4E00;&#x4E2A;LTPage&#x5BF9;&#x8C61; &#x91CC;&#x9762;&#x5B58;&#x653E;&#x7740; &#x8FD9;&#x4E2A;page&#x89E3;&#x6790;&#x51FA;&#x7684;&#x5404;&#x79CD;&#x5BF9;&#x8C61;
            # &#x4E00;&#x822C;&#x5305;&#x62EC;LTTextBox, LTFigure, LTImage, LTTextBoxHorizontal &#x7B49;&#x7B49;
            # &#x60F3;&#x8981;&#x83B7;&#x53D6;&#x6587;&#x672C;&#x5C31;&#x83B7;&#x5F97;&#x5BF9;&#x8C61;&#x7684;text&#x5C5E;&#x6027;&#xFF0C;
            for x in layout:
                if (isinstance(x, LTTextBoxHorizontal)):
                    with open(f'{text_path2}.txt', 'a',encoding='utf-8') as f:
                        results = x.get_text()
                        print(results)
                        f.write(results + "\n")
                    f.close()
    print("------&#x8F6C;&#x6362;&#x5B8C;&#x6210;------")

------------------&#x4E8C;---------------

def fun():
    # &#x8BFB;&#x53D6;&#x6587;&#x672C;
    txt = open(f"{text_path2}.txt", "r", encoding='utf-8').read()
    # &#x4F7F;&#x7528;&#x7CBE;&#x786E;&#x6A21;&#x5F0F;&#x5BF9;&#x6587;&#x672C;&#x8FDB;&#x884C;&#x5206;&#x8BCD;
    words = jieba.lcut(txt)
    # &#x901A;&#x8FC7;&#x952E;&#x503C;&#x5BF9;&#x7684;&#x5F62;&#x5F0F;&#x5B58;&#x50A8;&#x8BCD;&#x8BED;&#x53CA;&#x5176;&#x51FA;&#x73B0;&#x7684;&#x6B21;&#x6570;
    counts = {}
    for word in words:
        # &#x53BB;&#x6389;&#x8BCD;&#x8BED;&#x4E2D;&#x7684;&#x7A7A;&#x683C;
        word = word.replace('  ', '')
        # &#x5982;&#x679C;&#x8BCD;&#x8BED;&#x957F;&#x5EA6;&#x4E3A;1&#xFF0C;&#x5219;&#x5FFD;&#x7565;&#x7EDF;&#x8BA1;
        if len(word) == 1:
            continue
        # &#x8FDB;&#x884C;&#x7D2F;&#x8BA1;
        else:
            counts[word] = counts.get(word, 0) + 1
    # # &#x5C06;&#x5B57;&#x5178;&#x8F6C;&#x4E3A;&#x5217;&#x8868;
    # items = list(counts.items())
    # # &#x6839;&#x636E;&#x8BCD;&#x8BED;&#x51FA;&#x73B0;&#x7684;&#x6B21;&#x6570;&#x8FDB;&#x884C;&#x4ECE;&#x5927;&#x5230;&#x5C0F;&#x6392;&#x5E8F;
    # items.sort(key=lambda x: x[1], reverse=True)

    # &#x67E5;&#x627E;&#x6307;&#x6570;&#x8BCD;(&#x81EA;&#x5B9A;&#x4E49;&#x8BCD;&#x5E93;)
    cKu = ["&#x4EBA;&#x5DE5;&#x667A;&#x80FD;","&#x7F51;&#x8054;","&#x5E73;&#x53F0;","&#x667A;&#x80FD;&#x7A7F;&#x6234;","&#x667A;&#x6167;&#x519C;&#x4E1A;","&#x667A;&#x80FD;&#x98CE;&#x63A7;","&#x667A;&#x80FD;&#x4EA4;&#x901A;","&#x667A;&#x80FD;&#x533B;&#x7597;","&#x667A;&#x80FD;&#x5BA2;&#x670D;","&#x667A;&#x80FD;&#x6295;&#x987E;","&#x667A;&#x80FD;&#x67DC;&#x53F0;","&#x6570;&#x5B57;&#x8425;&#x9500;","&#x6570;&#x5B57;&#x91D1;&#x878D;","Fintech","&#x91D1;&#x878D;&#x79D1;&#x6280;","&#x91CF;&#x5316;&#x91D1;&#x878D;","&#x5F00;&#x653E;&#x94F6;&#x884C;","API","&#x7F51;&#x94F6;","&#x79C1;&#x4EBA;&#x94F6;&#x884C;","&#x573A;&#x666F;","&#x4F9B;&#x5E94;&#x94FE;&#x91D1;&#x878D;","&#x6570;&#x5B57;&#x666E;&#x60E0;&#x91D1;&#x878D;","&#x4E92;&#x8054;&#x7F51;&#x91D1;&#x878D;","&#x624B;&#x673A;&#x94F6;&#x884C;","APP","NFC&#x652F;&#x4ED8;","&#x79FB;&#x52A8;&#x652F;&#x4ED8;","&#x624B;&#x673A;&#x652F;&#x4ED8;","&#x7B2C;&#x4E09;&#x65B9;&#x652F;&#x4ED8;","&#x7535;&#x5B50;&#x5546;&#x52A1;","&#x79C1;&#x4EBA;&#x94F6;&#x884C;","B2B","B2C","C2B","C2C","O2O","&#x5927;&#x6570;&#x636E;","&#x6570;&#x5B57;&#x6316;&#x6398;","&#x4FE1;&#x606F;&#x79D1;&#x6280;","&#x6587;&#x672C;&#x6316;&#x6398;","&#x6570;&#x636E;&#x53EF;&#x89C6;&#x5316;","&#x5F02;&#x6784;&#x6570;&#x636E;","&#x5F81;&#x4FE1;","&#x589E;&#x5F3A;&#x73B0;&#x5B9E;","&#x6DF7;&#x5408;&#x73B0;&#x5B9E;","&#x865A;&#x62DF;&#x73B0;&#x5B9E;","&#x6570;&#x636E;&#x5206;&#x6790;","IT","&#x7269;&#x8054;&#x7F51;","&#x4FE1;&#x606F;&#x7269;&#x7406;&#x7CFB;&#x7EDF;","&#x79C1;&#x6709;&#x4E91;","&#x516C;&#x6709;&#x4E91;","&#x4E91;&#x8BA1;&#x7B97;","&#x6D41;&#x8BA1;&#x7B97;","&#x56FE;&#x8BA1;&#x7B97;","&#x5185;&#x5B58;&#x8BA1;&#x7B97;","&#x591A;&#x65B9;&#x5B89;&#x5168;&#x8BA1;&#x7B97;","&#x7C7B;&#x8111;&#x8BA1;&#x7B97;","&#x7EFF;&#x8272;&#x8BA1;&#x7B97;","&#x8BA4;&#x77E5;&#x8BA1;&#x7B97;","&#x878D;&#x5408;&#x67B6;&#x6784;","&#x4EBF;&#x7EA7;&#x5E76;&#x53D1;","EB&#x7EA7;&#x5B58;&#x50A8;","&#x533A;&#x5757;&#x94FE;","&#x6570;&#x5B57;&#x8D27;&#x5E01;","&#x5206;&#x5E03;&#x5F0F;&#x8BB0;&#x8D26;","&#x5206;&#x5E03;&#x5F0F;&#x8BA1;&#x7B97;","&#x5DEE;&#x5206;&#x9690;&#x79C1;&#x6280;&#x672F;","&#x667A;&#x80FD;&#x91D1;&#x878D;&#x5408;&#x7EA6;","&#x5546;&#x4E1A;&#x667A;&#x80FD;","&#x56FE;&#x50CF;&#x7406;&#x89E3;","&#x6295;&#x8D44;&#x51B3;&#x7B56;&#x8F85;&#x52A9;&#x7CFB;&#x7EDF;","&#x667A;&#x80FD;&#x6570;&#x636E;&#x5206;&#x6790;","&#x5171;&#x4EAB;","&#x673A;&#x5668;&#x5B66;&#x4E60;","&#x8BED;&#x4E49;&#x641C;&#x7D22;","&#x751F;&#x7269;&#x8BC6;&#x522B;&#x6280;&#x672F;","&#x4EBA;&#x8138;&#x8BC6;&#x522B;","&#x8BED;&#x97F3;&#x8BC6;&#x522B;","&#x8EAB;&#x4EFD;&#x9A8C;&#x8BC1;","&#x4EBA;&#x7269;&#x753B;&#x50CF;","&#x7CBE;&#x51C6;&#x5339;&#x914D;","&#x5B9A;&#x5236;","&#x654F;&#x6377;&#x5316;"]
    nums = 0

    for wd in cKu:
        for word,val in counts.items():
            # print(f"{word} = {val}")
            if wd == word:
                nums += val
    print(f"&#x8BCD;&#x9891;&#x6570;: {nums}")
    print("&#x53D6;&#x5BF9;&#x6570;&#x540E;: {:.4f}".format(np.log(nums)))

if __name__ == '__main__':
    parse()
    time2 = time.time()
    print("&#x603B;&#x5171;&#x6D88;&#x8017;&#x65F6;&#x95F4;&#x4E3A;:", time2 - time1)
    fun()

但是我还是有问题各类大大小小的问题，故也可使用这一块的代码【缺点是效率低】：

coding:utf-8
import os
import re
from pdfminer.converter import LTChar, TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfparser import PDFParser
from pdfminer.pdfdocument import PDFDocument
from pdfminer.pdfpage import PDFTextExtractionNotAllowed
from pdfminer.pdfpage import PDFPage
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LAParams, LTTextBox
from io import StringIO
from io import open

#&#x8BFB;&#x53D6;pdf&#x6587;&#x4EF6;&#x6587;&#x672C;&#x5185;&#x5BB9;
def read(path):
    parser = PDFParser(path)
    doc = PDFDocument(parser, '')
    parser.set_document(doc)
    if not doc.is_extractable:
        raise PDFTextExtractionNotAllowed
    else:
        # &#x521B;&#x5EFA;PDf &#x8D44;&#x6E90;&#x7BA1;&#x7406;&#x5668; &#x6765;&#x7BA1;&#x7406;&#x5171;&#x4EAB;&#x8D44;&#x6E90;
        rsrcmgr = PDFResourceManager()
        # &#x521B;&#x5EFA;&#x4E00;&#x4E2A;PDF&#x805A;&#x5408;&#x5668;&#xFF0C;&#x5305;&#x542B;&#x8D44;&#x6E90;&#x7BA1;&#x7406;&#x5668;&#x4E0E;&#x53C2;&#x6570;&#x5206;&#x6790;&#x5668;
        laparams = LAParams()
        device = PDFPageAggregator(rsrcmgr, laparams=laparams)
        # &#x521B;&#x5EFA;&#x4E00;&#x4E2A;PDF&#x89E3;&#x91CA;&#x5668;&#x5BF9;&#x8C61;
        interpreter = PDFPageInterpreter(rsrcmgr, device)
        # &#x5FAA;&#x73AF;&#x904D;&#x5386;&#x5217;&#x8868;&#xFF0C;&#x6BCF;&#x6B21;&#x5904;&#x7406;&#x4E00;&#x4E2A;page&#x7684;&#x5185;&#x5BB9;
        page0 = ''
        for i, page in enumerate(PDFPage.create_pages(doc)):
            interpreter.process_page(page)
            print("START PAGE %d\n" % i)
            if page is not None:
                interpreter.process_page(page)
            print("END PAGE %d\n" % i)
            # &#x63A5;&#x53D7;&#x8BE5;&#x9875;&#x9762;&#x7684;LTPage&#x5BF9;&#x8C61;
            layout = device.get_result()
            print(layout)
            # &#x8FD9;&#x91CC;layout&#x662F;&#x4E00;&#x4E2A;LTPage&#x5BF9;&#x8C61;&#xFF0C;&#x91CC;&#x9762;&#x5B58;&#x653E;&#x7740;&#x8FD9;&#x4E2A; page &#x89E3;&#x6790;&#x51FA;&#x7684;&#x5404;&#x79CD;&#x5BF9;&#x8C61;
            # &#x5305;&#x62EC; LTTextBox, LTFigure, LTImage, LTTextBoxHorizontal &#x7B49;
            line0 = ''
            for x in layout:
                if isinstance(x, LTTextBox):
                    line0 = line0 + x.get_text().strip()
            page0 = page0 + line0
        return page0 #&#x8FD4;&#x56DE;pdf&#x6587;&#x4EF6;&#x4E2D;&#x6240;&#x6709;&#x63D0;&#x53D6;&#x5230;&#x7684;&#x6587;&#x672C;&#x5185;&#x5BB9;

if __name__ == '__main__':
    path = '&#x9700;&#x8981;&#x627E;DF&#x7684;&#x94F6;&#x884C;'
    pdfList = os.listdir(path)
    #&#x6279;&#x91CF;&#x8BFB;&#x53D6;&#x5B58;&#x50A8;
    pdf_num = 0
    for li in pdfList:
        try:
            pdffile = open(path + '/' + li, "rb")
            content = read(pdffile)
        except:
            continue
        str = re.sub('.pdf', '.txt', li)
        file1 = 'txt1/' + str
        with open(file1, 'w+', encoding='utf8') as f:
            f.write(content)
        pdf_num = pdf_num + 1
        # handleData(str)
        print("DONE:" + str )
    print('number of done-article:',end = "")
    print(pdf_num)

终于成功解决了转换问题！！

后续完整代码有时间再更新…

Original: https://www.cnblogs.com/HanaKoo/p/16490282.html
Author: HanaKoo
Title: 【Python】数据分析、爬取PDF文件使用Jieba词库进行分析计算银行数字化转型指数

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/568330/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

心电图分类（一维数组）实现类激活图CAM可视化

最近希望通过观察特征的重要性进行模型分析，通过下面这篇文章了解了神经网络当中存在一些可视化操作，Keras实现卷积神经网络(CNN)可视化，包括有：主要的四种可视化模式：卷积核输…

人工智能 2023年7月3日
0073
目标检测（Object Detection）

目标检测基本概念+Yolo介绍原文地址：https://www.yuque.com/huoxiangshouxiangwanghuo/xg3nah/giwl7l 目标检测（Obj…

人工智能 2023年5月28日
0071
tensorflow出现报错： Could not locate zlibwapi.dll或者Could not load library cudnn_cnn_infer64_8.dll.

Could not locate zlibwapi.dll 原因：没有安装zlip. 1.安装并配置zlib下载地址：http://www.winimage.com/zLibDll…

人工智能 2023年7月6日
0060
python爬虫，用scrapy爬取天天基金

python爬虫，用scrapy爬取天天基金学了一段时间的爬虫，准备做个爬虫练习巩固一下，于是选择了天天基金进行数据爬取，中间遇到的问题和解决方法也都记录如下。附上代码地址：ht…

人工智能 2023年7月17日
00143
神经网络介绍

一、为什么要学习神经网络因为之前所学的分类算法，比如线性回归、逻辑回归等，都有一个缺点，即：当特征太多时，计算的负荷会很大。二、模型表示 2.1 概述神经网络是一种仿生模型。…

人工智能 2023年6月13日
0092
数学建模：整数规划示例模型 (Python 求解)

用 Python 求解整数规划模型只需用 cvxpy 模块在建立变量时指定 integer=True 即可, 即 x=cp.Variable(shape=(),integer=Tr…

人工智能 2023年7月15日
00113
【论文笔记_多教师知识蒸馏_2022】CONFIDENCE-AWARE MULTI-TEACHER KNOWLEDGE DISTILLATION

; 摘要知识蒸馏最初是为了利用单个教师模型的额外监督来进行学生模型培训。为了提高学生的表现，最近的一些变体试图利用来自多名教师的不同知识来源。然而，现有的研究主要通过对多个教师预…

人工智能 2023年7月12日
0058
SegNeXt: 重新思考基于卷积注意力的语义分割

GitHub：https://github.com/Visual-Attention-Network/SegNeXtPaper：https://arxiv.org/pdf/2209…

人工智能 2023年7月25日
0061
XGB(有监督学习)和多维时序模型结合——预测风电出力

新能源风力发电机上保存有很多实时传感器的感应数据。解决的问题： 1，想要通过传感器数据预测未来一段时间出力功率。2，单XGB等有监督的机器学习模型，根据输入感应器数据预测出力功率…

人工智能 2023年6月23日
0098
STM32FC8T6音频数据的Flash读取与DAC播放

目录一、任务阐述二、什么是Flash 三、CubeMX配置四、Keil中代码配置五、调试六、基于片内Flash的提示音播放程序 1、使用DAC输出周期2khz的正弦波…

人工智能 2023年5月23日
0065
Python基础(适合初学-完整教程-学习时间一周左右-节约您的时间)

Python基础——核心文章前言本系列博客所有内容都是【实际操作】为主，部分内容一定要解释说明的会伴随少量的理论说明，在【最短时间内】让大家【掌握】真正的【实操技能】才…

人工智能 2023年7月3日
0061
Linux下动静态库的制作与使用

学习导航 * – 一、关于动静态库的基本认识 – 二、设计库的工程师角度 – + (1)制作静态库 + (2)制作动态库 – 二、使…

人工智能 2023年6月29日
0060
第4章前馈神经网络

系列文章目录第1章绪论第2章机器学习概述第3章线性模型第4章前馈神经网络第5章卷积神经网络第6章循环神经网络第7章网络优化与正则化第8章注意力机制与外部记忆第9章…

人工智能 2023年6月28日
0064
幼儿园小程序实战开发教程

目录 1 需求分析 * 1.1 首页原型 1.2 报名详情页 1.3 图文展示 1.4 我的页面 2 数据源设计 * 2.1 园所信息 2.2 通知公告 2.3 精彩活动 2.4 …

人工智能 2023年7月1日
0091
长短时记忆网络 LSTM

3. 从公式层面理解LSTM 前边我们从宏观上解释了LSTM是如何工作的，接下来我深入到LSTM单元内部进行介绍，看看它是如何保持数据的长期依赖的。我们先来看下LSTM单元内部是什…

人工智能 2023年6月4日
0056
NVIDIA-VPI(Vision Programming Interface)

Vision Programming Interface(VPI)是英伟达高性能计算机视觉计算机视觉计算机视觉/图像处理算法库。VPI这个新库, 能自动利用CPU, 能利用GPU,…

人工智能 2023年6月20日
00197

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

【Python】数据分析、爬取PDF文件使用Jieba词库进行分析计算银行数字化转型指数

三、终制版代码

四、追更：

大家都在看