Python日常练习二

2023年8月21日下午6:35 • Python • 阅读 61

自从美赛过去后好久没玩Python了，很多函数忘了，好不熟练。因为学科作业和舍友问我些了个python的作业，打算记录一下。

这个是我舍友网上自学Python时的一个问题，常规的切片操作。

import pandas as pd
Data=pd.Series(data=['大数据','互联网',
             '技术','数据','结构化',
             '处理','难点','分析',
             '很大','合适','平台'])
x='互联网大数据技术与分析平台'

x+=' '
ans=''
while len(x)>1:
    f=0
    for i in range(-1,-len(x),-1):
        y=x[:i]
        for j in range(11):
            if y==Data[j]:
                ans+=Data[j]
                ans+='/'
                x=x[i:]
                f=1
                break
        if f==1:
            break
    if f==0:
        ans+=x[0:1]
        ans+='/'
        x=x[1:]
print(ans[:-1])

因为我逆取，最后一位涉及不到，所以加了个空字符，还能化简，但这思路简单。

读取书籍信息，统计总出版量前3的出版社：假设书名没有重复
• 使用条状图对结果进行显示
• 扩展：按年对各出版社当年的图书出版数量进行统计 2014-2019

读入中文文件时经常有不理解的编码问题，你可以用下面这个函数判断自己可以用哪种方法来读入。
上面那个是分析的链接，复制了别人的代码，讲真我只会下面这代码的方法一、三。

def open_CSV_file(file_name):
   import pandas as pd
   import csv
   try:
       f=open(file_name,'r',encoding='utf-8')
       data1=pd.read_csv(f,engine='python')
   except Exception:
       print('method1 died')
   try:
       csv_reader = csv.reader(open(file_name, encoding='utf-8'))
       data2=pd.DataFrame(csv_reader)
   except Exception:
       print('method2 died')
   try:
       data3=pd.read_csv(file_name,encoding='gbk',header=None)
   except Exception:
       print('method3 died')
   try:
       csv_reader = csv.reader(open(file_name, encoding='gbk'))
       data4=pd.DataFrame(csv_reader)
   except Exception:
       print('method4 died')
   try:
       data5=pd.read_csv(file_name,header=0,encoding='gbk',error_bad_lines=False)
   except Exception:
       print('method5 died')
   try:
       f=open(file_name,'r',encoding='ISO-8859-1')
       data6=pd.read_csv(f,engine='python')
   except Exception:
       print('method6 died')
   try:
       f=open(file_name,'r',encoding='gb18030')
       data7=pd.read_csv(f,engine='python')
   except Exception:
       print('method7 died')

open_CSV_file(r"C:\Users\沈\Desktop\book_list.csv")

自己调试了的结果。然后就可以用第三种方法读入。

根据美赛习惯，我总喜欢先输出下面这行代码

ps：不要问我为什么地址这么长，因为我懒得换目录，各个文件也是分散的，干脆复制路径了

data=pd.read_csv(r"C:\Users\沈\Desktop\book_list.csv",encoding='gbk')
print(data.describe())

毕竟数据不能这么简单分析，我还没做数据规范化，也看不出什么。

下面正文：
ps：下面这个是我同学写的，和他同时写，没他写得快，干脆用他的代码了。

import re
import pandas as pd
import matplotlib.pyplot as plt
def main():
    data=read(r'book_list.csv')
    draw(data,3)
def read(file):
    data = pd.read_csv(file,encoding='gbk')
    rows = data.shape[0]
    publisher = []
    for i in range(rows):
        name = re.findall(r"出版信息：(.*?)/.*?", data['出版社'][i])
        name = name[0].strip()
        publisher.append(name)

    dic_count = {}
    for item in publisher:
        dic_count[item] = dic_count.get(item, 0) + 1

    result = sorted(dic_count.items(), key=lambda item: item[1], reverse=True)

    return result
def draw(data,num):

    plt.rcParams['font.sans-serif'] = ['SimHei']
    plt.rcParams['axes.unicode_minus'] = False
    publisher_name = [data[i][0] for i in range(min(len(data),num))]
    publisher_name = tuple(publisher_name)
    publish_num = [data[i][1] for i in range(min(len(data),num))]
    print(publisher_name)
    print(publish_num)
    plt.bar(publisher_name,publish_num,color='r')
    plt.title('出版社出版量统计',fontsize=20)
    plt.xlabel('出版社',fontsize=16)
    plt.ylabel('出版书籍数量',fontsize=16)
    plt.show()
if __name__ == "__main__":
    main()

str.strip() ：去除字符串两边的空格（’\n’,’\t’,’ ‘,’\r’）

幸好这题只是取前三的，图可以出来。

但这代码里还是有问题的，我发现有一组样例的’出版社’是 出版信息： Marc P. Cosentino / Burgee Press / 2005-09-05。我们正则表达式是以 ‘/’ 为界限，而这个样例没有价格，前面第一个是作者，第二个才是出版社。
再如 出版信息： 邱凯生 / 2008-4 / 45.00元或 出版信息： Little, Brown and Company / 2008-11-18 / CAD 30.99这种不含’出版社’或’Press’的。
正则表达式需要修改。

什么你要问我价格怎么办？其实很多样例中价格的形式还是 USD +数字（美元）或其它面值（还有空值，没有单位的），得转换相同单位，而且这题没问价格相关的题，完全可以无视。

举几个特例（啊，像极了美赛时处理各种数据的时候）

&#x51FA;&#x7248;&#x4FE1;&#x606F;&#xFF1A;  &#x5317;&#x4EAC;&#x8054;&#x5408;&#x51FA;&#x7248;&#x516C;&#x53F8;&#xB7;&#x540E;&#x6D6A;&#x51FA;&#x7248;&#x516C;&#x53F8; / 2015-6 / 36.00&#x5143;
&#x51FA;&#x7248;&#x4FE1;&#x606F;&#xFF1A;  Ecco / 2015-5-19 / USD 28.99
&#x51FA;&#x7248;&#x4FE1;&#x606F;&#xFF1A;  Little, Brown and Company / 2008-11-18 / CAD 30.99
&#x51FA;&#x7248;&#x4FE1;&#x606F;&#xFF1A; Marc P. Cosentino / Burgee Press / 2005-09-05
&#x51FA;&#x7248;&#x4FE1;&#x606F;&#xFF1A;  100PAGES PRESS / 2004 / 120
&#x51FA;&#x7248;&#x4FE1;&#x606F;&#xFF1A;  &#x6EDA;&#x77F3;&#x6587;&#x5316;&#x80A1;&#x4EFD;&#x6709;&#x9650;&#x516C;&#x53F8; / 1997.12 / &#x65B0;&#x53F0;&#x5E01; 1800
&#x51FA;&#x7248;&#x4FE1;&#x606F;&#xFF1A;  &#x673A;&#x68B0;&#x5DE5;&#x4E1A;&#x51FA;&#x7248;&#x793E; / 2011&#x5E74; / 48.00&#x5143;
&#x51FA;&#x7248;&#x4FE1;&#x606F;&#xFF1A;  &#x90B1;&#x51EF;&#x751F; / 2008-4 / 45.00&#x5143;

之后我假设：
字符中只有”press”（不区分大小写）或”出版社”的才算严格意义上的出版社，其他个人名义或公司名义的不算。

复习一下：

re函数：compile、match、search、findall的区别

要注意以下几点：
1、数量词的贪婪模式与非贪婪模式
2、反斜杠的运用
3、匹配模式

于是正则表达式改成下面这两种，分别匹配中文和英文的情况。

`python
a=’出版信息：滚石文化股份有限公司 / 1997.12 / 新台币 1800′
b=’出版信息：机械工业出版社 / 2011年 / 48.00元’
x=’出版信息： Marc P. Cosentino / Burgee Press / 2005-09-05′
y=’出版信息： 100PAGES PRESS / 2004 / 120′
regex1=re.compile(r'(\w+\s+press)’,re.I)
regex2=re.compile(r'([\u4e00-\u9fff]+出版社)’)
print(regex1.findall(x))
print(regex2.findall(b))

Original: https://blog.csdn.net/weixin_45606191/article/details/115433047
Author: 蒲公英之殇
Title: Python日常练习二

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/755969/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

我的Blog——python封装为exe的注意事项（封装exe看这一篇基本就够了）

目录如何封装成exe？ 1.auto-py-to-exe（推荐） 2.Pyinstaller 如何使用：主页： pyinstaller-pypihttps://pypi.org…

Python 2023年8月9日
0063
__call__用法简谈

python一切皆对象，从是否可调用层面讲，对象又可以分为可调用对象、不可调用对象在本篇中，类中实现__call__双下方法，即将该类的实例变为可调用对象普通类未实现__cal…

Python 2023年10月31日
0030
drf 过滤、排序、分页、异常处理

内容概要过滤排序分页异常处理内容详细过滤过滤是涉及到查询数据的接口才需要过滤功能 DRF 中使用的过滤方式： 1、内置过滤类在请求数据中用”sear…

Python 2023年5月24日
0083
数据库管理系统（基于前端+后端+数据库）

库存管理系统包括模块：（1）基本信息管理。（2）商品入库管理。（3）商品出库管理。（4）商品查询管理。（5）查看商品目录。 *实训步骤：开发环境：html , css…

Python 2023年8月1日
0053
python将字符串转为多维列表的一个思路(探索ing)

这边就提供一个思路好了，废话不多说，直接上代码 box = [] needTurn = ‘123456,123456,123456’ box = needTurn.split(‘,…

Python 2023年6月9日
0060
python手机端游戏排行_利用Python开发手机同款游戏：开心消消乐

手机上面的开心消消乐，我想大部分人都是玩过的吧，今天小编就教大家如何用python开发这款游戏不过只有十个关卡，不像手机里面那么多的关卡！不过游戏的画面和bgm都是同款的哦~ 效…

Python 2023年9月23日
0039
Paper Reading – 综述系列 – 计算机视觉领域中目标检测任务常见问题与解决方案

目录小目标检测数据方面 Label Smoothing 模型方面样本不均衡目标遮挡 More 更多可见计算机视觉-Paper&Code – 知乎小目标…

Python 2023年8月2日
0052
flask-socketio：安装

要在Java客户端连接到服务器，您需要使用客户端库。以下是一些步骤： 1. 在Java应用程序中，使用Maven或Gradle等构建工具将客户端库添加到您的项目中。例如，可以…

Python 2023年8月11日
0056
bugku CTF练习：Flask_FileUpload思路

https://ctf.bugku.com/challenges/detail/id/204.html 打开页面是这个样子。右键查看源代码。它提示我说会用Python去执行。太棒…

Python 2023年8月13日
0042
django–ORM表的多对一关系

*多对一关系是什么 Django使用 django.db.models.ForeignKey定义多对一关系。 ForeignKey需要一个位置参数：与该模型关联的类 class I…

Python 2023年5月23日
0068
pandas中DataFrame字典互转

1. dict转化为DataFrame 根据dict形式的不同，选择不同的转化方式，主要用的方法是 DataFrame.from_dict，其官方文档如下： pandas.Data…

Python 2023年8月6日
0032
python 创建空的dataframe_python 创建一个空dataframe 然后添加行数据的实例

实例如下所示： import pandas as pd import re import math dframe1 = pd.read_excel(“window re…

Python 2023年8月19日
0036
常见图形绘制（Matplotlib能够绘制折线图、散点图、柱状图、直方图、饼图。）

目录散点图绘制柱状图绘制直方图绘制饼图绘制图小结散点图绘制散点图：用两组数据构成多个坐标点，考察坐标点的分布,判断两变量之间是否存在某种关联或总结坐标点的分布模式。特…

Python 2023年9月5日
0039
python dataframe 列截取_python – 获取DataFrame列作为值列表

我正在尝试将pandas DataFrame的列作为值列表. 我可以使用iloc访问第一列： df.ix[:,[0]].values 但是,它返回一个列表数组： df3.ix[:,…

Python 2023年8月8日
0051
【scrapy实战】获取我的博客信息

需求之前写过一个blog，是通过基本的bs4完成爬取的：传送门这样写动态爬虫的缺点包括：1.速度慢2.需要额外的解析3.要额外判断blink信息，没有容错机制因此，我们考虑使用…

Python 2023年10月1日
0027
pgzero：用 Python 进行游戏开发

1. pgzero python在各个领域都有着丰富的第三方库，pygame是python在游戏领域的应用库，可以用来开发各种不同的游戏。但是对于初学者来说，还是存在一定的门槛。 …

Python 2023年9月19日
0042

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Python日常练习二

大家都在看