python之高级数据结构Collections

2023年5月25日上午9:06 • Python • 阅读 75

collections模块包含了内建类型之外的一些有用的工具，例如Counter、defaultdict、OrderedDict、deque以及nametuple。其中Counter、deque以及defaultdict是最常用的类。

如果你想统计一个单词在给定的序列中一共出现了多少次，诸如此类的操作就可以用到Counter。来看看如何统计一个list中出现的item次数：

分组:

下面的代码片段查找字符串中最常用的单词，并打印该单词出现的次数。

[En]

The following code snippet finds the most frequent word in a string and prints the number of times it appears.

Deque是一种由队列结构扩展而来的双端队列(double-ended queue)，队列元素能够在队列两端添加或删除。因此它还被称为头尾连接列表(head-tail linked list)，尽管叫这个名字的还有另一个特殊的数据结构实现。

Deque支持线程安全的，经过优化的append和pop操作，在队列两端的相关操作都能够达到近乎O(1)的时间复杂度。虽然list也支持类似的操作，但是它是对定长列表的操作表现很不错，而当遇到pop(0)和insert(0, v)这样既改变了列表的长度又改变其元素位置的操作时，其复杂度就变为O(n)了。

来看看相关的比较结果：

注:rotate是队列的旋转操作，Right rotate(正参数)是将右端的元素移动到左端，而Left rotate(负参数)则相反。

这个类型除了在处理不存在的键的操作之外与普通的字典完全相同。当查找一个不存在的键操作发生时，它的default_factory会被调用，提供一个默认的值，并且将这对键值存储下来。其他的参数同普通的字典方法dict()一致，一个defaultdict的实例同内建dict一样拥有同样地操作。

defaultdict对象在当你希望使用它存放追踪数据的时候很有用。举个例子，假定你希望追踪一个单词在字符串中的位置，那么你可以这么做：

另一种创建multidict的方法：

array模块定义了一个很像list的新对象类型，不同之处在于它限定了这个类型只能装一种类型的元素。array元素的类型是在创建并使用的时候确定的。

如果你的程序需要优化内存的使用，并且你确定你希望在list中存储的数据都是同样类型的，那么使用array模块很合适。举个例子，如果需要存储一千万个整数，如果用list，那么你至少需要160MB的存储空间，然而如果使用array，你只需要40MB。但虽然说能够节省空间，array上几乎没有什么基本操作能够比在list上更快。

在使用array进行计算的时候，需要特别注意那些创建list的操作。例如，使用列表推导式(list comprehension)的时候，会将array整个转换为list，使得存储空间膨胀。一个可行的替代方案是使用生成器表达式创建新的array。看代码：

因为使用array是为了节省空间，所以更倾向于使用in-place操作。一种更高效的方法是使用enumerate：

heapq模块使用一个用堆实现的优先级队列。堆是一种简单的有序列表，并且置入了堆的相关规则。

堆是一种树形的数据结构，树上的子节点与父节点之间存在顺序关系。二叉堆(binary heap)能够用一个经过组织的列表或数组结构来标识，在这种结构中，元素N的子节点的序号为2N+1和2N+2(下标始于0)。简单来说，这个模块中的所有函数都假设序列是有序的，所以序列中的第一个元素(seq[0])是最小的，序列的其他部分构成一个二叉树，并且seq[i]节点的子节点分别为seq[2i+1]以及seq[2i+2]。当对序列进行修改时，相关函数总是确保子节点大于等于父节点。

heapq模块有两个函数nlargest()和nsmallest()

两个函数还可以使用带有关键参数的更复杂的数据结构。

[En]

Two functions can also use more complex data structures with a key parameter.

bisect模块能够提供保持list元素序列的支持。它使用了二分法完成大部分的工作。它在向一个list插入元素的同时维持list是有序的。在某些情况下，这比重复的对一个list进行排序更为高效，并且对于一个较大的list来说，对每步操作维持其有序也比对其排序要高效。

假设你有一个range集合：

如果我想添加一个range (250, 400)，我可能会这么做：

bisect(sequence, item) => index 返回元素应该的插入点，但序列并不被修改。

weakref模块能够帮助我们创建Python引用，却不会阻止对象的销毁操作。这一节包含了weak reference的基本用法，并且引入一个代理类。

在开始之前，我们需要明白什么是strong reference。strong reference是一个对对象的引用次数、生命周期以及销毁时机产生影响的指针。strong reference如你所见，就是当你将一个对象赋值给一个变量的时候产生的：

Python

在这种情况下，这个列表有两个strong reference，分别是a和b。在这两个引用都被释放之前，这个list不会被销毁。

Python

Weak reference则是对对象的引用计数器不会产生影响。当一个对象存在weak reference时，并不会影响对象的撤销。这就说，如果一个对象仅剩下weak reference，那么它将会被销毁。

你可以使用weakref.ref函数来创建对象的weak reference。这个函数调用需要将一个strong reference作为第一个参数传给函数，并且返回一个weak reference。

Python

一个临时的strong reference可以从weak reference中创建，即是下例中的b()：

Python

请注意当我们删除strong reference的时候，对象将立即被销毁。

Python

如果试图在对象被摧毁之后通过weak reference使用对象，则会返回None：

Python

若是使用weakref.proxy，就能提供相对于weakref.ref更透明的可选操作。同样是使用一个strong reference作为第一个参数并且返回一个weak reference，proxy更像是一个strong reference，但当对象不存在时会抛出异常。

Python

引用计数器是由Python的垃圾回收器使用的，当一个对象的应用计数器变为0，则其将会被垃圾回收器回收。

最好将weak reference用于开销较大的对象，或避免循环引用(虽然垃圾回收器经常干这种事情)。

Python

提示：只有library模块中定义的class instances、functions、methods、sets、frozen sets、files、generators、type objects和certain object types(例如sockets、arrays和regular expression patterns)支持weakref。内建函数以及大部分内建类型如lists、dictionaries、strings和numbers则不支持。

通过shallow或deep copy语法提供复制对象的函数操作。

shallow和deep copying的不同之处在于对于混合型对象的操作(混合对象是包含了其他类型对象的对象，例如list或其他类实例)。

对于shallow copy而言，它创建一个新的混合对象，并且将原对象中其他对象的引用插入新对象。
对于deep copy而言，它创建一个新的对象，并且递归地复制源对象中的其他对象并插入新的对象中。

普通的赋值运算知识只是将中心变量指向源对象。

[En]

Ordinary assignment operation knowledge simply points the heart variable to the source object.

Python

shallow copy (copy())操作创建一个新的容器，其包含的引用指向原对象中的对象。

deep copy (deepcopy())创建的对象包含的引用指向复制出来的新对象。

假定我有两个类，名为Manager和Graph，每个Graph包含了一个指向其manager的引用，而每个Manager有一个指向其管理的Graph的集合，现在我们有两个任务需要完成：

1) 复制一个graph实例，使用deepcopy，但其manager指向为原graph的manager。

2) 复制一个manager，完全创建新manager，但拷贝原有的所有graph。

Python

Pprint模块能够提供比较优雅的数据结构打印方式，如果你需要打印一个结构较为复杂，层次较深的字典或是JSON对象时，使用Pprint能够提供较好的打印结果。

假定你需要打印一个矩阵，当使用普通的print时，你只能打印出普通的列表，不过如果使用pprint，你就能打出漂亮的矩阵结构

Python

一些基本的数据结构

Python

译者注：普林姆算法(Prims Algorithm)是图论中，在加权连通图中搜索最小生成树的算法。

Python

namedtuple

在Python中创建常规元组时，其元素是通用的且未命名，这迫使您记住每个元组元素的确切索引。可以使用具名元组namedtuple来解决这个问题。

该namedtuple()返回与用于所述元组中的每个位置和一个通用名固定名称的元组namedtuple对象。要使用namedtuple，请先为其创建一个模板。下面的代码创建一个namedtuple名为Person的模板，其属性为name，age和job。

创建模板后，您可以使用它来创建namedtuple对象。让我们使用Person模板为2个人创建2个namedtuple对象，并打印它们。

上面的代码非常简单。我们使用namedtuple 模板的所有属性来初始化”人员” ，以后可以直接使用Mike或Kate使用元组元素，而不用再使用索引了。上面的打印语句将给出以下结果：

因此，namedtuple能够更容易地使用，更合适元组对象的组织，可读性也更强。

在Python 3.5及以前之前版本，Python的字典dict是无序的。如果先键值A先插入字典，键值B后插入字典，但是当你打印字典的Keys列表时，你会发现B可能在A的前面。对于无序字典，每次打印字典时每次显示元素的顺序都不一样。如果你的Python版本较老，需要借助collections模块提供的OrderedDict实现有序字典。

OrderedDict类似于正常的字典，只是它记住了元素插入的顺序。当对有序的词字典上迭代时，返回元素的顺序是按第一次添加元素的顺序进行。当元素删除时，排好序的词典保持着排序的顺序；但是当新元素添加时，就会被添加到末尾。

OrderedDict实现方式如下：

Original: https://blog.51cto.com/u_11045899/5508767
Author: zlixing
Title: python之高级数据结构Collections

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/513245/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

pytest(12): 三种参数化方案

1.1 方法1 • 步骤: 1. 导入pytest 2. 在登陆的函数上面加@pytest.fixture() 3. 在要使用的测试方法中传入(登陆函数名称)，就先登陆 4. 不传…

Python 2023年9月10日
0042
小白如何做一个Python人工智能语音助手

小白如何做一个Python智能语音助手真的是小白？废话不说直接上图 * 1、录音 2、语音识别 3、接入图灵机器人 4、语音合成 5、播放语音前期准备源代码 * 1、录音 …

Python 2023年9月18日
0062
【Python百日进阶-Web开发-Feffery】Day317 – fac导航6：AntdPagination分页

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

Python 2023年8月13日
0040
Django是什么？

Django 是使用 Python 语言开发的一款免费而且开源的 Web 应用框架。由于 Python 语言的跨平台性，所以 Django 同样支持 Windows、Linux 和…

Python 2023年8月6日
0043
04-pytest自动化测试优化技巧

自动化测试是我们在进行测试工作中，常长会去做的一件事情。通常自动化测试能从手工测试中解放人力，时间，让测试更高效，也减轻负重业务回归测试时QA需要手动执行的测试用例数量。但是…

Python 2023年9月14日
0051
一文搞懂Pandas Dataframe中的apply方法

告诉你如何在Pandas数据框架中使用apply()的方法。扫码关注《Python学研大本营》，加入读者群，分享更多精彩热点在这篇文章中，我们将探索如何在DataFrame中…

Python 2023年8月7日
0056
c#入参使用引用类型为啥要加ref?

摘一段来自官网的说明：方法的参数列表中使用 ref 关键字时，它指示参数按引用传递，而非按值传递。 ref 关键字让形参成为实参的别名，这必须是变量。换而言之，对形参执行的任何…

Python 2023年10月14日
0042
脚本之美│VBS 入门交互实战

404. 抱歉，您访问的资源不存在。可能是网址有误，或者对应的内容被删除，或者处于私有状态。代码改变世界，联系邮箱 contact@cnblogs.com 园子的商业化努力-困…

Python 2023年6月12日
0061
谣言检测——《社会网络谣言检测综述》

（２）隐式特征隐式特征指的是无法直接获取, 需通过关联分析或数值计算得到的一种潜在特征, 如平均情感特征、用户可信度以及质疑率等, 如表 3 所示。 $\mathrm{Guo…

Python 2023年10月23日
0036
python matplotlib fig = plt.figure() fig.add_subplot()

一、matplotlib.pyplot.figure() Create a new figure, or activate an existing figure. matplotl…

Python 2023年9月1日
0056
React报错之Rendered more hooks than during the previous render

正文从这开始~ 总览当我们有条件地调用一个钩子或在所有钩子运行之前提前返回时，会产生”Rendered more hooks than during the prev…

Python 2023年10月23日
0022
NLP–社区检测算法(Community Detection)总结【原理】

文章目录文章目录社区检测(Community Detection) 社区社区检测社区检测与聚类的对比分析鲁汶算法(Louvain ) 莱顿社区检测(Leiden) 标签传…

Python 2023年9月28日
0033
python只取年份_python pandas从datetime中提取年份 – df [‘year’] = df [‘date’]。年份不起作用…

如果您正在运行最近版本的pandas，那么您可以使用datetime属性 dt来访问datetime组件： In [6]: df[‘date’] = pd….

Python 2023年8月20日
0084
OpenCV-Python实战（22）——使用Keras和Flask在Web端部署图像识别应用

OpenCV-Python实战（22）——使用Keras和Flask在Web端部署图像识别应用 * – 0. 前言 – 1. Keras 应用程序 &#82…

Python 2023年8月12日
0047
Django笔记十八之save函数的继承操作和指定字段更新等实例方法

这篇笔记主要介绍 Django 一些实例方法。什么是实例，我们知道通过filter() 的一些筛选方法，得到的是 QuerySet，而 QuerySet 取单条数据，通过索引，…

Python 2023年8月4日
0037
Spark中配置参数的优化

num-executors 参数说明：参数用于设置Spark作业总共要用多少个Executor进程来执行。Driver在向YARN集群管理器申请资源时，YARN集群管理器会尽可能…

Python 2023年6月3日
0080

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

python之高级数据结构Collections

namedtuple

大家都在看