列数据种类数量统计

2023年8月20日下午10:41 • Python • 阅读 68

列数据种类数量统计

主要基于pandas的unique函数
这个函数是为了方便分析数据的时候写出来的一个想法（大佬轻喷）

数量统计函数的代码

def Catg_stati(array):
    array_type = list(array.unique())
    array_list = list(array)
    array_num = []

    for i in range(len(array_type)):
        array_num.append(0)

    for i in array_list:
        for j in array_type:
            if i==j:
                array_num[array_type.index(j)]+=1

    for i in range(len(array_type)):
        for j in range(i,len(array_type)):
            if array_num[i] < array_num[j]:
                array_num[i],array_num[j]=array_num[j],array_num[i]
                array_type[i],array_type[j]=array_type[j],array_type[i]

    for i in range(len(array_type)):
        print(array_type[i],":",array_num[i])
    print(array_type)
    print(array_num)

现在让我们拿一个样例来测试一下

; 读取数据


import pandas as pd
data = pd.read_csv('scsdsjzx_fjfqxx_13473782712551364419.csv',encoding="gbk")
data.head(1)

发布时间市（州）县（市、区）风险级别更新时间02020年2月28日成都市青羊区、成华区、龙泉驿区、青白江区、蒲江县、新津县、都江堰市、彭州市、崇州市、双流区低风险03:57.0

选两个较有意义的数据列保存

city = data["市（州）"]
level = data["风险级别"]

data.loc[:,"city_level"] = city + level

引入统计数量的函数

def Catg_stati(array):
    array_type = list(array.unique())
    array_list = list(array)
    array_num = []

    for i in range(len(array_type)):
        array_num.append(0)

    for i in array_list:
        for j in array_type:
            if i==j:
                array_num[array_type.index(j)]+=1

    for i in range(len(array_type)):
        for j in range(i,len(array_type)):
            if array_num[i] < array_num[j]:
                array_num[i],array_num[j]=array_num[j],array_num[i]
                array_type[i],array_type[j]=array_type[j],array_type[i]

    for i in range(len(array_type)):
        print(array_type[i],":",array_num[i])

调用

Catg_stati( city )

运行结果：
甘孜藏族自治州 : 252
成都市 : 248
绵阳市 : 245
广元市 : 245
遂宁市 : 245
内江市 : 245
眉山市 : 245
宜宾市 : 245
广安市 : 245
达州市 : 245
雅安市 : 245
巴中市 : 245
资阳市 : 245
德阳市 : 245
凉山彝族自治州 : 245
泸州市 : 244
自贡市 : 242
乐山市 : 239
攀枝花市 : 237
南充市 : 237
低风险 : 236
阿坝藏族羌族自治州 : 233

Catg_stati( level )

运行结果：
低风险 : 4565
中风险 : 309
高风险 : 7
nan : 0

Catg_stati( data["city_level"] )

运行结果：
成都市低风险 : 229
自贡市低风险 : 229
攀枝花市低风险 : 229
泸州市低风险 : 229
德阳市低风险 : 229
绵阳市低风险 : 229
广元市低风险 : 229
遂宁市低风险 : 229
内江市低风险 : 229
乐山市低风险 : 229
眉山市低风险 : 229
宜宾市低风险 : 229
广安市低风险 : 229
达州市低风险 : 229
雅安市低风险 : 229
巴中市低风险 : 229
资阳市低风险 : 229
阿坝藏族羌族自治州低风险 : 229
凉山彝族自治州低风险 : 222
南充市低风险 : 221
成都市中风险 : 19
广元市中风险 : 16
遂宁市中风险 : 16
内江市中风险 : 16
南充市中风险 : 16
眉山市中风险 : 16
宜宾市中风险 : 16
广安市中风险 : 16
达州市中风险 : 16
雅安市中风险 : 16
巴中市中风险 : 16
资阳市中风险 : 16
甘孜藏族自治州中风险 : 16
凉山彝族自治州中风险 : 16
德阳市中风险 : 16
绵阳市中风险 : 16
泸州市中风险 : 15
自贡市中风险 : 13
乐山市中风险 : 10
攀枝花市中风险 : 8
甘孜藏族自治州高风险 : 7
阿坝藏族羌族自治州中风险 : 4
nan : 0

主要思路

函数的主要是通过pandas的unique函数把一个列的数据保存到一个列表里，然后再通过与原数据列的对比，统计每个类型数据的个数

Original: https://blog.csdn.net/wutong1357924680/article/details/112788924
Author: wutong1357924680
Title: 列数据种类数量统计

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/755210/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

听说你还在不停的粘贴复制？Python用1秒实现excel列合并

一、了解需求 excel数据如下，而需求就是将版型、变速箱、环保标准三列进行合并，并将合并结果添加到新列—— 备注列中。而会玩 Python的老amy一想，这还不简单?直接…

Python 2023年8月17日
0053
pandas pd.read_excel ()

pd.read_excel () 首先，认识一下pd.read_excel（），函数的官方文档是这么说的：将Excel文件读取到pandas DataFrame中，支持本地文件系…

Python 2023年8月8日
0041
西储大学(CWRU)轴承数据集故障诊断(一)：数据读取，数据集划分

CWRU轴承数据集故障诊断博客编写背景 * 数据集读取训练与测试完整数据读取代码博客编写背景本次博客是对深度学在机械设备的故障诊断(模式识别)领域的入门级的基础教程，主要…

Python 2023年8月1日
0056
四十分钟带你玩儿转Python-OpenCV（一）

14天学习训练营导师课程：李宁《Python Pygame游戏开发入门与实战》李宁《计算机视觉OpenCV Python项目实战》1李宁《计算机视觉OpenCV Python项目实…

Python 2023年9月27日
0051
Django中封装分页组件

Django中封装分页组件 (1) 定义Paginator类 from django.utils.safestring import mark_safe class Paginat…

Python 2023年11月1日
0039
机器学习——numpy

一、numpy概述 numpy用于快速处理任意维度的数组，主要来说就是对矩阵操作。 numpy是使用 ndarray对象来处理多维数组，该对象是一个快速而灵活的大数据容器。 …

Python 2023年8月29日
0043
Zookeeper 4 Zookeeper JavaAPI 操作 4.1 Curator 介绍 & 4.2 Curator API 常用操作【建立连接】

Zookeeper 【黑马程序员Zookeeper视频教程，快速入门zookeeper技术】文章目录 * – + Zookeeper + 4 Zookeeper Ja…

Python 2023年9月27日
0047
【Pandas】多种添加行列数据方法

发现自己学习python 的各种库老是容易忘记，所有想利用这个平台，记录和分享一下学习时候的知识点，以后也能及时的复习，最近学习pandas，那我们来看看pandas添加数据的一些…

Python 2023年8月16日
00103
Nginx下的反向代理双层代理负载均衡

最近正在开发项目，即用到了Java的Spring Boot，又用到了Python的Flask，为了保证在同一域名下访问，我使用了Nginx做反向代理，只代理一个还比较好配置，代理的…

Python 2023年8月14日
0052
机器学习强基计划0-2：什么是机器学习？和AI有什么关系？

目录 0 写在前面 1 什么是机器学习？ * 1.1 定义 1.2 编程逻辑 2 机器学习与AI的关系 * 2.1 人工智能三大学派 2.2 机器学习在AI中 3 机器学习能干什么…

Python 2023年10月8日
0043
【2019bike】数据处理记录

import pandas as pd import numpy as np import csv from datetime import datetime 零、数据筛选 0-1…

Python 2023年8月22日
0055
python中list,tensor,array相互转化

array=numpy.array(list) list=numpy.tolist() list=tensor.numpy().tolist() tensor=torch.Tens…

Python 2023年8月29日
0047
nginx+uwsgi+flask在linux服务器上部署

1、nginx的安装 1.1、下载官网地址：nginx.org/en/download.h Nginx官网提供了三个类型的版本Mainline version：Mainline …

Python 2023年8月9日
0050
Python量化交易实战：获取股票数据并做分析处理

量化交易（也称自动化交易）是一种应用数学模型帮助投资者进行判断，并且根据计算机程序发送的指令进行交易的投资方式，它极大地减少了投资者情绪波动的影响。量化交易的主要优势如下：快速检…

Python 2023年8月30日
00119
小学生python练习3–跳伞防鸟小游戏

from pgzrun import *from random import *sounds.bg.play(-1) WIDTH = 350HEIGHT = 700 bg1 = A…

Python 2023年9月21日
0055
Python库安装之requirements.txt, environment.yml

目录 1. 前言 2. requirements.txt 2.1 生成和使用命令 2.2 内容 3. environment.yml 3.1 常见问题 4. 总结 4.1 yml …

Python 2023年9月7日
0055

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

列数据种类数量统计

数量统计函数的代码

现在让我们拿一个样例来测试一下

; 读取数据

选两个较有意义的数据列保存

引入统计数量的函数

调用

主要思路

大家都在看