数据分析实习代码总结【进阶】Python

2023年8月7日上午8:38 • Python • 阅读 40

import pandas as pd
import numpy as np
file_name0 =[r'&#x4FE1;&#x606F;&#x660E;&#x7EC6;&#x8868;-2021-1.csv',
            r'&#x4FE1;&#x606F;&#x660E;&#x7EC6;&#x8868;-2021-2.csv',
             r'&#x4FE1;&#x606F;&#x660E;&#x7EC6;&#x8868;-2021-3.csv',
             ...,
             r'&#x4FE1;&#x606F;&#x660E;&#x7EC6;&#x8868;-2021-50.csv'
            ]

df = []
for i in range(len(file_name0)):
    df.append(pd.read_csv(file_name0[i]))
data = pd.concat(df)

data.to_csv('&#x4FE1;&#x606F;&#x660E;&#x7EC6;&#x8868;-2021-1-50.csv',encoding='utf_8_sig', index=None)

df.name = df.name.str.replace('&#x516C;&#x53F8; ', '')
#&#x53BB;&#x91CD;&#x4FDD;&#x7559;&#x7B2C;&#x4E00;&#x4E2A;
df.drop_duplicates('name', keep='first', inplace=True)

dataset['repair_interval'] = pd.DataFrame(pd.to_datetime(dataset['repair_time'])-pd.to_datetime(dataset['online_time']))
&#x5C06;xx days&#x8F6C;&#x4E3A; xx&#x6570;&#x503C;
dataset.repair_interval = dataset.repair_interval.map(lambda x: x/np.timedelta64(1,'D'))

&#x53D6;&#x51FA;&#x6708;&#x4EFD;
dataset['activate_month'] = dataset['activate_time'].map(lambda x: x[:6])

遇到过一次最恶心的日期长这样：
0 14/八月/21 3:00 下午
1 29/七月/21 1:57 下午
2 29/三月/21 3:07 下午
3 05/七月/21 9:37 上午
4 16/六月/21 11:05 上午
解决方法：（笨但有用）

&#x53BB;&#x6389; &#x51E0;&#x70B9;&#x548C;&#x4E0A;&#x4E0B;&#x5348;
data1['&#x5DF2;&#x66F4;&#x65B0;'] = data1['&#x5DF2;&#x66F4;&#x65B0;'].str.split(' ',expand=True)[0]
&#x6708;&#x4EFD;&#x6539;&#x6210;&#x6570;&#x5B57;&#xFF0C; &#x6B64;&#x5904;&#x5E94;&#x8BE5;&#x53EF;&#x4EE5;&#x7B80;&#x5316;&#x4EE3;&#x7801;
data1['&#x5DF2;&#x66F4;&#x65B0;'] = data1['&#x5DF2;&#x66F4;&#x65B0;'].map(lambda x: str(x).replace('&#x5341;&#x4E8C;&#x6708;','12'))
data1['&#x5DF2;&#x66F4;&#x65B0;'] = data1['&#x5DF2;&#x66F4;&#x65B0;'].map(lambda x: str(x).replace('&#x5341;&#x4E00;&#x6708;','11'))
data1['&#x5DF2;&#x66F4;&#x65B0;'] = data1['&#x5DF2;&#x66F4;&#x65B0;'].map(lambda x: str(x).replace('&#x5341;&#x6708;','10'))
data1['&#x5DF2;&#x66F4;&#x65B0;'] = data1['&#x5DF2;&#x66F4;&#x65B0;'].map(lambda x: str(x).replace('&#x4E5D;&#x6708;','9'))
data1['&#x5DF2;&#x66F4;&#x65B0;'] = data1['&#x5DF2;&#x66F4;&#x65B0;'].map(lambda x: str(x).replace('&#x516B;&#x6708;','8'))
data1['&#x5DF2;&#x66F4;&#x65B0;'] = data1['&#x5DF2;&#x66F4;&#x65B0;'].map(lambda x: str(x).replace('&#x4E03;&#x6708;','7'))
data1['&#x5DF2;&#x66F4;&#x65B0;'] = data1['&#x5DF2;&#x66F4;&#x65B0;'].map(lambda x: str(x).replace('&#x516D;&#x6708;','6'))
data1['&#x5DF2;&#x66F4;&#x65B0;'] = data1['&#x5DF2;&#x66F4;&#x65B0;'].map(lambda x: str(x).replace('&#x4E94;&#x6708;','5'))
data1['&#x5DF2;&#x66F4;&#x65B0;'] = data1['&#x5DF2;&#x66F4;&#x65B0;'].map(lambda x: str(x).replace('&#x56DB;&#x6708;','4'))
data1['&#x5DF2;&#x66F4;&#x65B0;'] = data1['&#x5DF2;&#x66F4;&#x65B0;'].map(lambda x: str(x).replace('&#x4E09;&#x6708;','3'))
data1['&#x5DF2;&#x66F4;&#x65B0;'] = data1['&#x5DF2;&#x66F4;&#x65B0;'].map(lambda x: str(x).replace('&#x4E8C;&#x6708;','2'))
data1['&#x5DF2;&#x66F4;&#x65B0;'] = data1['&#x5DF2;&#x66F4;&#x65B0;'].map(lambda x: str(x).replace('&#x4E00;&#x6708;','1'))

data1['&#x5DF2;&#x66F4;&#x65B0;'] =pd.to_datetime(data1['&#x5DF2;&#x66F4;&#x65B0;'], format='%d/%m/%y', errors='coerce')
data1['&#x5DF2;&#x66F4;&#x65B0;']

output:
0 2021-08-14
1 2021-08-04
2 2021-08-04
3 2021-07-06
4 2021-07-06
…

#&#x76F4;&#x63A5;&#x6307;&#x5B9A;&#x4FEE;&#x6539;
ans.columns = ['WK41', 'WK42','WK43', 'WK44', 'WK45', 'WK46']
#&#x4FEE;&#x6539;&#x6307;&#x5B9A;&#x7C7B;&#x540D;
ans.rename(columns={'&#x65E5;&#x671F;':'repair_time'}, inplace=True)
rans.rename(columns={'&#x603B;&#x4EF7;':'total_cost'}, inplace=True)

#&#x76F4;&#x63A5;&#x4FEE;&#x6539;index
row_name = ['0~10','10~20','20~30','30~40','40~50','50~60','60~70','70~80','80~90','90~100']
ans.index = pd.core.indexes.base.Index(row_name)

5.1找出表A中不含B的那一部分

&#x82E5;&#x53EA;&#x53D6;&#x65B0;&#x589E;&#x7684;
def anti_join(x, y, on):
"""
    :param x:
    :param y:
    :param on:&#x5982;&#x6CA1;&#x6709;&#x7279;&#x6B8A;&#x9700;&#x6C42;,&#x53EF;&#x4EE5;&#x4E0D;&#x8981;&#x8FD9;&#x4E2A;&#x53C2;&#x6570;
    :return: &#x8FD4;&#x56DE;x&#x4E2D;&#x4E0D;&#x5305;&#x542B;y&#x7684;&#x90E8;&#x5206;
"""
    ans = pd.merge(left=x, right=y, how='left', indicator=True, on=on)
    ans = ans.loc[ans._merge == 'left_only', :].drop(columns='_merge')
    return ans

5.2 找出第一次/个出现时的数

def get_first_ele(x):
    if x.first_valid_index() is None:
        return np.nan
    else:
        return x[x.first_valid_index()]

df_online_week = df1.groupby(['device_name','weekofyear'])['weekofyear'].first().unstack().apply(get_first_ele, axis=1)

以df_2为参考，对df_1进行模糊匹配

from fuzzywuzzy import fuzz
from fuzzywuzzy import process

def fuzzy_merge(df_1, df_2, key1, key2, threshold=90, limit=2):
    s = df_2[key2].tolist()
    m = df_1[key1].apply(lambda x: process.extract(x, s, limit=limit))
    df_1['matches'] = m

    m2 = df_1['matches'].apply(lambda x: [i[0] for i in x if i[1]>=threshold][0] if len([i[0] for i in x if i[1] >=threshold]) > 0 else None)
    df_1['final_matches'] = m2
    return df_1

df1 =fuzzy_merge(file1,refer, 'title', '&#x540D;&#x79F0;', threshold=45 )
#threshold &#x81EA;&#x884C;&#x9009;&#x62E9;

对于未匹配成功的，则用原来的代入：

df1['final_matches'].fillna(df1['title'],inplace=True)

对匹配后的表汇总（groupby），并加上平均值、计数(agg)，降序排列

dg1 = df1.groupby('final_matches')['uration'].agg(['mean', 'count']).sort_values(by='mean', ascending=False)

注意：空格！= None

感觉代码可以优化，
类似输出
OUTPUT:
99%~100% 42
98%~99% 64
97%~98% 60
96%~97% 36
95%~96% 37
94%~95% 13
90%~94% 40
80%~90% 18
0%~80% 5

row_name = ['99%~100%'&#xFF0C;'95%~99%','90%~95%','80%~90%','0%~80%']
def alist(df2):
    data1 = df2[(df2['TT']>0.99)&(df2['TT']<=1)]['tt'].count() data2="df2[(df2['TT']">0.95)&(df2['TT']<=0.99)]['tt'].count() data3="df2[(df2['TT']">0.90)&(df2['TT']<=0.95)]['tt'].count() data4="df2[(df2['TT']">0.80)&(df2['TT']<=0.90)]['tt'].count() data5="df2[(df2['TT']">0)&(df2['TT']<=0.80)]['tt'].count() # 动态变量名 list1="[]" names="locals()" for i in range(1,10): df="names.get('data'+str(i))" list1.append(df) list1.index="pd.core.indexes.base.Index(row_name)" return < code></=0.80)]['tt'].count()></=0.90)]['tt'].count()></=0.95)]['tt'].count()></=0.99)]['tt'].count()></=1)]['tt'].count()>

data2['&#x6570;&#x91CF;'] = data2['resolution'].apply(str)
data2['title_num'] = data2['title'] + "_" + data2['&#x6570;&#x91CF;']

name title resolution 数量 title_num
0 站 #超时 9 9 #超时_9
1 站断开 1 1 断开_1
…

result2 = (
    data2.groupby(data2["name"])
      .agg(
          # &#x65B0;&#x5217;&#x540D; = (&#x539F;&#x5217;&#x540D;&#xFF0C;&#x51FD;&#x6570;)
          title_temp=("title_num", lambda x : "&#xFF0C; ".join(x)),
      )
      .reset_index()
)
result2

output:
name title_temp
0 *站 #超时_9，断开_1，手动_3…

1 *站超时_2，伸出_1
…

stack,unstack也很好用
还有re

Original: https://blog.csdn.net/weixin_44625028/article/details/121518943
Author: 巫巫9
Title: 数据分析实习代码总结【进阶】Python

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/739573/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

机器学习实战 PDF 原文分享

《机器学习实战》 [TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is…

Python 2023年6月3日
0076
conda update一直在solving environment

一、首先设置anaconda镜像以管理员身份运行 Anaconda Prompt 添加国内源 conda config –add channels https://mirro…

Python 2023年9月7日
0065
学习笔记10–自动驾驶汽车软件架构

各模块介绍校准模块使用前必须对传感器校准和标定，包括激光雷达与摄像头、毫米波雷达与摄像头等；校准是对齐激光雷达、摄像头及毫米波雷达获得的信息；激光雷达可以获取详细的三维环境信息…

Python 2023年11月8日
0028
python读取查看npz/npy文件数据及数据完全显示方法

npz和npy文件都可以直接使用numpy读写。 import numpy as np ac = np.load(‘mydata.npz’) ac.files 要查看其中某一项的数…

Python 2023年8月25日
00244
12.武装飞船

规划项目：在游戏《外星人入侵》中，玩家控制着一艘最初出现在屏幕底部中央的飞船。玩家可以使用箭头键左右移动飞船，还可使用空格键进行设计。游戏开始时，一群外星人出现在天空中，它们在屏…

Python 2023年9月23日
0045
Django+Xadmin多图上传——通过html+js实现（任意手机浏览器可用多图上传）

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

Python 2023年8月4日
0060
pytest.ini用法

pytest中contest.py写一些fixture，而pytest.ini写一些配置，用来改变pytest运行方式常见场景：1）pytest运行的时候有一些命令，如：pytes…

Python 2023年9月12日
0062
Python编程环境设置

一、sublime相关（1）安装先打开插件安装面板：ctrl+shift+P 输入 install，选择Package Control：Install Package 提示安装…

Python 2023年6月3日
0072
scrapy 抓取电影下载地址

import requestsimport reimport jsonimport scrapyfrom scrapy.linkextractors import LinkExtr…

Python 2023年10月3日
0040
（模板）矩阵乘法：斐波那契数列问题

在数学上，斐波那契数列以如下被以递推的方法定义： F(1)=1，F(2)=1, F(n)=F(n-1)+F(n-2）（n>=3，n∈N*）。由以上推理公式，可以求得任何一项…

Python 2023年9月29日
0048
[Android]使用JSONObiect和Gson相关方法实现json数据与kotlin对象的相互转换

1.JSON是什么？ 2.JSON数据格式 3.相关API 1.JSONObject： 2.Gson 4.使用JSONObject 将json格式的字符串{}转换为kotlin对象…

Python 2023年11月7日
0033
MATLAB绘图函数fplot详解

MATLAB绘图函数fplot详解一、fplot基本语法fplot不同于plot，主要用来根据函数表达式和自变量所属区间来直接绘制函数曲线，不需要给出像plot需要给出的自变量和因…

Python 2023年8月1日
0054
6款支持中文语音识别开源软件的简单使用

文章目录前言一、PaddleSpeech * 1.1 安装 1.2 运行 1.3 更多功能二、ASRT * 2.1 安装 2.2 运行三、MASR * 3.1 安装 3.2…

Python 2023年9月27日
0049
深度学习之初始化、正则化、梯度校验

声明本文参考【中文】【吴恩达课后编程作业】Course 2 – 改善深层神经网络 – 第一周作业(1&2&3)_何宽的博客-CSDN博客，…

Python 2023年10月29日
0018
7 步保障 Kubernetes 集群安全

随着 Kubernetes 的发展和改进，新的安全威胁和风险也逐渐向 K8s 转移，因此 K8s 安全性变得越来越重要，而保护 K8s 集群已成为 DevOps 团队不容忽视的重要…

Python 2023年10月18日
0035
Matplotlib之条形图绘制

文章目录 1. 条形图的绘制 2. 横向条形图 3. 分组条形图 4. 堆叠条形图 5. 条形图应用场景条形图的绘制条形图的绘制方式跟折线图非常的类似，只不过是换成了 plt….

Python 2023年9月2日
0047

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

数据分析实习代码总结【进阶】Python

5.1找出表A中不含B的那一部分

5.2 找出第一次/个出现时的数

大家都在看