pandas常用技巧:筛选、拼接、多级索引、数据透视

2023年7月6日下午5:10 • 人工智能 • 阅读 90

在python中,我们常用的数据分析库莫过于pandas，而数据分析中，我们常用的方法莫过于筛选、拼接、多级列表和数据透视了，下面我将通过四个板块对这四个方面进行介绍。

一、筛选

对于excel的常用就是对某列进行筛选操作了，那么我们在pandas中如何进行呢？其实pandas给我们提供了多个方法，不过最常用的还是 loc和 iloc，这两个方法的筛选逻辑不一样，简单的理解来说就是： loc是关注于列的筛选，iloc关注的行的筛选，两者的功能没有区别下面我分别介绍两种方法。

1.1、loc

上面已经创建好了df，下面我们开始利用df进行讲解
df.loc[a,b]
a表示行，b表示列，注意b只能为字符或者列表，不能为数字，否则报错，下面是相关的方法运用。

单列数据筛选

>>> df.loc[:,"A"]
0    77
1    84
2    56
3    90
4    55
5    52
6    57
7    93
8    78
9    81
Name: A, dtype: int32

多列数据筛选

 df.loc[:,["A","B"]]
    A   B
0  77  96
1  84  93
2  56  92
3  90  66
4  55  74
5  52  79
6  57  99
7  93  77
8  78  99
9  81  68

也可以用:来进行引用，如下

>>> df.loc[:,"A":"E"]
    A   B   C   D   E
0  77  96  72  92  92
1  84  93  51  62  68
2  56  92  79  61  52
3  90  66  87  79  83
4  55  74  90  75  55
5  52  79  81  74  89
6  57  99  90  56  63
7  93  77  85  54  62
8  78  99  54  62  57
9  81  68  97  58  90

上面简单的介绍了 loc方法筛选列，下面来介绍筛选行
对多行的单列值进行筛选：

>>> df.loc[df['B']==99]
    A   B   C   D   E   F
6  57  99  90  56  63  69
8  78  99  54  62  57  91

对B列进行筛选筛选其值等于99的数据。
对多行数据的多列值进行筛选：


>>> df.loc[(df['B']==99)&(df['C']==90)] #&#x6CE8;&#x610F;&#x7EC6;&#x8282;&#xFF0C;&#x8FD9;&#x91CC;&#x9700;&#x8981;&#x52A0;(),&#x5426;&#x5219;&#x4F1A;&#x62A5;&#x9519;
    A   B   C   D   E   F
6  57  99  90  56  63  69

这里有个细节，对列的数据进行并列筛选时，注意细节，这里需要加(),否则会报错

1.2、iloc

下面来介绍iloc，用法大概如下
df.iloc[a,b]
这个地方a和b都必须是intege。iloc的列参数只能是整数；
a代表的行，b代表的列
列筛选：

>>> df.iloc[2,:]
A    56
B    92
C    79
D    61
E    52
F    84
Name: 2, dtype: int32
>>> df.iloc[2,3:5]
D    61
E    52
Name: 2, dtype: int32

如果发现这个取数的格式不是我们想的那样，想要如df格式那样，如下：

>>> df.iloc[2:3,3:5]
    D   E
2  61  52

这里进行总结一下，loc和iloc的主要区别有两个

1&#x3001;&#x4E24;&#x8005;&#x53C2;&#x6570;&#x90FD;&#x662F;[&#x884C;,&#x5217;],&#x4F46;&#x662F;loc&#x7684;&#x5217;&#x53C2;&#x6570;&#x4E0D;&#x80FD;&#x4E3A;&#x6570;&#x5B57;&#xFF0C;&#x5FC5;&#x987B;&#x4E3A;columns&#xFF0C;&#x5426;&#x5219;&#x4F1A;&#x62A5;&#x9519;
iloc&#x7684;&#x53C2;&#x6570;&#x4E3A;&#x6570;&#x5B57;&#xFF0C;&#x5426;&#x5219;&#x4E5F;&#x4F1A;&#x62A5;&#x9519;
2&#x3001;:   loc&#x7684;&#x5E26;:&#x53C2;&#x6570;&#x5B9E;&#x884C;&#x7684;&#x5DE6;&#x95ED;&#x53F3;&#x95ED;&#x89C4;&#x5219;&#xFF0C;&#x4F46;&#x662F;iloc&#x5B9E;&#x884C;&#x7684;&#x662F;&#x5DE6;&#x95ED;&#x53F3;&#x5F00;&#x89C4;&#x5219;&#xFF0C;&#x6240;&#x4EE5;&#x53D6;&#x6570;&#x903B;&#x8F91;&#x4E0D;&#x4E00;&#x6837;&#x3002;

二、拼接

拼接，又称作连接，对于df的绘制非常的重要，一般常用的有 append、merge、concat，在这里，主要讲解 merge和concat。

2.1、merge

merge的产生主要如下：

pd.merge(left, right,
        how='inner',
        on=None,
        left_on=None,
        right_on=None,
        left_index=False,
        right_index=False, sort=True,
        suffixes=('_x', '_y'),
        copy=True,
        indicator=False,
         validate=None)

我们在拼接过程中常用的是on、how，我也只准备从这两个方面展开：

on: &#x8981;&#x52A0;&#x5165;&#x7684;&#x5217;&#x6216;&#x7D22;&#x5F15;&#x7EA7;&#x522B;&#x540D;&#x79F0;&#x3002; &#x5FC5;&#x987B;&#x5728;&#x5DE6;&#x4FA7;&#x548C;&#x53F3;&#x4FA7;DataFrame&#x5BF9;&#x8C61;&#x4E2D;&#x627E;&#x5230;&#x3002;
 &#x5982;&#x679C;&#x672A;&#x4F20;&#x9012;&#x4E14;left_index&#x548C;right_index&#x4E3A;False&#xFF0C;
 &#x5219;DataFrame&#x4E2D;&#x7684;&#x5217;&#x7684;&#x4EA4;&#x96C6;&#x5C06;&#x88AB;&#x63A8;&#x65AD;&#x4E3A;**&#x8FDE;&#x63A5;&#x952E;&#x3002;**
 how: &#x53C2;&#x6570;&#x6709;4&#x4E2A;&#x3002;**inner&#x662F;&#x53D6;&#x4EA4;&#x96C6;&#xFF0C;left&#xFF0C;right&#xFF0C;outer&#x53D6;&#x5E76;&#x96C6;&#x3002;&#x6CA1;&#x6709;&#x540C;&#x65F6;&#x51FA;&#x73B0;&#x7684;&#x4F1A;&#x5C06;&#x7F3A;&#x5931;&#x7684;&#x90E8;&#x5206;&#x6DFB;&#x52A0;&#x7F3A;&#x5931;&#x503C;&#x3002;**

下面是相关的实例：
outer

>>> df1=pd.DataFrame(np.random.randint(50,100, (10, 6)),columns=['A',"B",'C','D','E','F'])
>>> df1
    A   B   C   D   E   F
0  66  69  84  87  76  51
1  60  50  75  80  93  78
2  55  57  92  91  88  60
3  89  77  68  92  53  75
4  93  64  58  55  67  68
5  85  85  50  56  70  82
6  93  56  74  58  73  82
7  57  83  77  91  72  73
8  90  78  67  58  95  84
9  96  96  67  50  78  72
>>> df2=pd.DataFrame(np.random.randint(50,100,(10,5)),columns=['F',"M",'N','X','Y'])
>>> df2
    F   M   N   X   Y
0  77  96  67  75  65
1  57  55  61  98  89
2  80  51  68  64  53
3  66  68  88  71  76
4  59  58  89  65  99
5  75  81  82  61  64
6  50  55  97  57  81
7  91  96  83  59  82
8  89  87  67  88  72
9  91  86  82  83  55
>>> pd.merge(df1,df2,on="F",how="outer")
       A     B     C     D     E   F     M     N     X     Y
0   66.0  69.0  84.0  87.0  76.0  51   NaN   NaN   NaN   NaN
1   60.0  50.0  75.0  80.0  93.0  78   NaN   NaN   NaN   NaN
2   55.0  57.0  92.0  91.0  88.0  60   NaN   NaN   NaN   NaN
3   89.0  77.0  68.0  92.0  53.0  75  81.0  82.0  61.0  64.0
4   93.0  64.0  58.0  55.0  67.0  68   NaN   NaN   NaN   NaN
5   85.0  85.0  50.0  56.0  70.0  82   NaN   NaN   NaN   NaN
6   93.0  56.0  74.0  58.0  73.0  82   NaN   NaN   NaN   NaN
7   57.0  83.0  77.0  91.0  72.0  73   NaN   NaN   NaN   NaN
8   90.0  78.0  67.0  58.0  95.0  84   NaN   NaN   NaN   NaN
9   96.0  96.0  67.0  50.0  78.0  72   NaN   NaN   NaN   NaN
10   NaN   NaN   NaN   NaN   NaN  77  96.0  67.0  75.0  65.0
11   NaN   NaN   NaN   NaN   NaN  57  55.0  61.0  98.0  89.0
12   NaN   NaN   NaN   NaN   NaN  80  51.0  68.0  64.0  53.0
13   NaN   NaN   NaN   NaN   NaN  66  68.0  88.0  71.0  76.0
14   NaN   NaN   NaN   NaN   NaN  59  58.0  89.0  65.0  99.0
15   NaN   NaN   NaN   NaN   NaN  50  55.0  97.0  57.0  81.0
16   NaN   NaN   NaN   NaN   NaN  91  96.0  83.0  59.0  82.0
17   NaN   NaN   NaN   NaN   NaN  91  86.0  82.0  83.0  55.0
18   NaN   NaN   NaN   NaN   NaN  89  87.0  67.0  88.0  72.0

inner

>>> df1=pd.DataFrame(np.random.randint(50,100, (10, 6)),columns=['A',"B",'C','D','E','F'])
>>> df1
    A   B   C   D   E   F
0  91  55  73  66  77  93
1  82  88  67  57  93  80
2  51  58  56  81  62  75
3  63  85  93  99  50  85
4  98  92  58  63  72  66
5  93  79  85  76  64  86
6  67  69  86  57  73  69
7  94  69  84  79  78  84
8  62  83  68  70  61  78
9  88  84  98  76  85  87
>>> df2=pd.DataFrame(np.random.randint(50,100,(10,5)),columns=['F',"M",'N','X','Y'])
>>> df2
    F   M   N   X   Y
0  94  95  71  71  68
1  71  94  63  89  97
2  50  95  80  70  82
3  79  83  87  72  99
4  87  93  70  66  95
5  91  78  90  59  87
6  58  63  67  81  70
7  64  77  67  64  86
8  76  89  94  62  52
9  67  79  51  63  61
>>> pd.merge(df1,df2,on="F",how="inner")
    A   B   C   D   E   F   M   N   X   Y
0  88  84  98  76  85  87  93  70  66  95

&#x4E24;&#x8005;&#x7684;&#x533A;&#x522B;&#x53EF;&#x4EE5;&#x603B;&#x7ED3;&#x5982;&#x4E0B;
1&#x3001;inner&#x53D6;&#x62FC;&#x63A5;&#x5217;&#x7684;&#x5171;&#x6709;&#x503C;&#xFF08;&#x4EA4;&#x96C6;&#xFF09;&#xFF0C;&#x5C06;&#x4E24;&#x8FB9;&#x7684;&#x5217;&#x8FDB;&#x884C;&#x7EC4;&#x5408;
2&#x3001;outer&#x53D6;&#x62FC;&#x63A5;&#x5217;&#x7684;&#x6240;&#x6709;&#x503C;&#xFF08;&#x5E76;&#x96C6;&#xFF09;&#xFF0C;&#x5C06;&#x4E24;&#x8FB9;&#x7684;&#x5217;&#x8FDB;&#x884C;&#x7EC4;&#x5408;&#xFF0C;&#x5BF9;&#x4E8E;&#x591A;&#x51FA;&#x6765;&#x7684;&#x5217;&#x503C;&#xFF0C;&#x7528;NaN&#x586B;&#x5145;

2.2、concat

concat的参数如下

pd.concat(objs,
            axis=0,
            join='outer',
            join_axes=None,
            ignore_index=False,
            keys=None, levels=None,
            names=None,
            verify_integrity=False,
            copy=True)

主要参数简介

objs&#xFF1A;&#x4E00;&#x822C;&#x4E3A;&#x5217;&#x8868;&#xFF0C;&#x8868;&#x793A;&#x8981;&#x62FC;&#x63A5;&#x7684;df&#xFF0C;&#x5F62;&#x5982;[df1,df2,df3]
join&#xFF1A;&#x62FC;&#x63A5;&#x7684;&#x7C7B;&#x578B;&#xFF0C;&#x5982;merge&#x7684;&#x53C2;&#x6570;
axis&#xFF1A;&#x62FC;&#x63A5;&#x7684;&#x7C7B;&#x578B;&#xFF0C;&#x7EB5;&#x5411;&#x62FC;&#x63A5;&#x8FD8;&#x662F;&#x6A2A;&#x5411;&#x62FC;&#x63A5;
ignore_index&#xFF1A;&#x662F;&#x5426;&#x5BF9;&#x65B0;&#x8868;&#x7684;index&#x8FDB;&#x884C;&#x91CD;&#x6784;&#xFF0C;&#x91CD;&#x65B0;&#x6392;&#x5E8F;

实例如下
纵向连接，作用与merge的outer一样

>>> df1=pd.DataFrame(np.random.randint(50,100, (10, 6)),columns=['A',"B",'C','D','E','F'])
>>> df1
    A   B   C   D   E   F
0  97  58  92  71  56  64
1  81  68  90  70  83  84
2  79  56  52  94  68  80
3  76  70  69  79  63  77
4  81  63  67  65  76  63
5  86  98  85  92  76  79
6  99  96  56  78  53  84
7  53  79  99  65  86  81
8  55  60  66  66  61  61
9  66  56  59  56  98  84
>>> df2=pd.DataFrame(np.random.randint(50,100,(10,5)),columns=['F',"M",'N','X','Y'])
>>> df2
    F   M   N   X   Y
0  59  56  61  57  54
1  72  53  74  53  51
2  65  93  83  96  79
3  95  56  50  85  97
4  95  70  57  70  52
5  50  92  76  66  88
6  81  85  80  54  51
7  65  62  60  77  79
8  53  81  66  87  59
9  59  94  57  95  55
>>> # pd.merge(df1,df2,on="F",how="inner")
>>>
>>> pd.concat([df1,df2],axis=0)
      A     B     C     D     E   F     M     N     X     Y
0  97.0  58.0  92.0  71.0  56.0  64   NaN   NaN   NaN   NaN
1  81.0  68.0  90.0  70.0  83.0  84   NaN   NaN   NaN   NaN
2  79.0  56.0  52.0  94.0  68.0  80   NaN   NaN   NaN   NaN
3  76.0  70.0  69.0  79.0  63.0  77   NaN   NaN   NaN   NaN
4  81.0  63.0  67.0  65.0  76.0  63   NaN   NaN   NaN   NaN
5  86.0  98.0  85.0  92.0  76.0  79   NaN   NaN   NaN   NaN
6  99.0  96.0  56.0  78.0  53.0  84   NaN   NaN   NaN   NaN
7  53.0  79.0  99.0  65.0  86.0  81   NaN   NaN   NaN   NaN
8  55.0  60.0  66.0  66.0  61.0  61   NaN   NaN   NaN   NaN
9  66.0  56.0  59.0  56.0  98.0  84   NaN   NaN   NaN   NaN
0   NaN   NaN   NaN   NaN   NaN  59  56.0  61.0  57.0  54.0
1   NaN   NaN   NaN   NaN   NaN  72  53.0  74.0  53.0  51.0
2   NaN   NaN   NaN   NaN   NaN  65  93.0  83.0  96.0  79.0
3   NaN   NaN   NaN   NaN   NaN  95  56.0  50.0  85.0  97.0
4   NaN   NaN   NaN   NaN   NaN  95  70.0  57.0  70.0  52.0
5   NaN   NaN   NaN   NaN   NaN  50  92.0  76.0  66.0  88.0
6   NaN   NaN   NaN   NaN   NaN  81  85.0  80.0  54.0  51.0
7   NaN   NaN   NaN   NaN   NaN  65  62.0  60.0  77.0  79.0
8   NaN   NaN   NaN   NaN   NaN  53  81.0  66.0  87.0  59.0
9   NaN   NaN   NaN   NaN   NaN  59  94.0  57.0  95.0  55.0

横向拼接

>>> df1=pd.DataFrame(np.random.randint(50,100, (10, 6)),columns=['A',"B",'C','D','E','F'])
>>> df1
    A   B   C   D   E   F
0  75  68  84  82  77  62
1  65  50  95  79  87  98
2  64  56  79  83  85  91
3  98  67  90  60  81  93
4  79  66  91  66  94  81
5  64  56  91  85  99  88
6  77  53  58  73  52  85
7  76  82  54  92  81  81
8  79  66  69  83  79  54
9  99  62  76  95  74  63
>>> df2=pd.DataFrame(np.random.randint(50,100,(10,5)),columns=['F',"M",'N','X','Y'])
>>> df2
    F   M   N   X   Y
0  93  68  87  87  63
1  96  93  79  88  73
2  69  62  81  75  89
3  52  57  88  96  76
4  80  51  85  61  74
5  94  87  59  79  86
6  74  76  71  59  95
7  80  81  55  61  59
8  95  63  72  57  85
9  76  88  83  80  95
>>> # pd.merge(df1,df2,on="F",how="inner")
>>>
>>> pd.concat([df1,df2],axis=1)
    A   B   C   D   E   F   F   M   N   X   Y
0  75  68  84  82  77  62  93  68  87  87  63
1  65  50  95  79  87  98  96  93  79  88  73
2  64  56  79  83  85  91  69  62  81  75  89
3  98  67  90  60  81  93  52  57  88  96  76
4  79  66  91  66  94  81  80  51  85  61  74
5  64  56  91  85  99  88  94  87  59  79  86
6  77  53  58  73  52  85  74  76  71  59  95
7  76  82  54  92  81  81  80  81  55  61  59
8  79  66  69  83  79  54  95  63  72  57  85
9  99  62  76  95  74  63  76  88  83  80  95

三、多级索引

先来解释下多级索引：多级索引也称为层次化索引（hierarchical indexing），是指数据在一个轴上（行或者列）拥有多个（两个以上）索引级别。之所以引入多级索引，在于它可以使用户能以低维度形式处理高维度数据。
pandas 的多级索引，主要是通过 pd.MultiIndex的方法来创建的，具体创建方式有三种，我们介绍其中的两种类型 from_product、from_tuples

3.1、from_product

from_product主要有两个参数list1和list2

MultiIndex.from_product&#xFF1A;
    mul_col = pd.MultiIndex.from_product([[list1,list2])
&#x8BE5;&#x65B9;&#x6CD5;&#x7528;&#x4E8E;&#x521B;&#x5EFA;list1*list2&#x7684;2&#x7EA7;&#x7D22;&#x5F15;&#xFF0C;list1&#x4E3A;1&#x7EA7;&#xFF0C;list2&#x4E3A;2&#x7EA7;

下面我们来实际看一下：

>>> df1=pd.DataFrame(np.random.randint(50,100, (10, 6)),columns=['A',"B",'C','D','E','F'])
>>> df1
    A   B   C   D   E   F
0  74  75  85  60  94  59
1  93  69  64  66  80  88
2  94  73  60  80  68  67
3  50  87  95  69  70  78
4  81  65  63  93  61  50
5  92  89  65  92  52  72
6  61  50  76  57  82  64
7  70  65  53  57  74  70
8  99  69  53  69  63  78
9  60  66  89  54  90  94
>>> col=pd.MultiIndex.from_product([["A","B"], ['x','y','z']])
>>> col
MultiIndex([('A', 'x'),
            ('A', 'y'),
            ('A', 'z'),
            ('B', 'x'),
            ('B', 'y'),
            ('B', 'z')],
           )
>>> df1.columns=col
>>> df1
    A           B
    x   y   z   x   y   z
0  74  75  85  60  94  59
1  93  69  64  66  80  88
2  94  73  60  80  68  67
3  50  87  95  69  70  78
4  81  65  63  93  61  50
5  92  89  65  92  52  72
6  61  50  76  57  82  64
7  70  65  53  57  74  70
8  99  69  53  69  63  78
9  60  66  89  54  90  94

多级列表2

>>> df1
   &#x8003;&#x8BD5;1  &#x8003;&#x8BD5;2  &#x8003;&#x8BD5;3  &#x8003;&#x8BD5;4  &#x8003;&#x8BD5;5  &#x8003;&#x8BD5;6
0   63   93   50   86   81   99
1   75   73   87   77   66   60
2   98   58   79   62   91   74
3   81   92   57   64   54   61
4   81   96   81   61   73   97
5   64   91   75   82   90   90
6   58   86   55   56   87   52
7   71   89   71   90   77   97
8   80   71   55   78   81   81
9   68   74   54   63   54   88
>>> # col=pd.MultiIndex.from_product([["A","B"], ['x','y','z']])
>>> # col
>>> # df1.columns=col
>>> # df1
>>>
>>> index=pd.MultiIndex.from_product([["&#x5C0F;&#x660E;","&#x5C0F;&#x9F99;"],["&#x79D1;&#x76EE;1","&#x79D1;&#x76EE;2","&#x79D1;&#x76EE;3","&#x79D1;&#x76EE;4","&#x79D1;&#x76EE;5"]],names=["&#x59D3;&#x540D;","&#x79D1;&#x76EE;"])
>>> df1.index=index
>>> df1
        &#x8003;&#x8BD5;1  &#x8003;&#x8BD5;2  &#x8003;&#x8BD5;3  &#x8003;&#x8BD5;4  &#x8003;&#x8BD5;5  &#x8003;&#x8BD5;6
&#x59D3;&#x540D; &#x79D1;&#x76EE;
&#x5C0F;&#x660E; &#x79D1;&#x76EE;1   63   93   50   86   81   99
   &#x79D1;&#x76EE;2   75   73   87   77   66   60
   &#x79D1;&#x76EE;3   98   58   79   62   91   74
   &#x79D1;&#x76EE;4   81   92   57   64   54   61
   &#x79D1;&#x76EE;5   81   96   81   61   73   97
&#x5C0F;&#x9F99; &#x79D1;&#x76EE;1   64   91   75   82   90   90
   &#x79D1;&#x76EE;2   58   86   55   56   87   52
   &#x79D1;&#x76EE;3   71   89   71   90   77   97
   &#x79D1;&#x76EE;4   80   71   55   78   81   81
   &#x79D1;&#x76EE;5   68   74   54   63   54   88

3.2、from_tuples

from_tuples的格式大概如下，my_tup是一个list，list的每一个数据都是一个tuple，因此叫 from_tuples

pd.MultiIndex.from_tuples([list], names = ['Obj', 'time'])
pd.MultiIndex.from_tuples
        pd.MultiIndex.from_tuples(my_tup, names = ['Obj', 'time'])
    my_tup&#x662F;&#x4E2A;list&#xFF0C;&#x91CC;&#x9762;&#x5305;&#x542B;&#x591A;&#x7EA7;&#x7D22;&#x5F15;&#x4FE1;&#x606F;&#xFF0C;&#x4EE5;tuple&#x4E2D;&#x7684;&#x7B2C;&#x4E00;&#x4E2A;&#x503C;&#x4E3A;1&#x7EA7;&#xFF0C;&#x7B2C;&#x4E8C;&#x4E2A;&#x503C;&#x4E3A;2&#x7EA7;

案例如下：

>>> my_index = pd.MultiIndex.from_tuples(my_tup, names = ['Obj', 'time'])
>>> pd.DataFrame(np.random.randint(60,100, (4,3)),
...              index = my_index,
...             columns = [*'ABC'])
              A   B   C
Obj    time
Python &#x671F;&#x4E2D;    71  92  71
       &#x671F;&#x672B;    87  98  73
Java   &#x671F;&#x4E2D;    73  62  76
       &#x671F;&#x672B;    94  93  84
>>>

四、数据透视

在 pandas中，进行数据透视的主要方法是 pivot_table

pivot_table(data,    # DataFrame
            values=None,    # &#x503C;
            index=None,    # &#x5206;&#x7C7B;&#x6C47;&#x603B;&#x4F9D;&#x636E;
            columns=None,    # &#x5217;
            aggfunc='mean',    # &#x805A;&#x5408;&#x51FD;&#x6570;
            fill_value=None,    # &#x5BF9;&#x7F3A;&#x5931;&#x503C;&#x7684;&#x586B;&#x5145;
            margins=False,    # &#x662F;&#x5426;&#x542F;&#x7528;&#x603B;&#x8BA1;&#x884C;/&#x5217;
            dropna=True,    # &#x5220;&#x9664;&#x7F3A;&#x5931;
            margins_name='All'   # &#x603B;&#x8BA1;&#x884C;/&#x5217;&#x7684;&#x540D;&#x79F0;
           )

由于本人时间的缘故，就先写到此，详细了了解pandas 的数据透视操作，参考链接

本文全部代码

import pandas as pd
import numpy as np

df=pd.DataFrame(np.random.randint(50,100, (10, 6)),columns=['A',"B",'C','D','E','F'])
df
&#x7B5B;&#x9009;
loc
df.loc[:,"A"]
df.loc[df['A']==55] #&#x53D6;A&#x5217;&#x90FD;&#x662F;55&#x7684;&#x884C;&#x6570;&#x636E;
df.loc[:,['A','B']] #&#x53D6;A B&#x4E24;&#x5217;&#x7684;&#x6570;&#x636E;
df.loc[(df['B']==99)&(df['C']==90)] #&#x6CE8;&#x610F;&#x7EC6;&#x8282;&#xFF0C;&#x8FD9;&#x91CC;&#x9700;&#x8981;&#x52A0;(),&#x5426;&#x5219;&#x4F1A;&#x62A5;&#x9519;

iloc
&#x4E3A;&#x4E86;&#x65B9;&#x4FBF;&#x8BB0;&#x5FC6;&#xFF0C;&#x8BB0;&#x4F4F;i&#x662F;integer&#x7684;&#x610F;&#x601D;&#x3002;iloc&#x7684;&#x5217;&#x53C2;&#x6570;&#x53EA;&#x80FD;&#x662F;&#x6574;&#x6570;&#xFF1B;loc&#x7684;&#x5217;&#x53C2;&#x6570;&#x4E0D;&#x80FD;&#x662F;&#x6574;&#x6570;&#x3002;&#x8FD9;&#x662F;&#x672C;&#x8D28;&#x533A;&#x522B;&#x3002;&#x6CE8;&#x610F;&#xFF0C;&#x8FD9;&#x91CC;&#x6240;&#x6307;&#x7684;&#x662F;&#x5217;&#x53C2;&#x6570;&#x3002;
df.iloc[0,:]
&#x8FDE;&#x63A5;
df1=pd.DataFrame(np.random.randint(50,100, (10, 6)),columns=['A',"B",'C','D','E','F'])
df1
df2=pd.DataFrame(np.random.randint(50,100,(10,5)),columns=['F',"M",'N','X','Y'])
df2
pd.merge(df1,df2,on="F",how="inner")
pd.concat([df1,df2],axis=1)

&#x591A;&#x7EA7;&#x7D22;&#x5F15;
df1=pd.DataFrame(np.random.randint(50,100, (10, 6)),columns=['&#x8003;&#x8BD5;1',"&#x8003;&#x8BD5;2",'&#x8003;&#x8BD5;3','&#x8003;&#x8BD5;4','&#x8003;&#x8BD5;5','&#x8003;&#x8BD5;6'])
df1
col=pd.MultiIndex.from_product([["A","B"], ['x','y','z']])
col
df1.columns=col
df1
index=pd.MultiIndex.from_product([["&#x5C0F;&#x660E;","&#x5C0F;&#x9F99;"],["&#x79D1;&#x76EE;1","&#x79D1;&#x76EE;2","&#x79D1;&#x76EE;3","&#x79D1;&#x76EE;4","&#x79D1;&#x76EE;5"]],names=["&#x59D3;&#x540D;","&#x79D1;&#x76EE;"])
df1.index=index
df1
my_tup = [('Python', '&#x671F;&#x4E2D;'),('Python', '&#x671F;&#x672B;'),('Java', '&#x671F;&#x4E2D;'),('Java', '&#x671F;&#x672B;')]
my_index = pd.MultiIndex.from_tuples(my_tup, names = ['Obj', 'time'])
pd.DataFrame(np.random.randint(60,100, (4,3)),
             index = my_index,
            columns = [*'ABC'])

本文参考了以下链接

https://blog.csdn.net/brucewong0516/article/details/82707492
https://blog.csdn.net/qq_21840201/article/details/80727504
https://blog.csdn.net/zzpdbk/article/details/79232661
https://blog.csdn.net/anshuai_aw1/article/details/83510345
https://www.jianshu.com/p/d30fdfbeb312
https://www.cnblogs.com/shanger/p/13245669.html
https://www.cnblogs.com/onemorepoint/p/8425300.html

Original: https://blog.csdn.net/qq_42105477/article/details/121046844
Author: 水木工南
Title: pandas常用技巧:筛选、拼接、多级索引、数据透视

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/674401/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

C++实现DBSCAN密度聚类算法实战案例

一、基本概念可以用1，2，3，4来总结DBSCAN的基本概念。 1个核心思想：基于密度直观效果上看，DBSCAN算法可以找到样本点的全部密集区域，并把这些密集区域当做一个一个的…

人工智能 2023年5月31日
0083
Unity自定义Timeline总结

前言 Timeline最基本的作用是编辑过场动画。实际上任何预定义的线性流程都可以使用Timeline编辑，例如沿固定路线巡逻的敌人。由于Timeline可以同时编辑和播放多条不同…

人工智能 2023年6月27日
0095
【树莓派不吃灰】基础篇⑲ 搭建usb摄像头MJPG-streamer图片流监控，支持远程视频监控访问

目录 * – 1. 前言 – 2. 识别摄像头 – 3. MJPG-streamer方案 – + 3.1 什么是 MJPG？ + 3…

人工智能 2023年6月30日
00214
【学习笔记】人工智能导论

考试题型：一、选择2 ：20二、填空5：10 主观题改成填空题三、趣味编程题，10分第0章绪论图灵测试 1950年图灵发表的《计算机与智能》中设计了一个测试，用以说明人工智…

人工智能 2023年7月17日
0048
【PCL入门系列之一】点云库PCL简介

点击上方” 小白学视觉“，选择加” 星标“或” 置顶“ 重磅干货，第一时间送达本系列文章首先介绍什么是PC…

人工智能 2023年5月28日
0078
PyTorch实现前馈神经网络（torch.nn）

PyTorch实现前馈神经网络（torch.nn) 1 回归任务 1.1 导入所需要的包 1.2 自定义数据集 1.3 构造数据迭代器 1.4 模型构建 1.5 参数初始化 1.6…

人工智能 2023年7月13日
0081
2021-09-28vs+opencv+QT简单的图像处理工程

初学C++完成一个小小的测试前面已经配置好了opencv链接: VS2019+opencv4.5.3. 界面（QT）先尝试采用FLTK库进行编写，只能显示个图片，关于这个的教程太…

人工智能 2023年7月19日
0051
支持向量机（SVM）

文章目录 * – + 1.SVM初识 + 2.向量内积-回顾 + 3.SVM分类 + 4.转化为凸优化问题 + 5.非线性情况 + * 非线性情况-映射问题 * 非线性…

人工智能 2023年6月23日
0087
TransE，知识图谱嵌入（KGE）论文精读

TransE 写作目的：在学习论文时，参考查阅许多博客，我认为大多在照搬原文翻译中的话，另外，按此顺序的写作手法，对于我或其他读者仍旧晦涩难懂，甚至这些博客中出现很多错误的理解，…

人工智能 2023年6月1日
0093
3D 目标检测——IA-SSD

😸IA-SSD主要贡献：指明了现有 point-based 检测器存在的采样问题，并通过引入两种基于学习（ learning-based）的实例感知（ instance-a…

人工智能 2023年6月17日
0088
【Python数据分析】数据挖掘建模——分类与预测——回归分析

根据挖掘目标和数据形式可以建立分类与预测、聚类分析、关联规则、时序模型、离群点检测等模型。首先介绍一下分类与预测模型。一、分类预测模型实现过程分类模型主要是预测分类编号，预测模…

人工智能 2023年7月17日
0091
基于OpenCV的摄像头测距（2022-1-1）

基于OpenCV的摄像头测距前言去年暑假参加了一个比赛，比赛内容中需要确定目标的位置本来想全用图像完成的，最后发现不是很符合要求。比完赛之后，就忙别的事了。直到现在突然想试试…

人工智能 2023年6月24日
0091
pandas – merge 函数

All default pd.merge( left, right, how="inner", on=None, left_on=None, right_on=…

人工智能 2023年7月17日
0049
Python数据分析：相关系数矩阵

【小白从小学Python、C、Java】【Python全国计算机等级考试】【Python数据分析考试必会题】● 标题与摘要Python数据分析相关系数矩阵 ● 选择题以下关于相关系…

人工智能 2023年7月5日
0086
Redis数据库安全之旅

Redis相信大家都或多或少都听说过吧,作为内存数据库的代表, 但是近些年 Redis 被攻击的典范也是越来越多,我们将如何防护 Redis 安全呢? 跟着我们的脚本,来看看这篇文…

人工智能 2023年6月28日
0053
halcon图像拼接(2行5列)，例程详解

参考例程mosaicking.hdev 原理简要说明：要进行图像拼接，就要求所拍摄图像中有重叠区域，即交集，在这个基础上，才能通过算法找到两张图像的共性特征，此处利用的特征正是图像…

人工智能 2023年5月26日
0089

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31