pandas 两列相乘 dataframe

2023年7月6日下午2:47 • 人工智能 • 阅读 57

import numpy as np
import pandas as pd

from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"

创建一个dataframe,要求索引是a,b,c,d,列名是one,two,其中one列数据为1,2,3,two列数据为1,2,3,4

data={ 'one':[1,2,3,None],'two':[1,2,3,4]}

index=['a','b','c','d']
data

{'one': [1, 2, 3, None], 'two': [1, 2, 3, 4]}

a=pd.DataFrame(data,index=index)
a

onetwoa1.01b2.02c3.03dNaN4

a.values
a.index
a.columns
a.shape

array([[ 1.,  1.],
       [ 2.,  2.],
       [ 3.,  3.],
       [nan,  4.]])

Index(['a', 'b', 'c', 'd'], dtype='object')

Index(['one', 'two'], dtype='object')

(4, 2)

查看df的索引名和列名

a.index

Index(['a', 'b', 'c', 'd'], dtype='object')

a.columns

Index(['one', 'two'], dtype='object')

列操作

a['three']=a['one']*a['two']
a

onetwothreea1.011.0b2.024.0c3.039.0dNaN4NaN

a.pop('two')

a    1
b    2
c    3
d    4
Name: two, dtype: int64

onethreea1.01.0b2.04.0c3.09.0dNaNNaN

del a['three']

onea1.0b2.0c3.0dNaN

基于位置和基于标签的索引

df1 = pd.DataFrame({'one' : pd.Series(np.random.randn(3),
                                     index=['a', 'b', 'c']),
                   'two' : pd.Series(np.random.randn(4),
                                     index=['a', 'b', 'c', 'd']),
                   'three' : pd.Series(np.random.randn(3),
                                       index=['b', 'c','d'])})
df1

onetwothreea0.7644930.194418NaNb0.2085090.058272-0.296883c0.243678-0.2193390.007492dNaN1.162892-1.032575


df1.two

a    0.194418
b    0.058272
c   -0.219339
d    1.162892
Name: two, dtype: float64


df1['two']

a    0.194418
b    0.058272
c   -0.219339
d    1.162892
Name: two, dtype: float64

df1

onetwothreea0.7644930.194418NaNb0.2085090.058272-0.296883c0.243678-0.2193390.007492dNaN1.162892-1.032575


df1.loc['b':'d':2,'one':'three':2]

onethreeb0.208509-0.296883dNaN-1.032575


df1.iloc[::2,::2]

onethreea0.764493NaNc0.2436780.007492

数据对齐及运算,观察运算结果,体会对齐原理,执行df3+df4的操作

df3 = pd.DataFrame(np.random.randn(10, 4), columns=['A', 'B', 'C', 'D'])
df4 = pd.DataFrame(np.random.randn(7, 3), columns=['A', 'B', 'C'])
df3
df4

ABCD0-0.6214130.294929-0.0844580.2872001-0.985321-0.550060-1.9658921.1664552-0.1734580.514720-1.359982-1.6165283-0.2707260.823601-0.1027521.0768504-2.077785-0.9933480.595989-0.1472175-0.526779-1.695730-0.0384301.7280696-0.229735-0.576460-0.616993-1.41216070.023990-0.4234300.831251-1.17964780.2285530.893980-1.1670450.07420890.202145-0.3772181.654575-0.006734

ABC01.2163100.5898300.98559511.5132450.820891-1.30435121.380050-0.237665-0.43295230.1481781.3682461.4016664-1.887375-1.880049-0.54462451.659860-0.5620010.72098860.2002540.832807-0.515529

df3+df4

ABCD00.5948970.8847590.901137NaN10.5279250.270831-3.270242NaN21.2065920.277055-1.792934NaN3-0.1225482.1918471.298914NaN4-3.965160-2.8733980.051365NaN51.133081-2.2577310.682558NaN6-0.0294810.256347-1.132522NaN7NaNNaNNaNNaN8NaNNaNNaNNaN9NaNNaNNaNNaN

查看数据框的形状\索引\列名\详细信息\简单统计描述

np.random.seed(0)
df6 = pd.DataFrame(np.random.randint(1,11,(8, 3)),
                  index=["003","001","005","006","002","008","004","007"],
                  columns=list('ABC'))
df6

ABC003614001481000546300658700299200878800492600710910

df6.shape

(8, 3)

df6.index

df6.columns

Index(['A', 'B', 'C'], dtype='object')

  df6.info()

<class 'pandas.core.frame.dataframe'>
Index: 8 entries, 003 to 007
Data columns (total 3 columns):
A    8 non-null int32
B    8 non-null int32
C    8 non-null int32
dtypes: int32(3)
memory usage: 160.0+ bytes
</class>

df6.describe()

ABCcount8.000008.0000008.000000mean6.750006.3750006.250000std2.375473.1594533.058945min4.000001.0000002.00000025%4.750005.0000003.75000050%6.500008.0000006.50000075%9.000008.2500008.500000max10.000009.00000010.000000

布尔索引与逻辑运算提取数据

df6.C>5

003    False
001     True
005    False
006     True
002    False
008     True
004     True
007     True
Name: C, dtype: bool

df6[df6.C>5]

ABC001481000658700878800492600710910

df6[(df6.A>5)&(df6.B>6)]

ABC00299200878800710910

isin方法

df7 = pd.DataFrame({'vals': [1, 2, 3, 4],
                   'ids': ['a', 'b', 'f', 'n'],
                   'ids2': ['a', 'n', 'c', 'n']})
df7

valsidsids201aa12bn23fc34nn

df7.ids.isin(['b'])

0    False
1     True
2    False
3    False
Name: ids, dtype: bool

df7[df7.ids.isin(['b','a'])]

valsidsids201aa12bn

Original: https://blog.csdn.net/weixin_55263276/article/details/115154793
Author: April晓宇
Title: pandas 两列相乘 dataframe

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/674163/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

沉痛悼念织梦创始人林学先生，他为网站开源系统打开了大门

12 月 4 日，突闻噩耗，国内流行的内容管理系统（CMS） DEDEBIZ 网站发布讣告，DedeCMS 创始人林学先生（IT 柏拉图）因罹患癌症于 2022 年 12 月 3 …

人工智能 2023年7月29日
0059
【过程挖掘算法4】Alpha Miner及其系列算法

Alpha算法是最早应用于过程挖掘的过程发现算法，在2002年被过程挖掘之父Wil van der Aalst提出，后续并被很多研究学者所完善，提出了一系列的扩展alpha算法，比…

人工智能 2023年6月19日
0090
《基于历史拥堵图和共识日识别的交通拥堵和出行时间预测》

文章信息本周阅读的论文是题目为《Traffic congestion and travel time prediction based on historical congest…

人工智能 2023年5月31日
0092
MySQL高级SQL语句

目录引言一、常用查询 1.按关键字查询 1.1升序排序 1.2降序排序 1.3结合where进行条件过滤 1.4多字段排序 2.and和or判断 2.1and和or的使用 2….

人工智能 2023年6月2日
0066
Pytorch使用DDP加载模型时出现多进程在GPU0上占用过多显存的问题

使用pytorch DDP(DistributedDataParallel，分布式数据并行)可以进行多卡训练，涉及到模型保存与加载问题时，一般会涉及到以下两种需求：将多卡训练的模…

人工智能 2023年7月13日
00108
机器学习笔记——朴素贝叶斯(Naive Bayes)

1贝叶斯算法简介贝叶斯分类算法是统计学的一种分类方法，它是一类利用概率统计知识进行分类的算法。在许多场合，朴素贝叶斯(Naïve Bayes，NB)分类算法可以与决策树和神经网络…

人工智能 2023年7月2日
0057
MockingBrid(AI拟声)教程

该代码：用来模仿别人说话生成的一段语音的代码。源码地址：GitHub – babysor/MockingBird: 🚀AI拟声: 5秒内克隆您的声音并生成任意语音内容…

人工智能 2023年5月27日
00113
[ITIL]-ITIL的发展进程

计算机网络系统设计方案 1. 系统建设的总体原则 1.1 校园网络建设的总体规划系统建设的总休原则是：安全、高速、稳定。结合省”十二五”发展_规划，为加速…

人工智能 2023年6月28日
00100
Anaconda+tensorflow+win10安装包和教程(2021年12月)

安装包：Anaconda+tensorflow+win10安装包和教程.rar-机器学习文档类资源-CSDN文库安装Anaconda3 下一步下一步即可红色路径记得选上使用W…

人工智能 2023年5月25日
0091
信号与系统-1-线性时不变系统

线性时不变系统的证明前情提要 “线性”特性的判断 “时不变”特性的判断前情提要对于一般系统，我们总要判断它究竟是何种系统，或者…

人工智能 2023年7月1日
0073
使用Dask DataFrames 解决Pandas中并行计算的问题

如何将20GB的CSV文件放入16GB的RAM中。如果你对Pandas有一些经验，并且你知道它最大的问题——它不容易扩展。有解决办法吗? 是的-Dask DataFrames。 …

人工智能 2023年7月7日
0085
基于卷积神经网络的猫狗识别系统的设计与实现

1 ． 1 题目的主要研究内容（1）工作的主要描述通过卷积网络实现猫狗图像的识别。首先，在数据集中抽取训练集和测试集；其次，对图像进行预处理和特征提取，对图像数据进行图像增强，…

人工智能 2023年7月28日
0083
人工智能导论考前自测

1、阐述人工智能的三次浪潮和三次低谷浪潮：56达特茅斯成立~69AI会议70创刊形成期 80年代神经网络 90年代深蓝至今低谷：73 James Thrills报告 76-8…

人工智能 2023年6月10日
00107
检索与倒排索引

引言 Information Retrieval (IR)：从大规模非结构化数据的集合中找到满足用户信息需求的资料。包括信息的获取、表示、存储、组织和访问。一、倒…

人工智能 2023年5月31日
0070
【论文阅读】Knowledge Enhanced GAN for IoT Traffic Generation

CCF A用于物联网流量生成的知识图谱增强 GANShuodi Hui, Huandong Wang, Zhenhua Wang, Xinghao Yang, Zhongjin L…

人工智能 2023年6月1日
0097
分享miRNA和lncRNA靶向预测网站——miRcode，lncRNABase，starbase，RegRNA2.0

lncRNA能够将miRNA吸附过来，相当于竞争性结合，不让miRNA对mRNA发挥作用，因此形成了lncRNA-miRNA-mRNA的调控网络，简称ceRNA。在做生信分析时，…

人工智能 2023年6月19日
0089

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31