Pandas+Numpy+Sklearn随机取数

2023年8月25日上午7:16 • Python • 阅读 52

公众号：尤而小屋
作者：Peter
编辑：Peter

大家好，我是Peter~

本文记录的是如何使用Python、pandas、numpy、scikit-learn来实现随机打乱、抽取和切割数据。主要的方法包含：

sample
shuffle
np.random.permutation
train_test_split

; 导入数据

In [1]:

import pandas as pd
import numpy as np
import random

import plotly_express as px
import plotly.graph_objects as go

内置数据

采用的是plotly库中内置的一份消费数据集：

In [2]:

df = px.data.tips()
df.head()

基本信息

In [3]:

df.shape

Out[3]:

(244, 7)

In [4]:

columns = df.columns
columns

Out[4]:

Index(['total_bill', 'tip', 'sex', 'smoker', 'day', 'time', 'size'], dtype='object')

sample实现

行方向

In [5]:

随机抽取一行记录：

df.sample()  # &#x968F;&#x673A;&#x62BD;&#x53D6;&#x4E00;&#x884C;&#x8BB0;&#x5F55;

随机抽取多行数据：

通过参数frac实现按照比例随机抽样：

df.sample(frac=0.05)

列方向

主要是选择不同数量或者比例的属性；整体的行数量是不变的

In [8]:

df.sample(3, axis=1)  # &#x5728;&#x5217;&#x5C5E;&#x6027;&#x4E0A;&#x62BD;&#x53D6;

shuffle实现

scikit-Learn的shuffle

In [9]:

from sklearn.utils import shuffle

In [10]:

shuffle(df)  # &#x6253;&#x4E71;&#x6570;&#x636E;

random模块的shuffle

In [11]:

length = list(range(len(df)))  # &#x539F;&#x59CB;&#x7684;&#x957F;&#x5EA6;&#x4F5C;&#x4E3A;&#x7D22;&#x5F15;
length[:5]

Out[11]:

[0, 1, 2, 3, 4]

In [12]:

random.shuffle(length)  # &#x6253;&#x4E71;&#x7D22;&#x5F15;

In [13]:

length[:5]

Out[13]:

[136, 35, 207, 127, 29]  # &#x6253;&#x4E71;&#x540E;&#x7684;&#x7ED3;&#x679C;

In [14]:

df.iloc[length]   # &#x901A;&#x8FC7;&#x6253;&#x4E71;&#x540E;&#x7684;&#x7D22;&#x5F15;&#x83B7;&#x53D6;&#x6570;&#x636E;

numpy实现

In [15]:

&#x5148;&#x6253;&#x4E71;&#x6BCF;&#x4E2A;&#x7D22;&#x5F15;
np.random.permutation(len(df))

Out[15]:

array([223,  98, 238,  17, 101,  26, 122, 212,  27,  79, 210, 147, 176,
        82, 164, 142, 141, 219,   6,  63, 185, 112, 158, 188, 242, 207,
        45,  55, 178, 150, 217,  32,  16, 160, 157, 234,  95, 174,  93,
        52,  57, 220, 216, 230,  35,  86, 125, 114, 100,  73,  83,  88,
        34,   7,  40, 115,  97, 165,  84,  18, 197, 151, 135, 121,  72,
       173, 228, 143, 227,   9, 183,  56,  23, 237, 136, 106, 133, 189,
       139,   0, 208,  74, 166,   4,  68,  12,  71,  85, 172, 138, 149,
       144, 232, 186,  99, 130,  41, 201, 204,  10, 167, 195,  66, 159,
       213,  87, 103, 117,  31, 211, 190,  24, 243, 127,  48, 218, 233,
       113,  81, 235, 229, 206,  96,  46, 222,  50, 156, 180, 214, 124,
       240, 140,  89, 225,   2, 120,  58, 169, 193,  39, 102, 104, 148,
       184, 170, 152, 153, 146, 179, 137, 129,  64,   3,  65, 128,  90,
       110,  14, 226, 181, 131, 203, 221,  80,  51,  94, 231,  44, 108,
        43, 145,  47,  75, 162, 163,  69, 126, 200,   1, 123,  37, 205,
       111,  25,  91,  11,  42,  67, 118, 196, 161,  28, 116, 105,  33,
        38,  78,  76, 224,  20, 202, 171, 177, 107,   8, 209, 239,  77,
       241, 154,   5, 198,  92,  61, 182,  36,  70,  22,  54, 187, 175,
       119, 215,  49, 134,  21,  60,  62, 168,  59, 155, 194, 109, 132,
        19, 199,  29, 191,  13,  30, 192, 236,  15,  53])

In [16]:

&#x901A;&#x8FC7;&#x6253;&#x4E71;&#x540E;&#x7684;&#x7D22;&#x5F15;&#x6765;&#x9009;&#x62E9;&#x6570;&#x636E;

df.iloc[np.random.permutation(len(df))]

train_test_split实现

from sklearn.model_selection import train_test_split

data = []

for i in train_test_split(df, test_size=0.2):
    data.append(i)

In [18]:

第一份数据是80%的：

data[0]   # 80%&#x7684;&#x6570;&#x636E;

剩余的20%的数据：

Original: https://blog.csdn.net/qq_25443541/article/details/124356555
Author: 尤尔小屋的猫
Title: Pandas+Numpy+Sklearn随机取数

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/759136/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【BUG】ImportError: Unable to import required dependencies:numpy: IMPORTANT: PLEASE READ THIS FOR ADVI

ImportError: Unable to import required dependencies:numpy:IMPORTANT: PLEASE READ THIS FOR …

Python 2023年8月24日
0046
Pandas基础题一百道（16~20）

目录 16、打印DataFrame的前后数据行 ①：打印DataFrame ②：打印DataFrame前10行数据 ③：打印DataFrame后十行数据 17、查看DataFr…

Python 2023年8月26日
0038
二道题：分组顺序向下填充和标注数据整理

分组顺序向下填充需求之前群友分享这样一道Pandas题：应用pandas模块，导入”python_test.xlsx”的excel中的表格数据（2个s…

Python 2023年8月7日
0055
《精通Python爬虫框架Scrapy》第3章爬虫基础

这是非常重要的一章，你可能会多次阅读本章，并且经常会在寻找解决方案时回到本章中。我们首先会介绍如何安装Scrapy，然后伴随若干示例及不同的实现，转向开发Scrapy爬虫的方法论。…

Python 2023年10月6日
0039
前端面试八股文（超详细）

JavaScript \1. Promise 的理解 Promise 是一种为了避免回调地狱的异步解决方案 2. Promise 是一种状态机： pending（进行中）、fulf…

Python 2023年11月6日
0041
mysql 存储ipv6

自定义列 https://groups.google.com/g/sqlalchemy/c/lZw0GipVYFw https://docs.sqlalchemy.org/en/1…

Python 2023年6月12日
0084
anaconda使用系列教程–4）环境迁移

跨平台尽量避免，比如windows和linux就不要跨平台，就在linux之间跨还是可以的直接copy整体环境文件，适合于无法联网或网速不佳的新环境 anaconda最好是同版本…

Python 2023年9月8日
0082
Anaconda安装dlib库报错：RemoveError: ‘requests‘ is a dependency of conda……（已解决）

在安装dlib库时，使用pip和conda安装都没有安装成功，在使用conda安装时，报错信息为：RemoveError: ‘requests’ is a …

Python 2023年9月8日
0033
上周热点回顾（11.14-11.20）

热点随笔： · Spring Boot框架下实现Excel服务端导入导出 (葡萄城技术团队)· 当 xxl-job 遇上 docker → 它晕了，我也乱了！ (青石路)· C#多…

Python 2023年10月14日
0048
【李沐AI自学】预备知识（2）

微积分四种输出形式 https://blog.csdn.net/qq_45664055/article/details/118271642 +加号拼接（针对字符串） str1 =…

Python 2023年9月6日
0038
【Flask框架】——16 Jinja2模板

文章目录 Jinja2模板 * 一、Jinja2模板介绍 – 1.模板传参 2.语法二、表达式三、控制语句 – 1.条件判断语句 2.for循环语句： …

Python 2023年8月9日
0068
python编写飞机大战小游戏+源码

Original: https://www.cnblogs.com/123456feng/p/16159379.htmlAuthor: 蚂蚁ailingTitle: python编…

Python 2023年5月24日
0064
python中tkinter鼠标事件_在Tkinter中使用鼠标事件绘制矩形

This is with respect to Draw rectangle on mouse click [Python]. I tried out the first solu…

Python 2023年9月23日
0045
数据结构与算法python版（4）-动态规划简介

推荐文章很多小伙伴都发现了，用户自主「申请上首页」的按钮取消了，那博主们写的文章还有上首页曝光的机会吗？我们的回答是”当然有！！！”虽然我们取消了上首页申…

Python 2023年5月24日
0080
自适应且不可删除的水印蒙层

canvas自适应文字长度，旋转角度生成水印背景图设置canvas字体大小后，通过 ctx.measureText(text).width获取两行文字的宽度text1，text2…

Python 2023年10月13日
0037
21天学通Python PDF完整版

《21天学通Python》全面、系统、深入地讲解了Python编程基础语法与高级应用。在讲解过程中，通过大量实际操作的实例将Python语言知识全面、系统、深入地呈现给读者。此外，…

Python 2023年11月3日
0040

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31