R语言—数据基础及练习

## 创建leadership数据框
manager )
date "10/24/08","10/28/08","10/1/08","10/12/08","5/1/09")
country "US","US","UK","UK","UK")
gender "M","F","F","M","F")
age )
q1 )
q2 )
q3 )
q4 )
q5 )
leadership  FALSE)
leadership
##创建新变量
leadership
##变量的重编码
leadership  within(leadership,{
                     agecat  NA
                     agecat[age>75] "Elder"
                     agecat[age >=55 & age "Middle Aged"
                     agecat[age "Young"})
leadership
##变量的重命名
install.packages("plyr")
library(plyr)
leadership "managerID",date="testDate"))
leadership
##缺失值
缺失值是不可比较的
缺失数据需在分析前重新编码为缺失值
is.na(leadership[,6:10])
##在分析中排除缺失值
含有缺失值的算术表达式和函数的计算结果也是缺失值
sum(q4,na.rm=T)
## na.omit()移除所有含有缺失值的观测
leadership
mydata  na.omit(leadership)
mydata
##日期值
as.Date()函数 将以字符串形式输入R中的日期值转化为以数值形式存储的日期变量
myformat "%m/%d/%y"
leadership$testDate  as.Date(leadership$testDate,myformat)
leadership
Sys.Date()#返回当天的日期
date()#返回当前的日期和时间
DOB "1997-08-21")
today  Sys.Date()
difftime(today,DOB,units="weeks")
##类型转换
is.datatype() 允许根据数据的具体类型加以不同的方式处理
as.datatype() 分析前先将数据进行转化
##数据排序
order() 默认的排序顺序--升序
在排序变量前加一个减号即可得到降序的排序结果
newdata  leadership[order(leadership$age),]
newdata
##数据集的合并
向数据框添加列 cbind() #不需要一个公共索引
向数据框添加行 rbind() #注意多余变量的处理
merge(dataframeA,dataframeB,by="") #横向合并,通过一个或多个共有变量进行联结
##数据集取子集
选入(保留)变量、剔除(丢弃)变量 #逻辑向量&比较运算符
选入观测
#subset()函数
newdata = 35 | age < 24, select=q1:q4)
newdata

undefined

随机抽样:从数据集中(有放回或无放回地)抽取大小为n的一个随机样本
#sample()函数
mysample F),]
mysample
练习题

一.将1、2、…20构成两个5*4阶的矩阵,其中矩阵A是按列输入,矩阵B按行输入

  1. 将A和B按照行合并;

  2. 将A和B转化为数据框DA和DB,并将他们的列命名为(“ID”,”A1″,”A2″,”A3″);

  3. 以”ID”为条件将DA和DB进行匹配;

  4. 在DA中选取”A2″列大于12且小于15的子集。

A=matrix(1:20,nrow=5,byrow=F)
A
B=matrix(1:20,nrow=5,byrow=T)
B

R语言—数据基础及练习
#(1)
rbind(A,B)

R语言—数据基础及练习
#(2)
colnames(A)=c("ID","A1","A2","A3")
DA=data.frame(A)
DA
colnames(B)=c("ID","A1","A2","A3")
DB=data.frame(B)
DB

R语言—数据基础及练习
#(3)
merge(DA,DB,by="ID")

R语言—数据基础及练习
#(4)
newdata=subset(DA,A2>12&A2ID:A3)
newdata

R语言—数据基础及练习

二.随机生成服从均值为2,标准差为3的正态分布的长度为5的向量x

  1. 将x降序排列,生成向量y
  2. 采用有放回抽样的方式从y中抽取3个元素
  3. 采用不放回抽样的方式,以概率prob=c(0.1,0.05,0.2,0.5,0.15)从中抽取3个元素。
#均值为2,标准差为3,长度为5的正态分布
x = rnorm(5,2,3)
x

R语言—数据基础及练习
#(1)
y=x[order(-x)]
y

R语言—数据基础及练习
#(2)
y[sample(1:5,3,replace=T)]
y

R语言—数据基础及练习
#(3)
y[sample(1:5,3,replace=F,prob=c(0.1,0.05,0.2,0.5,0.15))]
y

R语言—数据基础及练习

Original: https://www.cnblogs.com/dd0016/p/16758541.html
Author: 肚肚杜杜
Title: R语言—数据基础及练习

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/714210/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

  • idea tomcat启动后没有编译java文件

    在项目结构artifact处,Available Elements右键项目,选择 Put into Output Root,就会将依赖和classes编译到out目录 需要重启id…

    技术杂谈 2023年7月11日
    095
  • EducationalDPContest社论

    SoyTony 让我放歌词: Wish You Were Gay SoyTony 不让我放中文歌词, 《Wish You Were Gay》Baby, I don’t …

    技术杂谈 2023年7月24日
    051
  • Windows下安装SDKMAN

    Windows下安装SDKMAN SDKMAN(软件开发包管理器)可以对各种各样的二进制SDK包进行版本管理,包括Groovy和JDK等。 目前MacOS和Linux支持比较好,安…

    技术杂谈 2023年5月31日
    090
  • 下载资源一定要小心

    下载了一本电子书,发现不简单; 下载 解压 压缩包里面的 下载器 对于这种 下载器 一般需要谨慎!!! 国内的一般会各种 捆绑 恶意 软件 套装 国外的一般后 捆绑各种 勒索 病毒…

    技术杂谈 2023年5月31日
    0104
  • 市场主流的G-sensor芯片盘点

    一 前记 1.简介 随着可穿戴智能硬件的广泛发展,G-sensor成了一个必不可少的器件。梳理,测试和运用这些传感器。是做可穿戴产品必不可少的环节。 二 产品解析 1.ST的G-s…

    技术杂谈 2023年5月31日
    095
  • 一种基于二分法的变步长批量处理算法

    1、前言 变步长批量处理算法,在实现某些功能时,非常需要。如数据传输和数据导入时,使用可变步长的批量处理算法,可以极大地提高系统的性能,。 在不稳定的网络环境下,传输失败的几率提高…

    技术杂谈 2023年6月21日
    093
  • Python 中MATLABspline函数的替代函数

    调用 scipy模块,其中有对应的函数 UnivariateSpline。与MATLAB中 spline函数不同的是,这个函数返回值是一个插值函数,而非插值结果。 import s…

    技术杂谈 2023年7月25日
    076
  • mac查看当前调用tcp的进程并关闭指定进程

    查看所有tcp进程 监听的端口 lsof -iTCP -sTCP:LISTEN 查看指定端口信息 lsof -i:12345 关闭指定进程 kill -9 52356 Origin…

    技术杂谈 2023年5月30日
    095
  • 前端大杂烩

    javascript;gutter:true; function GetURLval(url) { var vars ={}, hash; if(!url) url = windo…

    技术杂谈 2023年5月31日
    095
  • CR和LF

    声明 本文转自:CR和LF – 田野与天 – 博客园 (cnblogs.com) 以下为正文 现在的电脑操作系统主要有windows、unix/linux、…

    技术杂谈 2023年6月1日
    099
  • 实践篇丨「QingScan」使用指南

    QingScan是一个安全工具整合系统,解决你平时使用各种工具一个个打开填写扫描目标的繁琐过程。QingScan工具只需要你把URL给它,它会调用市面上各种扫描工具,对URL扫描,…

    技术杂谈 2023年5月31日
    092
  • 查看核数 内存 磁盘

    404. 抱歉,您访问的资源不存在。 可能是网址有误,或者对应的内容被删除,或者处于私有状态。 代码改变世界,联系邮箱 contact@cnblogs.com 园子的商业化努力-困…

    技术杂谈 2023年5月31日
    091
  • nodejs express报错request entity too large

    PayloadTooLargeError: request entity too large at readStream (D:\nodejs\gisPic\node_module…

    技术杂谈 2023年5月31日
    081
  • Flink编译指定版本hadoop依赖

    准备工作 编译步骤 准备工作 官方文档:https://nightlies.apache.org/flink/flink-docs-release-1.11/ops/deploym…

    技术杂谈 2023年7月11日
    077
  • 面向对象ooDay8

    类中成员的默认访问权限———默认的 接口中成员的默认访问权限——public的 重写接口中的抽象方法时,必须加publi…

    技术杂谈 2023年7月11日
    074
  • Redis变慢?深入浅出Redis性能诊断系列文章(二)

    (本文首发于”数据库架构师”公号,订阅”数据库架构师”公号,一起学习数据库技术) 本篇为Redis性能问题诊断系列的第二篇,本文主要…

    技术杂谈 2023年7月25日
    085
亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球