STATA数据统计软件学习记录

2023年6月3日下午10:02 • 人工智能 • 阅读 73

STATA是一个数据统计软件，正如它的名字一样，STATA=statistic+data。STATA软件的功能和matlab类似，也可以用代码实现数据的统计与可视化。但几乎只能进行整行整列的数据处理，且每次只能加载处理一个数据矩阵，灵活性和全面性比不过matlab。那我为什么要用STATA呢？这是因为我选修了这门课，水一下学分。当然，相比matlab，它在数据处理方面，也有一些方便之处。下面记录STATA的一些常用的处理、统计、可视化方法。

基本命令

STATA命令的语法大部分是这样的：命令（空格）待处理的数据名（逗号）可选的一些参数。

读取软件自带数据集 sysuse

首先读取STATA自带的样例数据：

sysuse auto, clear

其中sysuse是一个命令，auto是汽车数据集的名称，clear是在读取数据之前先清空内存中已读取的数据。之后可以在变量窗口看到读取的变量。实际上这里的变量就是excel列表中的列标，每个变量代表一个列标。然后每个列标都有它对应的属性，属性定义了每列数据的类型和一些信息等。如下图：

浏览数据集 br

用br命令（等同于browse，STATA要弄一个简写让你更方便一些，然而让初学者很烦，可读性很差，弄巧成拙）可以查看所读取的表格：

br

如下图所示：

获取数据基本统计信息 sum codebook tabstat

summarize可以看表格的一些统计信息、codebook则是对表格的各列进行统计。它们后面可以跟着列名，则只显示这几列的信息，否则显示所有列：

summarize price mpg
codebook rep78

如下图所示：

tabstat可计算某种统计值，统计值种类比sum和codebook多，当做print来用吧：

tabstat price, by(rep78) stat(std max min)

以上显示车价格，在rep78的各个条件下的标准差、最大值和最小值。想要其他统计值，用help查看简写方法╮(╯▽╰)╭。

变量生成与替换 gen egen

gen和egen用于生成变量，gen是一对一生成，egen是一对多生成（比如max()值会赋值到每一行上）。如：

gen test1 = 2*price
egen test2 = max(price)

replace用于变量的替换，如：

replace test1 = test2 in 1/10

将test1的前10行数据替换为test2。其中的in在很多其他对行进行操作的命令中也可以使用。

另外要注意的是，不像matlab，STATA中的操作不能直接使用，必须要进行赋值，也就是用gen等命令生成某列，否则会报错。

基于某列取值下的分析 by

如果想在某列的各个不同的取值下，对其它列进行分析，可以用by，用法如下：

by foreign, sort: sum price

表示在foreign的各个取值下，获取price一些基本统计信息（sum就是summarize）。其中，如果by后面的变量没有排序，则必须要加sort，会先对其进行排序，否则会出错（默认排序不就行了？）。

如果想在某列特定取值下进行分析，可以用if：

sum price if foreign == 0

安装外部命令

STATA的命令是很分散的，不像python、matlab把相似的命令、处理方法都打包在一块儿。所以有些外部命令没得用，只能一个一个安装。用help查询相关命令，然后进行安装：

help graph3d

统计命令

下面的命令使用软件自带的auto数据集。

数量统计tabulate

统计某列或某两列中不同取值的数量，用法就是后面跟着一个或两个变量：

tabulate mpg
tabulate mpg rep78

两个以上变量会报错。

二维可视化twoway

twoway进行二维可视化，后面每个括号内都能画一个相应的可视化图。如下所示：

twoway (scatter length mpg) (lfit length mpg)

表示以length为y轴，mpg为x轴，绘制散点图和拟合一元一次方程。可视化结果如下：

再加by可以在某个变量的各个取值下分别进行可视化：

twoway (scatter length weight) (lfit length weight), by(foreign)

回归regress

基本用法

使用几列数据对某列数据进行线性回归。比如，使用mpg、rep78、length作为因变量，对price进行回归，用法如下：

regress price mpg rep78 length

结果：

我们可以进行一个测试，创建test变量为price、mpg、weight的线性和，然后进行回归：

gen test = price*2+mpg*3+weight*456+789
regress test price mpg weight

结果：

可以看出线性回归得到的系数与创建的一模一样。之后还可以使用predict创建回归值和回归偏差：

predict test_hat
predict test_res, res

结果如下：

二次以上的回归方式

如果想进行二次回归，可以先创建因变量的平方，然后使用一次、二次变量作为因变量进行回归：

gen weight2 = weight^2
regress mpg weight weight2 foreign
predict mpg_hat
sort weight
twoway (scatter mpg weight) (line mpg_hat weight), by(foreign)

分别按国内外汽车进行了车重和油耗的二次关系的统计，结果如下：

Original: https://www.cnblogs.com/qizhou/p/16712549.html
Author: 颀周
Title: STATA数据统计软件学习记录

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/565898/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

使用Pytorch快速训练ResNet网络模型

写在最前面：本次博客不涉及模型原理的解释，可以看…

人工智能 2023年7月21日
0086
目标检测中的数据增强

random erasing data augmentation 论文说明论文为CNN训练提出了一种新的数据增强方法。Random Erasing，在一张图片中随机的选择一个矩形…

人工智能 2023年7月28日
0070
爆肝万字，终于搞定这篇⛵神经网络搭建全全全流程！学不会你来找我~

💡 作者：韩信子@ShowMeAI📘 深度学习实战系列：https://www.showmeai.tech/tutorials/42📘 TensorFlow实战系列: https:…

人工智能 2023年7月14日
0064
RNA-seq数据分析

一、数据收集 1.NCBI GEO数据库收集相关RNA-seq数据样本信息以及引用文献可以点击对应链接查看 2.SRA Run Selector 查看数据单双端类型（SINGLE …

人工智能 2023年7月16日
00109
[附源码]Node.js计算机毕业设计电子购物商城Express

项目运行环境配置： Node.js 最新版+ V s code + Mysql5.7 + HBuilderX+Navicat11+Vue。项目技术： Express 框架+ N…

人工智能 2023年7月30日
0036
线性时间选择算法-《数据结构》（结合例题讲解）

题目：给定一个包含 n 个元素的一维线性序列a[p:r]，从这 n 个元素中找出第 k 小的元素，1 写出算法实现代码并截屏程序运行结果。线性时间选择算法如何解决划分不平衡的问题…

人工智能 2023年7月15日
0091
相机标定(世界坐标系–>相机坐标系，相机坐标系–>图像坐标系，图像坐标系–>像素坐标系，完成世界坐标系–>像素坐标系)

本篇文章主要介绍如何使用相机标定，实现世界坐标系–>相机坐标系，相机坐标系–>图像坐标系，图像坐标系–>像素坐标系，完成世界坐…

人工智能 2023年6月4日
0077
Pandas 模块-操纵数据(1)-重命名-rename()-rename_axis()

目录 1. 重命名 1.1 .rename() 函数-修改 Dataframe 数据的行名和列名 1.1.1 .rename() 函数语法 1.1.2 .rename() 函数范例…

人工智能 2023年7月7日
0076
【K210】K210学习笔记六——MaixHub在线模型训练识别数字

【K210】K210学习笔记六——MaixHub在线模型训练识别数字前言 K210准备工作数据的获取 MaixHub如何在线训练模型训练模型在K210上的测试小结前言本…

人工智能 2023年7月9日
00108
sklearn中的决策树（分类）

本文在我的知乎上同步更新：sklearn中的决策树（分类） – 知乎 Sklearn库有很多机器学习模型，不同的模型有着不同的特点，针对不同的问题，选取对应的模型，可以…

人工智能 2023年7月5日
0088
探究torchAudio中wav2vec2的源码（二）——特征提取

前文再续，书接上一回，我们看看wav2vec2怎么提取特征。在论文中，wav2vec2是通过conv1d进行特征提取的。如下图：而conv1d的具体结构也已经给出： extra…

人工智能 2023年5月23日
00122
【论文向】Wav2vec无监督预训练语音模型

【论文向】Wav2vec无监督预训练语音模型 wav2vec: Unsupervised Pre-training for Speech Recognition 目录【论文向】W…

人工智能 2023年5月25日
0079
VS2019 C++调用pytorch Faster-RCNN全过程(Libtorch+opencv)

前言目标检测网络根据阶段数主要有 one-stage和 two-stage两大类。 one-stage：直接&a…

人工智能 2023年7月9日
0071
python-opencv第四期：threshold函数详解

概要：众嗦粥汁所周知，在如今计算机视觉（ Computer Version short for CV）是人工智能与机器人技术发展的一个重大研究方向，而 opencv作为一个专门为…

人工智能 2023年7月27日
0074
tensorflow与keras版本对应

TF2.x tensorflow版本keras版本TensorFlow 2.0.0Keras 2.3.1TensorFlow 2.1.0Keras 2.3.1TensorFlow …

人工智能 2023年5月23日
0090
【YOLOv5实战5】基于YOLOv5的交通标志识别系统-YOLOv5整合PyQt5

实战博客指引：实战环境搭建自定义数据集模型训练模型测试与评估 YOLOv5整合PyQt5 经过前四步已经成功地搭建YOLOv5环境并完成了交通标志识别系统。但是由于YOLO…

人工智能 2023年7月21日
0075

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31