stata学习笔记（一）stata入门与基本操作

这里开个新坑，主题有关stata使用以及定量分析入门，主要内容来自于之前与之后的课程学习、作业以及资料查询整理，主要目的是对个人学习过程的一个记录，方便日后回顾。

1 导入数据

方法1：点击文件选项，选择导入，根据数据类型选择即可；

方法2：:点击进入数据编辑器界面，点击“文件”选择打开。注意，该方式只能打开.dta文件，若数据量较小建议在Excel中的打开，全选后复制，粘贴至数据编辑器中。

若想将导入后的Excel文件转换成dta数据，可在主界面的文件中选择另存为即可。

2 修改变量标签

方法1：在数据编辑器的属性窗口直接输入即可

方法2：在命令窗口输入
label variable 城市 “city”
注意var后面的跟变量名称，即使是汉字也不需要加引号

3 检视数据

1.输入命令describe（可简写为d）看数据集中变量名称、标签等

2.若想看某几个变量的具体数据，则输入命令：
list A B C

3.也可通过逻辑关系来定义数据集子集，比如列出C变量大于等于10000的数据，则使用命令：
list A C if C>=10000

这里注意下其他表示关系的逻辑符号有“==”（等于）、“~=”（不等于，也可以用“！=”表示）。stata中等号的作用跟Python中类似，一个=是赋值，两个= =才表示等于。此外，if后面的等号必须是“= =”。
4.删改数据：
①若要删除满足“C<=10000”条件的观测值，可输入
drop if C<=10000
②若只要保留“C<=10000”条件的观测值，可输入
keep if C<=10000
注意，stata中没有撤回，所以删除数据需慎重。
5.若想将数据按变量C升序排列，可输入
sort C
list
若想按变量C降序排列，可输入
gsort -C

4 画图

1.hist 变量名 , width(5) frequency
其中hist全拼histogram，表示直方图，width（5）表示将组款设为5，frequency表示将纵坐标定为频数（默认使用密度）
2.sc 变量1 变量2 ， mlabel（变量1）
其中sc全拼scatter，即画出两个变量的散点图来看二者的关系。mlabel表示以变量1作为标签，显示在图中

5 统计分析

1.su 变量1
其中su全拼summarize，计算变量1的样本容量、平均值、标准差、最小值与最大值。若不表明变量则输出所有变量的统计指标

2.ta 变量1
其中ta全拼tabulate，显示变量1的经验累积分布函数，Freq表示频数，Percent表示百分比，Cum表示累积百分比

6 生成新变量

1.通过generate 简写为gen来实现。
gen lnB=ln(B)
上面命令可定义变量B的对数并生成名为lnB的新变量
gen squareB=B^2
上面命令表示生成新的B的平方变量
2.生成虚拟变量，即只包含0 1的二值项
gen 变量2=1 if 变量11
replace 变量2=0 if 变量2.
3.rename 变量1 变量一
变量1被重命名为变量一
4.drop 变量1
变量1被删除

7 链接新变量

若需要合并其他数据集中的变量，则要用到merge命令。例如表1中需要加入B变量，该变量位于表2中，其中共同字段为A，则可以通过以下命令来将B合并如表1中：
use C:\ 表1.dta，clear
merge m:1 A using E:\表2.dta , keepusing(B)
drop if _merge2
drop _merge
其中m;1表示数据对应关系为多对1，较为常见，关于merge用法的详解可以参考其他博文：https://blog.csdn.net/qq_42729246/article/details/105623056
keepusing（B）表示只引入B变量，若不加这个可选项则表示引入表2中的全部变量。
drop if _merge2表示删除不匹配数据
drop _merge表示删除新生成的 _merge变量

8 do文件

点击上图的新建do文件，即可撰写代码实现可重复性的使用

9 相关练习

1.计算gdp、college的变异系数
变异系数的公式为V=S/|x ̅ | ，其中S 为标准差，x ̅为平均值。两者均可通过Stata自带的函数进行运算，具体代码如下：

计算出来的结果为，gdp的变异系数为0.7695182，college的变异系数为0.4989674（保留小数点后7位）。

2.用Stata计算基尼系数
这里我将人口与GDP数据相结合，计算了各省份人均GDP方面的基尼系数。选用公式为

其中p_i为地区单元比重，w_i为地区某指标比重，q_i为累积比重。因为要计算人均GDP的基尼系数，因此，p_i为各省份人口所占总人口的比例，w_i为各省份GDP占总GDP的比例，q_i为按人均GDP排序后的累积GDP比例。具体代码如下：

计算得到的基尼系数为0.2032725（保留小数点后7位）。

3.对trade变量进行极差标准化并赋值给新变量
与上个问题同理，其公式的不同在于分母，换成了最大值减最小值的极差。具体公式为：

运算结果如下：