核心命令:summarize
(简写su
)
语法:
summarize [变量名] [, options]
操作步骤:
-
加载数据:
sysuse auto, clear // 使用Stata自带汽车数据集
-
计算单个变量均值:
summarize price // 计算价格(price)的均值
输出解读:
Mean
:均值(本例中为汽车平均价格)- 其他结果:样本量(Obs)、标准差(Std. Dev.)、最小值、最大值
-
计算多个变量均值:
summarize price mpg weight // 同时计算价格、油耗、重量的均值
-
分组计算均值(需先分组):
bysort foreign: summarize price // 按产地(foreign)分组计算价格均值
进阶命令:tabstat
(输出表格化结果)
语法:
tabstat [变量名], stat(mean) [options]
示例:
tabstat price mpg, stat(mean) by(foreign) // 按产地分组输出均值的整洁表格
加权均值计算
若数据有权重变量(如weightvar
):
summarize price [aweight=weightvar] // 使用权重变量计算加权均值
缺失值处理
Stata默认忽略缺失值计算,检查缺失值用:
misstable summarize price // 检查price的缺失值情况
结果导出
将均值结果导出到Excel:
tabstat price, stat(mean) save matrix m = r(StatTotal) putexcel A1 = matrix(m) using "均值结果.xlsx", replace
注意事项
-
命令缩写规则:
summarize
→su
tabstat
→tab
(缩写可提高效率,但正式报告中建议用全称)
-
适用场景:
summarize
:快速查看基本统计量tabstat
:需分组对比或导出结果时mean
:更复杂的均值估计(如标准误、置信区间)
-
专业建议:
- 连续变量用
summarize
,分类变量用tabulate
- 始终用
codebook [变量名]
先检查变量属性
- 连续变量用
引用说明:
本文方法基于Stata 17官方手册(Stata Press, 2021)和《Stata统计分析教程》(人民邮电出版社),数据处理建议参考McDonald, J.H. (2014) Handbook of Biological Statistics。
原创文章,发布者:酷番叔,转转请注明出处:https://cloud.kd.cn/ask/7157.html