代码之家 › 专栏 › 技术社区 › user42459

编码后stata中的奇怪排序

stata

user42459 · 技术社区 · 6 年前

变量x以前是字符串。所以我用 encode 使其非字符串的命令。

但在那之后,当我排序时,它是这样排序的。

但通常,应该像

为什么整理之后会这么奇怪 编码 是吗?

看起来 1003 创建自 编码 和 1003个 在里面 using 数据集被认为是不同的数字。

1 回复 | 直到 6 年前

Nick Cox 6 年前

一点也不奇怪。就在上面 help encode 斯塔塔告诉你“不要用 encode 如果 变量名 包含恰好存储为字符串的数字”。

编码 按字母顺序(此处为字母数字)将字符串映射到数字值1上(除非使用 label() 选项)。

所以 "1000" 将在之前排序 "10000" 之前 "1001" 等等。

你可能需要 destring 但是为什么变量被读取为字符串?这就是你需要担心的。

编码 当您需要数字等价物时,用于字符串。所以 "cat" "dog" "frog" "toad" 将映射到1 2 3 4,字符串值将成为值标签。

销毁 是错误的字符串。变量应该是数字,但读取数据时出错。那么,出了什么问题?常见错误包括

要检查问题,可以查看不会转换为数字的值:

 tab whatever if missing(real(whatever))

推荐文章

Satish Chaudhary · Statsmodels ARIMA(0,1,2)结果不同于Stata ARIMA(0,1,2)

1 年前

dimitriy · 是否有方法验证跨多个数据集一致地定义了值标签?

6 年前

user27808 · 从最后一次观测到第一次观测在Stata中模拟AR(1)

6 年前

Amin Karimi · 删除两个表中的相同观测值

6 年前

user42459 · 使用Stata扩展连续和

7 年前

bill999 · 使用esttab设置表格格式

7 年前

Amberopolis · 在多条直线上断开时,轴标签偏离中心

7 年前

STP · 更改R中的内部因素级别(对于haven-write\u dta()很重要)

7 年前

psoares · Stata中R样本函数的等价物是什么

7 年前

martins · 使用putexcel命令在列中循环

7 年前