代码之家 › 专栏 › 技术社区 › dukyz

为什么java中的字符串解码和编码并不总是对称的?

character-encoding java

dukyz · 技术社区 · 6 年前

我对Java字符串的解码和编码感到困惑。

现在我有一个字符串变量“”,在中文中表示中国,它包含在中文原生字符集GB2312中,也包含在Unicode中。

那么以下两者之间的区别是什么呢??

val f = "ä¸å½"

println(new String(f.getBytes("GB2312"),"GB2312"))

println(new String((new  String(f.getBytes("GB2312"),"UTF8")).getBytes("UTF8"),"GB2312") )

2 回复 | 直到 6 年前

Diasiare 6 年前

它的行为是这样的,因为 new String(x, "UTF8").getBytes("UTF8") 只会是 x 如果 十、 实际上是UTF-8字符串的有效字节表示形式。否则根据 javadoc for String

此方法始终使用此字符集的默认替换字符串替换格式错误的输入和不可映射的字符序列。

UTF-8的默认字符是(位表示 11101111 10111111 10111101 )。 f.getBytes("GB2312") 返回以下位序列: 11010110 11010000 10111001 11111010 。在一个无效字符中,后跟 11010000 10111001 或,然后是另一个无效字符。的输出 new String(f.getBytes("GB2312"),"UTF8") 因此被转换为二进制形式, 11101111 10111111 10111101 11010000 10111001 11101111 10111111 10111101 。

11010110 和 11111010 无效,因为任何以表单的字节开头的字节序列 11xxxxxx 表单中必须后跟一个或多个字节 10xxxxxx (确切数字取决于 1 的开头)。看见 Wikipedia 有关UTF-8格式的更多详细信息。

Tom Blodget 6 年前

仅仅 new String(s.getBytes("UTF8"),"GB2312") ) 不会做你认为它会做的事。(我不知道你认为它有什么作用,但我认为它不会带来任何好处。)

这意味着:使用UTF-8对字符串中的文本进行编码,然后获取这些字节并对其进行解码,就像它们是使用GB2313编码的文本一样。

推荐文章

junsung kang · Cassandra突然挂起,返回WindowsFileSystemException:“该进程不可访问,因为该文件正被另一个进程使用”

1 年前

vaibhav nalamalpu · Intellij 2023.1无法打开(即使在重新安装后)[关闭]

1 年前

Katlock · 如何在Spring中将Restpage转换为特定的对象类型?

1 年前

Edward Khazzoum · 为什么在H2数据库中创建表时出现错误4201-214?

1 年前

Yellow Blood · If语句在应为[重复]时未返回True

1 年前

user21749640 · List.contents(A)返回false,但List.contens(B)和B.equals(A)是否返回true?

1 年前

MysticSticker · 如何在savedPreferences中保存按钮[]文本

1 年前

Pektra Mom · 如何将数组中的所有字符串替换为特定的特殊字符

1 年前

Nitin Kshirsagar · 在谷歌云上将java8迁移到java11/17是强制性的吗

1 年前

changhoon seong · 为什么这个代码没有按照我想的方式输出?(关于班次)

1 年前