代码之家 › 专栏 › 技术社区 › Nicolas Henneaux

在创建字符串和getBytes()之间转换字符串的字节

byte character-encoding encoding string java

Nicolas Henneaux · 技术社区 · 6 年前

我有一个意想不到的行为,我想知道这是否是预期的行为和背后的原因是什么?我使用字节数组创建一个新字符串,当我使用相同的编码返回字节数组时,字节数组就不一样了。

byte[] bytes = new byte[24];
new Random().nextBytes(bytes);
assertEquals( // fails
  DatatypeConverter.printHexBinary(bytes), 
  DatatypeConverter.printHexBinary(new String(bytes, UTF_8).getBytes(UTF_8))
);

2 回复 | 直到 6 年前

Joey Gumbo 6 年前

不是每个随机字节数组都是有效的UTF-8。事实上,我想说他们中很少有人是。因此,在创建字符串时,会将一些字符转换为U+FFFD,这表示在确定原始字节时出错。当转换回字节时,它们看起来当然会有所不同。

Slaw 6 年前

您正在使用随机生成的字节来创建 String . 无法保证这些随机生成的字节是有效的UTF-8(或任何编码)。如果你看一下 String(byte[],Charset) 您将看到:

此方法始终使用此字符集的默认替换字符串替换格式错误的输入和不可映射的字符序列。

Charset .

推荐文章

Murilo lima alves · Visual Studio代码-使用差异屏幕时TFVC项目中的文件编码

6 年前

Buddhika Chathuranga · Python3 UnicodeEncodingError

6 年前

Gary McGill · 我可以在Knockout中“扩展”这个“值”绑定来进行简单的字符替换吗?

6 年前

Entretoize · 找不到用于在joomla db中插入项目的良好编码

6 年前

Abdul Rehman · 读取文本文件返回UnicodeDecodeError:“utf-8”编解码器无法在Python中解码字节0x92[重复]

6 年前

Brian Leishman · 为什么有些二进制文件在存储字符串时字符之间有空字节?

6 年前

dukyz · 为什么java中的字符串解码和编码并不总是对称的?

6 年前

CHHIBI AMOR · 如何在liquibase sql for oracle上指定字符编码?

6 年前

BugShotGG · 如何在c中处理ifstream、cout等的多个区域设置++

6 年前

Yusuf Yildirim · 当我试图用strlen()获取字符串中的字符计数时,为什么返回2?[副本]

6 年前