1
503
|
2
97
|
3
46
|
4
11
|
5
11
下面是一个使用
|
6
9
要将编码从ISO8859-1转换为ASCII:
|
7
6
很难确定它是否是ISO8859-1。如果您的文本只有7位字符,也可以是ISO8859-1,但您不知道。如果您有8位字符,则上部区域字符也存在于顺序编码中。因此,你必须使用字典来更好地猜测它是哪个单词,并从中确定它必须是哪个字母。最后,如果您检测到它可能是UTF-8,那么您确定它不是ISO8859-1。
|
8
5
使用Python,您可以使用 chardet 单元 |
9
3
这不是你可以用万无一失的方式做的事情。一种可能是检查文件中的每个字符,以确保其不包含范围内的任何字符
另一种可能是在文件中以支持的所有语言查找特定单词,并查看是否可以找到它们。 因此,例如,在ISO8859-1的所有支持语言中查找英语“and”、“but”、“to”、“of”等的等效项,并查看它们是否在文件中大量出现。
尽管这是可能的。我说的是目标语言中的常用词(据我所知,冰岛语中没有“和”这个词——你可能不得不用它们的词来表示“鱼”[对不起,这有点老套。我不是有意冒犯,只是想说明一点])。 |
10
3
使用此命令:
如果文件名中有空格,请使用:
记住,它会将您当前的Bash会话解释器更改为“空格”。 |
11
2
我知道您对一个更一般的答案感兴趣,但ASCII的优点通常适用于其他编码。下面是一个Python单行程序,用于确定标准输入是否为ASCII。(我很确定这在Python 2中是可行的,但我只在Python 3上测试过它。)
|
12
2
更多信息可在此处找到: How to Determine Text File Encoding . |
13
2
在PHP中,您可以按如下方式进行检查: 明确指定编码列表:
mb_列表_编码() 注意,mb_*函数需要php mbstring:
|
14
1
|
15
0
可以使用file命令提取单个文件的编码。我有一个sample.html文件,其中包含:
html:html文档,UTF-8 Unicode文本,具有很长的行
HTML文档,UTF-8 Unicode文本,具有很长的行
utf-8 |
16
0
在里面 Cygwin
例子:
您可以通过管道将其传输到AWK并创建一个 iconv 例子:
|
17
-3
对于Perl,使用Encode::Detect。 |
lonix · 使用sed从JSON中提取非贪婪正则表达式 1 年前 |
g00dds · 如何在bash中从文件中的每一行解码base64? 2 年前 |
Paul · Bash wait命令忽略指定的进程ID 2 年前 |
RafaÅ G. · 如何使用从文件读取的多行参数运行ssh? 2 年前 |
Priya · 在shell脚本中多次运行python脚本 2 年前 |