代码之家 › 专栏 › 技术社区 › Mike Marshall

用javascript解析UTF-8xml

xmldom utf-8 xml node.js javascript

Mike Marshall · 技术社区 · 5 年前

我尝试使用node和 xpath 和 xmldom 包装。没有使用XML名称空间,转换为ASCII时会解析相同的XML。在VS代码中的调试器中,我可以看到字符串在每个字符之间都嵌入了空格(这肯定是因为错误地加载了utf-8文件),但我找不到正确加载和分析utf-8文件的方法。

代码:

var xpath = require('xpath')
  , dom = require('xmldom').DOMParser;

const fs = require('fs');

var myXml = "path_to_my_file.xml";

var xmlContents = fs.readFileSync(myXml, 'utf8').toString();

// this line causes errors parsing every single tag as the tag names have spaces in them from improper utf-8 decoding
var doc = new dom().parseFromString(xmlContents, 'application/xml');
var cvNode = xpath.select1("//MyTag", doc);

console.log(cvNode.textContent);

如果文件是ASCII,则代码可以正常工作( textContent 有正确的数据),但如果是UTF-8,则有许多解析错误和 cvNode 是 undefined .

在node/javascript中有没有正确的解析UTF-8xml的方法?我一生都找不到一个像样的例子。

1 回复 | 直到 5 年前

NineBerry 5 年前

当您看到每个字母之间有额外的空格时,这表明文件实际上不是使用utf-8编码的,而是使用16位unicode编码。

尝试 'utf16le' .

有关支持的编码的列表,请参见 Buffers and Character Encodings .

推荐文章

JobProcessTask · 如何读取此xpath表达式?

2 年前

Sven K · 无法访问XML数据结构中的“数据”:“名称属性>数据”

2 年前

sklal · 在Python中从S3存储桶读取xml文件——只存储最后一个文件的内容

2 年前

MBF · PHP导入/解析XML文件内容保存到数据库

2 年前

TenkMan · SQL Server XML嵌套值查询表单990

2 年前

lam62 · 如何使用XML从XHTML/XML中提取相关数据。dom。小型化

2 年前

Mohan.Murali.Peddini · XSLT模板循环记录

2 年前

mayo0o · 检查元素的总和

2 年前

crichavin · 排除XSLT的(1.0)行返回和文本输出中的额外空白

2 年前

Crimp · 从Excel导出后,在XML文件和PowerShell输出中发现奇怪字符:

2 年前