![]() |
1
5
本地Win32 你可以一直使用 IHtmlDocument2 . 这是内置到Windows的。通过这个COM接口,您可以 本地的 访问强大的DOM解析器(即DOM解析器!). |
![]() |
2
8
蟒蛇: lxml -更快,也许更好地解析错误的HTML BeautifulSoup -如果LXML输入失败,请尝试此操作。 红宝石: (听说过以下图书馆,但从未尝试过) 不过,如果您的解析器阻塞了,并且您可以大致确定阻塞的原因,我坦率地认为,在将该部分传递给解析器之前,可以使用regex hack删除该部分。 如果您决定使用lxml, here 是 some 可能会发现有用的XPath教程。LXML教程假设您知道什么是xpath(我第一次读它们时没有这样做)。 编辑: 你的帖子从一开始就很有发展…我会尽力回答的。
它可以。尝试
似乎DOM查询完全适合您的需要。xpath查询返回找到的元素列表——您还需要什么?尽管它的名字,LXML还是接受了“松散的HTML”。此外,解析器可以识别HTML中的“符号公告”,并相应地构造整个文档,因此您不必自己去做。
是的,您仍然需要对结构进行搜索,但是在更高的抽象级别上。如果网站设计者决定进行页面翻修并完全更改其名称和结构
很抱歉,我没有提供“本机win32”库,我一开始以为您的意思是“在Windows上运行”。但其他人已经回答了这一部分。 |
![]() |
3
5
|
![]() |
4
3
使用 Beautiful Soup .
|
![]() |
5
2
如果您真的在win32下,您可以使用一个小而快速的com对象来完成它。 带VBS的示例代码:
您还可以在Windows中使用JScript或VB/DEPHY/C++/C/Y/Python等来实现这一点。它直接使用mshtml.dll DOM布局和解析器。 |
![]() |
6
0
另一种选择是使用HTML DOM解析器。不幸的是,它们中的大多数似乎都有格式不好的HTML的问题,因此除此之外,您还需要首先通过HTML整洁或类似的方式运行它。 |
![]() |
7
0
|
![]() |
8
0
使用DOM分析器 例如,Java检查此列表 Open Source HTML Parsers in Java (我喜欢用眼镜蛇) 或者,如果您确定您只想解析HTML的某个子集(理想情况下也是XML有效的),您可以使用一些XML解析器只解析传递给它的片段,甚至使用xpath请求您感兴趣的值。 Open Source XML Parsers in Java (例如,DOM4J易于使用) |
![]() |
9
0
我认为libxml2,尽管它的名字,也尽可能地解析标签soup html。它是一个C库,因此应该满足您的需求。你可以找到它 here . 顺便说一句,另一个答案建议使用LXML,它是一个python库,但实际上是在libxml2上构建的。如果lxml对他很好,那么libxml2很可能对您很好。 |
![]() |
10
0
使用Internet Explorer作为ActiveX控件如何?在查看页面时,它将为您提供一个完全呈现的结构。 |
![]() |
11
0
Perl中的html::parser和html::tree模块非常擅长解析 最 网络上典型的所谓HTML。从那里,您可以使用类似xpath的查询来定位元素。 |
![]() |
12
0
你觉得IHTMLDocument2怎么样? 我认为这会有所帮助。 |
|
vini · 安装wfp内核驱动程序后,devcon状态返回39 2 年前 |
![]() |
I101I · 如何镜像HBITMAP 2 年前 |
![]() |
E235 · 如何查看谁创建了Windows NamedPipe 2 年前 |
![]() |
Pizza Ãcke · 创建带有内存映像的Windows托盘图标 2 年前 |
![]() |
Jabu · 如何获取列表框滚动条“拇指”的高度? 2 年前 |
![]() |
tree1234 · 对可执行文件进行代码设计,并允许修改某些字节 2 年前 |
![]() |
Penachia · PDF FontDescriptor标志 6 年前 |