![]() |
1
1
J2SE在包中包含HTML解析功能 javax.swing.text.html 和 javax.swing.text.html.parser . HTMLEditorKit.ParserCallback 接收推送的事件 DocumentParser (最好通过 ParserDelegator )这个框架非常类似于XML的SAX解析器。 当心,有一些虫子。它不能很好地处理糟糕的HTML。
|
![]() |
2
3
有一个很好的HTML解析器叫做neko:
|
![]() |
4
0
HTML抓取是出了名的困难,除非你有很多类似于独特ID的“钩子”。例如,所需的表以该HTML开头:
…非常通用,可能与页面上的几个表匹配。另一个问题是,如果HTML结构发生变化会发生什么?你必须重新定义你所有的解析规则… |