代码之家 › 专栏 › 技术社区 › Amit

如何将网页的HTML源转换成Java中的Or.W3C.DOM.文档?

html java

Amit · 技术社区 · 15 年前

如何将网页的HTML源转换成Java中的Or.W3C.DOM.DCONTRONTION?

3 回复 | 直到 15 年前

Seth 15 年前

这实际上是一件相当困难的事情,因为任意的HTML网页有时是畸形的(主要浏览器是相当宽容的)。你可能想看看 swing html parser 我从未尝试过,但看起来这可能是最好的选择。您还可以尝试这样做,并处理可能出现的任何解析异常(尽管我只在XML中尝试过这样做):

import java.io.File;
import org.w3c.dom.Document;
import org.w3c.dom.*;

import javax.xml.parsers.DocumentBuilderFactory;
import javax.xml.parsers.DocumentBuilder;
import org.xml.sax.SAXException;
import org.xml.sax.SAXParseException; 

...

try {
    DocumentBuilderFactory docBuilderFactory = DocumentBuilderFactory.newInstance();
    DocumentBuilder docBuilder = docBuilderFactory.newDocumentBuilder();
    Document doc = docBuilder.parse (InputStreamYouBuiltEarlierFromAnHTTPRequest);
}
catch (ParserConfigurationException e)
{
    ...
}
catch (SAXException e)
{
    ...
}
catch (IOException e)
{
    ...
}

...

Ms2ger 15 年前

我建议 http://about.validator.nu/htmlparser/ 实现了HTML5解析算法。火狐正在用这个来替换它自己的HTML解析器。

DisgruntledGoat 15 年前

我只是在玩 JSoup 这是一个很棒的Java HTML解析器,它有点像jQuery。非常容易使用。

推荐文章

user29759326 · 如何返回递归函数中的最后一个值?

10 月前

malife89 · 将java中的字符串读取为正确的日期格式

11 月前

Tim · 在java中,有没有更快的方法将字节数组写入文件?

11 月前

pebble unit · 如何检查以前缀开头、以后缀结尾的属性(不是属性值)

11 月前

Nuñito Calzada · Spring Boot with JWT:访问此资源需要完全身份验证

11 月前

rudraraj · java中未声明最终变量

11 月前

Bala Ji · 以下BFS的实施效率如何?

11 月前

MineRickStar · 如何在Java中从Windows获取当前选定的应用程序

11 月前

user2649681 · 实时生成音频以写入“SourceDataLine”`

11 月前

davidalayachew · 为什么我的文件有竞争条件,即使我使用了StandardOpenOption。同步?

11 月前