代码之家 › 专栏 › 技术社区 › aintnoprophet

在HTML表中读取到Java

html java

aintnoprophet · 技术社区 · 15 年前

我需要使用Java代码从HTML页面中提取数据。Java部分是必需的。

我要从中提取信息的页面是 http://www.weather.gov/data/obhistory/KMCI.html .

我需要创建一个hashmaps…的列表,或者一些我可以在后面的代码中引用的数据对象。

到目前为止,我只有这些:

URL weatherDataKC = new URL("http://www.weather.gov/data/obhistory/KMCI.html");
InputStream is = weatherDataKC.openStream();
int cnt = 0;
StringBuffer buffer = new StringBuffer();

while ((cnt = is.read()) != -1){
    buffer.append((char) cnt);
}

System.out.print(buffer.toString());

有什么建议从哪里开始?

4 回复 | 直到 15 年前

Marian 15 年前

J2SE在包中包含HTML解析功能 javax.swing.text.html 和 javax.swing.text.html.parser . HTMLEditorKit.ParserCallback 接收推送的事件 DocumentParser (最好通过 ParserDelegator )这个框架非常类似于XML的SAX解析器。

当心,有一些虫子。它不能很好地处理糟糕的HTML。

处理科尔斯潘和罗斯潘是你的事。

dfa 15 年前

有一个很好的HTML解析器叫做neko:

Nekohtml是一个简单的HTML扫描器和标签均衡器,它允许应用程序程序员使用标准的XML接口解析HTML文档和访问信息。解析器可以扫描HTML文件并“修复”人类(和计算机)作者在编写HTML文档时所犯的许多常见错误。nekohtml添加缺少的父元素;自动关闭带有可选结束标记的元素;并且可以处理不匹配的内联元素标记。

More information here .

Damo 15 年前

使用类似HTML语法分析器 CyberNeko

DisgruntledGoat 15 年前

HTML抓取是出了名的困难,除非你有很多类似于独特ID的“钩子”。例如,所需的表以该HTML开头:

<table cellspacing="3" cellpadding="2" border="0" width="670">

…非常通用,可能与页面上的几个表匹配。另一个问题是,如果HTML结构发生变化会发生什么?你必须重新定义你所有的解析规则…

推荐文章

junsung kang · Cassandra突然挂起,返回WindowsFileSystemException:“该进程不可访问,因为该文件正被另一个进程使用”

1 年前

vaibhav nalamalpu · Intellij 2023.1无法打开(即使在重新安装后)[关闭]

1 年前

Katlock · 如何在Spring中将Restpage转换为特定的对象类型?

1 年前

Edward Khazzoum · 为什么在H2数据库中创建表时出现错误4201-214?

1 年前

Yellow Blood · If语句在应为[重复]时未返回True

1 年前

user21749640 · List.contents(A)返回false,但List.contens(B)和B.equals(A)是否返回true?

1 年前

MysticSticker · 如何在savedPreferences中保存按钮[]文本

1 年前

Pektra Mom · 如何将数组中的所有字符串替换为特定的特殊字符

1 年前

Nitin Kshirsagar · 在谷歌云上将java8迁移到java11/17是强制性的吗

1 年前

changhoon seong · 为什么这个代码没有按照我想的方式输出?(关于班次)

1 年前