![]() |
1
1
我记得以前做过一个简单的HTML解析插件。我不知道我是怎么做到的,但这里是基本点。我们想做的是:
我所做的只是找到HTML解析插件类(我很难找到实际的类名),并扩展它。然后重写解析函数。新函数应该调用
关于你的第二个问题,我不清楚你在问什么。我想你是在问当dom格式不好时会发生什么?我只需要深入研究nutch代码(http://grepcode.com/snapshot/repo1.maven.org/maven2/org.apache.nutch/nutch/1.3/)并找出解析是如何完成的(我确信他们使用库来完成)。这应该能告诉你更多关于事物是贪婪的,还是什么。 有问题就喊。 |
|
niyati · ./bin/hbase shell命令无效 9 年前 |