![]() |
1
2
我没有这样做,但这将是我的一般做法。
正如您所指出的,可见内容部分中缺少结构(即,它没有诸如
然后,第二个过程可以开始排除常见的情况
这将有望从页面中删除大量装饰。下一个挑战是尝试从剩下的内容中识别主要内容,我建议首先假设站点作者正确使用语义HTML,因此主要使用
由于页面上可能仍有几组您收集的内容(可能是主要内容加上关于作者的简介),因此您需要在此处测试和完善决策步骤,以选择最有可能的候选人。无论从长度还是所使用的段落元素的数量来看,这通常都是最大的。
当您收集更多的内容示例时,您可以向算法添加支持措施;这可能是因为您注意到许多页面使用
|
![]() |
2
0
一个结构良好的站点的公共区域将重用相同的代码,例如导航、标题等。 当您有一个要分析的目标页面时,请尝试浏览同一域/子域下的其他几个页面,并查找所有页面共有的元素。这些是你想要消除的噪音。 然后你可以看看剩下的东西,看看是否有噪音。当你收集了相当数量的数据后,试着从中找出一些模式。完善你的逻辑并重复。 |
![]() |
Cassie · 从RSS提要Scala中提取的记录太多 7 年前 |
![]() |
aircraft · 在获取RSS数据时,如何确保RSS数据不重复 7 年前 |
![]() |
cDecker32 · 需要扩展ROME的默认RSS提要模式/生成器 7 年前 |
![]() |
Sarah · 在其他选项卡中打开rss源链接 7 年前 |