代码之家  ›  专栏  ›  技术社区  ›  aircraft

在获取RSS数据时,如何确保RSS数据不重复

  •  2
  • aircraft  · 技术社区  · 6 年前

    正如我们所知,如果网站管理器更新RSS数据,RSS数据将更新,或者第三方lib将更新RSS提要数据。

    现在,如果我正在编写RSS阅读器,每次我从网站的RSS源获取数据时。

    如何确保数据是否已提取?

    wikipedia RSS :

    只有 title , link , description 字段是必填的。这个 pubDate 不需要。因此,我无法确保数据是否由我们通过 发布日期 或其他字段(如 lastBuildDate 字段)。

    那么,哪位朋友可以告诉我如何验证feed数据是否由我们获取?

    2 回复  |  直到 6 年前
        1
  •  0
  •   rcade    6 年前

    阅读RSS提要时 guid 每个项的元素用于检查该项之前是否已读取。

    A. guid 可以是项目HTML版本的永久链接,如下所示:

    <guid>http://dallas.example.com/1983/05/06/joebob.htm</guid>
    

    A. guid 也可以是为项目提供唯一值的任何其他文本,例如使用 TAG URI 规范,如本例所示:

    <guid isPermaLink="false">tag:dallas.example.com,4131:news</guid>
    

    虽然名称 guid 表示全局唯一ID,RSS中不要求 guid 全球唯一的价值。您最多可以希望它对该提要发布者来说是唯一的。

    这个 guid 元素是可选的。

        2
  •  0
  •   aircraft    6 年前

    最后我发现链接可以确保一个项目是否被提取。

    我可以将提取的数据保存在我的数据库中,用户每次提取数据时,都可以通过 link 所有物