代码之家  ›  专栏  ›  技术社区  ›  astropanic

XML、HTML和XHTML文档的有效内容类型

  •  98
  • astropanic  · 技术社区  · 14 年前

    XML、HTML和XHTML文档的正确内容类型是什么?

    我需要写一个简单的爬虫程序,只获取这些类型的文件。

    如今 http://example.net/index.html 可以作为一个jpeg文件的例子,因为mod重写,所以我需要检查响应头中的内容类型,并将其与允许的内容类型列表进行比较。

    我从哪里能得到这样的清单?

    1 回复  |  直到 7 年前
        1
  •  166
  •   bobince    14 年前

    HTML: text/html 完全停下来。

    XHTML: application/xhtml+xml ,或者仅当遵循HTML兼容性准则时, 文本/ HTML . 看W3 Media Types Note .

    XML: text/xml , application/xml ( RFC 2376 )

    例如,还有许多其他基于XML的媒体类型 application/rss+xml image/svg+xml . 可以肯定的是,任何未被识别但已注册的 +xml 是基于XML的。见 IANA list 对于以结尾的已注册媒体类型 +XML .

    (对于未注册的 x- 类型,所有赌注都取消了,但你希望 +XML 会受到尊重的。)