代码之家  ›  专栏  ›  技术社区  ›  Priyank Bolia

如何从维基百科页面中删除所有标签或使页面更具可读性

  •  0
  • Priyank Bolia  · 技术社区  · 15 年前

    我想去掉所有标签,从维基百科中删除[show][Hide]内容,或者有一些网站可以使页面更具可读性。

    我知道维基百科的可打印版本,但我不需要任何标签,因为我还有其他用途。因此,请只回答原始问题,关于任何网站或Web服务或php/C中的代码片段,以从网页中删除标记。

    同样,当我从firefox复制一些列表时,它会替换 <li> 使用*,是否可以在firefox中设置一些东西来返回其他一些不可读的字符,比如

  • 4 回复  |  直到 15 年前
        1
  •  0
  •   Vinz    15 年前

    BeautifulSoup Simple HTML DOM 例如或者您可以尝试使用XML解析器。

        2
  •  2
  •   Konamiman    15 年前

    你可以先看看 strip_tags

        3
  •  0
  •   Cups    15 年前

    我想去掉所有标签,移除 [显示][隐藏]维基百科中的内容,或 有没有制作网页的网站 以更可读的格式。

    你应该看看DBpedia,Wikipedia,但只是数据。

    http://dbpedia.org/About

        4
  •  -1
  •   Community CDub    7 年前

    htmlagilitypack呢

    htmlagilitypackt

    Is there a Wikipedia API?

    试试这个功能。

    Dim pattern As String = "<(.|\n)*?>"
    Return System.Text.RegularExpressions.Regex.Replace(strHtmlString, pattern, String.Empty).Trim()