代码之家  ›  专栏  ›  技术社区  ›  stellard

从ruby字符串中删除垃圾字符

  •  1
  • stellard  · 技术社区  · 15 年前

    我正试图清理一根绳子,这是我从一个使用机械化的网站上得到的。

    这是包含垃圾字符的字符串中的一个例外

    "Mountain</b></a><br>ΓÇÄ1hr&nbsp;39minΓÇÄΓÇÄ - Rated&nbsp;PGΓÇÄΓÇÄ - Action/Adventure/Science&nbsp;fictionΓÇÄΓÇÄ - EnglishΓÇÄ - <a href="
    

    是否有人知道这些字符的来源以及如何用空格替换它们?Ruby如何处理字符编码?

    1 回复  |  直到 15 年前
        1
  •  3
  •   Greg Hewgill    15 年前

    这些字符看起来像是UTF-8编码问题的结果。我建议你读乔尔的优秀文章 The Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets (No Excuses!) 这将解释UTF-8编码以及如何在代码中处理它。