1
1
如何解析维基百科我最初的方法是从HTML页面获取文本,然后使用正则表达式查找我需要的信息。 This answer
首先使用Nokogiri获取HTML页面(在您的示例中是从URL获取),然后使用
如何找到正确的信息您可能会遇到的问题是,只有当总收入始终采用相同的格式时,上述正则表达式才有效,即。 毛额600788188美元 . 正则表达式无法智能地分析页面,并计算出国内总收入是多少。 我猜这也是你的问题被否决的原因。虽然从技术上讲,从单个页面中提取信息并不困难,但编写一种算法,智能地解析不同的网站,从中提取相同的信息,却极其困难。 您最好看看IMDB,例如,哪个列表 售票处 几乎所有电影的收入都以可重复的模式出现。查看泰坦尼克号的条目: http://www.imdb.com/title/tt0120338 如果您使用API,它会变得更容易。JSON比HTML更易于编程处理,如果您在谷歌上搜索IMDB和API,您应该会找到一些资源来解释如何做到这一点。 |
Dave · 如何在Nokogiri文档中检索唯一的父节点集? 7 年前 |
Fabián · 通过h3含量nokogiri之间的<p>提取 7 年前 |
ForceMagic · Nokogiri正在返回根元素。为什么? 7 年前 |
Matrix · 使用mechanize获取以下特定标签?(红宝石) 7 年前 |
jbmyid · 创建中文xml ruby nokogiri 7 年前 |
sam.roberts55 · 使用带有rails-url链接的代理 8 年前 |