代码之家  ›  专栏  ›  技术社区  ›  telliott99

用python或

  •  3
  • telliott99  · 技术社区  · 15 年前

    我对我的(微生物学和遗传学)学生提出的一个论点是,“数据”是混乱的,而Python可以帮助解决这个问题(当然其他语言也可以)。因此,这里是一种实用的基于Web的数据收集练习。

    我注意到,在自然出现的问题中,有一些人在代表性最高的用户中回答与Python相关的问题:

    我希望恢复(最高评级)pythonistas在堆栈溢出时的当前rep和rep增加率,以便预测是或何时 Alex Martelli 将超过 Steven Lott Greg Hewgill ?怎么样 Konrad Rudolph ?是不是因为这些人的增长都是有限的?

    更一般地说,在没有用于查询的API(我认为没有)的情况下,除了查看页面的URL以查找模式、使用python加载这些页面然后抓取HTML之外,还有其他选择吗?我知道可能没有一般的方法,但我对人们如何处理这个问题感兴趣。

    编辑:@fitzgeraldsteele:一般。所以这真的只是一个(人为的)例子。

    1 回复  |  直到 15 年前
        1
  •  3
  •   Alex Martelli    15 年前

    在Creative Commons许可证下,每月有一个非常有用的堆栈溢出“数据转储”,请参见 here (关于这个的许多链接中的第一个“在我的拇指下”——至少每月一个)。对于像我的平均每周代表相对其他一些海报的分析,这样的每月数据娃娃比屏幕刮擦更有用。

    如果你确实想屏蔽一些(其他;-)站点,而这并不违反他们的策略或他们的 robots.txt 文件,python是几个很好的选择之一--从 scrapy 例如,你不会有那么多额外的工作要做。