代码之家 › 专栏 › 技术社区 › telliott99

用python或

screen-scraping python

telliott99 · 技术社区 · 15 年前

我对我的(微生物学和遗传学)学生提出的一个论点是,“数据”是混乱的,而Python可以帮助解决这个问题(当然其他语言也可以)。因此,这里是一种实用的基于Web的数据收集练习。

我注意到,在自然出现的问题中,有一些人在代表性最高的用户中回答与Python相关的问题:

我希望恢复(最高评级)pythonistas在堆栈溢出时的当前rep和rep增加率,以便预测是或何时 Alex Martelli 将超过 Steven Lott 或 Greg Hewgill ?怎么样 Konrad Rudolph ?是不是因为这些人的增长都是有限的?

更一般地说,在没有用于查询的API(我认为没有)的情况下,除了查看页面的URL以查找模式、使用python加载这些页面然后抓取HTML之外,还有其他选择吗?我知道可能没有一般的方法,但我对人们如何处理这个问题感兴趣。

编辑:@fitzgeraldsteele:一般。所以这真的只是一个(人为的)例子。

1 回复 | 直到 15 年前

Alex Martelli 15 年前

在Creative Commons许可证下,每月有一个非常有用的堆栈溢出“数据转储”,请参见 here (关于这个的许多链接中的第一个“在我的拇指下”——至少每月一个)。对于像我的平均每周代表相对其他一些海报的分析,这样的每月数据娃娃比屏幕刮擦更有用。

如果你确实想屏蔽一些(其他;-)站点,而这并不违反他们的策略或他们的 robots.txt 文件,python是几个很好的选择之一--从 scrapy 例如,你不会有那么多额外的工作要做。

推荐文章

July · 如何定义数字间隔,然后四舍五入

1 年前

Community wiki · 对象名称前的单下划线和双下划线的含义是什么?

1 年前

Brian Johnson · 为什么在Python中列出字典列表会引发TypeError?[已关闭]

1 年前

user026 · 如何根据特定窗口的平均值(行数)创建新列?

1 年前

Ashok Shrestha · 需要追踪特定的颜色线并获取坐标

1 年前

Nicote Ool · 在FastApi和Vue3中获得422

1 年前

NeoExceptCodeBad · 如果我有很多垂直线,我如何找到它们的边缘?

1 年前

Abdulaziz · 如何对集合内的列表进行排序[重复]

1 年前

user2743931 · 带有src目录的Python setup.py

1 年前

asmgx · 为什么合并数据帧不能按照python中的预期方式工作

1 年前