1
20
确保使用
|
2
10
我用pyparsing处理了许多HTML页面抓取项目。这是介于BeautifulSoup和完整的HTML解析器之间的中间地带,也是正则表达式的低级方法(这是疯狂的做法)。 一切 在页面上,因为您感兴趣的区域之外的一些有问题的HTML可能会抛出一个全面的HTML解析器。
这会把
Pyparsing并不是解决这个问题的万无一失的解决方案,但是通过向您公开解析过程,您可以更好地控制您特别感兴趣的HTML的哪些部分,对它们进行处理,并跳过其余部分。 |
3
5
|
4
4
如果你是刮内容,一个很好的方法来绕过恼人的细节是 sitescraper 包裹。它使用机器学习来确定要为您检索哪些内容。 从主页:
|
5
1
甚至在几年前,我试图为一个原始的蜘蛛型应用解析HTML,发现问题太难了。我怀疑写你自己的可能是纸上谈兵,虽然我们不可能是唯一有这个问题的人! |
batman · 如何用特定模式grep特定行及其子网行? 2 年前 |
Jensen Holm · 在非常大的字符串中查找链接时遇到问题 2 年前 |
MBF · PHP导入/解析XML文件内容保存到数据库 2 年前 |
user10717742 · 用java编写的自定义文件解析器需要改进 2 年前 |
Muhsin Muhammed · 向文件中的行添加引号和逗号 2 年前 |
Felkru · 添加字符串会在Javascript中返回空字符串 2 年前 |
Mustard Tiger · 熊猫解析文本列 2 年前 |