![]() |
1
9
请尝尝我的叉子 https://github.com/buriy/python-readability 它速度很快,具有最新JavaScript版本的所有功能。 |
![]() |
2
4
我们刚刚在repustate.com上启动了一个新的自然语言处理API。使用RESTAPI,您可以清除任何HTML或PDF,只返回文本部分。我们的API是免费的,所以请随意使用您的心的内容。它是用python实现的。检查一下,并将结果与readability.js进行比较——我想你会发现它们几乎100%相同。 |
![]() |
3
3
hn.py 通过 Readability's blog . Readable Feeds 一个应用引擎应用程序,利用它。 我已将其作为PIP可安装模块捆绑在这里: http://github.com/srid/readability |
![]() |
4
1
我过去对此做过一些研究,最终实现了 this approach [pdf] 在蟒蛇中。在应用算法之前,我实现的最终版本也做了一些清理,比如删除head/script/iframe元素、隐藏元素等,但这是它的核心。 这里有一个带有“链接列表”鉴别器的(非常)简单实现的函数,它试图删除链接与文本比率很高的元素(即导航栏、菜单、广告等):
在测试语料库中,我使用它实际上工作得很好,但是实现高可靠性需要很多调整。 |
![]() |
5
0
为什么不尝试使用GoogleV8/node.js而不是Rhino?速度应该可以接受。 |
![]() |
6
-3
我想 BeautifulSoup 是Python最好的HTML解析器。但是您仍然需要弄清楚站点的“主要”部分是什么。 如果您只分析一个域,那么它是相当直接的,但是要找到一个适用于 任何 网站不是那么容易。 也许您可以将readability.js方法移植到python上? |
![]() |
July · 如何定义数字间隔,然后四舍五入 1 年前 |
![]() |
user026 · 如何根据特定窗口的平均值(行数)创建新列? 1 年前 |
|
Ashok Shrestha · 需要追踪特定的颜色线并获取坐标 1 年前 |
![]() |
Nicote Ool · 在FastApi和Vue3中获得422 1 年前 |
|
Abdulaziz · 如何对集合内的列表进行排序[重复] 1 年前 |
![]() |
asmgx · 为什么合并数据帧不能按照python中的预期方式工作 1 年前 |