![]() |
1
2
如果你对摘要只是纯文本的理解是正确的,那么亚当的答案肯定是最好的——先转换为纯文本,然后截断。 如果您想保持格式,那么还有一个想法:
如果你用任意的HTML来做这件事,那么你会有很多奇怪的事情需要担心,但是既然你是从降价开始的,它实际上应该可以很好地工作。任何合适的降价转换器都应该生成格式良好的HTML,其中包含相当少的标记。 |
![]() |
2
2
实际上,最简单和最安全的方法是从标记源代码生成HTML,并将其转换为纯文本(请参见 html2plaintext ,然后将其缩小到300个字符。 一个更有效的方法可能是修改markdown解析器,只输出所有文本节点的前300个字符,但我真的认为这些修改不能证明性能的好处。 |
![]() |
3
1
不知道它是否适用于python,但是 this tutorial 可能对你有帮助。基本上,它会在文本被剪裁后扫描未关闭的标签,并自动关闭它。 |
|
4
1
使用事件分析器,忽略非文本事件,捕获文本事件,直到达到300个字符,然后停止分析。 libxml支持基于事件的HTML解析。我肯定有一个是降价的,但还没看。 不过,您应该衡量一下,以确保性能优势值得增加复杂性。 |
![]() |
Minyi Han · 为什么索引中必须包含一些R代码。预订的Rmd? 6 年前 |
![]() |
marnix · 从命令行搜索Jupyter笔记本标记单元格 6 年前 |
![]() |
Yangshun Tay · 如何在不换行的表中使用标记?[副本] 6 年前 |