Tag: beautifulsoup

使用ruby将HTML转换为纯文本并维护结构/格式

我想将html转换为纯文本。 我不想只删除标签,我想尽可能智能地保留尽可能多的格式。 为标签插入换行符,检测段落并将其格式化,等等。 输入非常简单,通常是格式良好的html(不是整个文档,只是一堆内容,通常没有锚点或图像)。 我可以把几个正则表达式放在一起,让我80%,但想到可能有一些现有的解决方案具有更多的智能。