Tag: 屏幕刮刮

使用Nokogiri在BR标签上拆分内容

我有一段代码我试图用nokogiri解析,看起来像这样: Link 1 (info1), Blah 1, Link 2 (info1), Blah 1, Link 3 (info2), Blah 1 Foo 2, 我可以使用以下内容访问td.j的源: data_items = doc.css(“td.j”) 我的目标是将每个行分成一个哈希数组。 我能看到的唯一逻辑分裂点是拆分BR,然后在字符串上使用一些正则表达式。 我想知道是否有更好的方法来做这个可能只使用nokogiri? 即使我可以使用nokogiri来吸取3行项目,它也会让我更容易,因为我可以在.content结果上进行一些正则表达式解析。 不知道如何使用Nokogiri抓住以br结尾的行 – 我应该使用xpath吗? 任何方向表示赞赏! 谢谢