是否有适用于PHP或Ruby的Web爬虫库?

是否有适用于PHP或Ruby的Web爬虫库? 一个可以首先深度或宽度优先的库…并且即使在使用href =“../ relative_path.html”和基本URL时也处理链接。

查看此页面以获取Ruby库: Ruby Mechanize

我想提一下,您仍然要负责您的抓取工具遍历网站的方式。

你可以去ruby中使用webrat或watir,比机械化更容易

如果您想学习基本的网络爬虫和搜索内容,您可以开始查看“luna引擎”。

如果你需要抓取使用javascript的网页,你可以使用Capybara驱动程序,这将驱动一个真正的浏览器,如poltergeist 。 它通常与测试框架一起用于验收测试,但也可以在测试框架之外使用。