Web抓取JAVASCRIPT内容的语言

我认为主题提出问题,我通常使用PHP进行解析/网页抓取,但我真的很难抓刮javascript大多数情况下我无法做到这一点

例如:解析执行javascript时出现的div。

关于RUBY,我有一个javascript的解析器库,所以问题是w是程序的语言网络抓取,将有效废弃javascript生成的内容? 它在这里是一个PHP的库,就像一个用于解析javascript内容的ruby的库?

对此有一些策略。 根据您的需要,考虑以编程方式实例化您可以挂钩的浏览器实例并从中读取页面。

我们的想法是,让浏览器完成工作,因为页面是为浏览器而不是机器人制作的。 然后,您可以使用浏览器插件点击并删除,该插件将数据提供给运行的主应用程序。

尽管如此,这可能会过度杀戮。 我会由你决定。

你应该看一些无GUI /无头浏览器。 有一些是为Java编写的。 我没有找到一个PHP。

看着 :

  • 的HtmlUnit
  • 高尔夫球

您可以尝试使用Selenium之类的东西,它允许您自动执行浏览器任务。

另一方面,您可以详细了解执行js代码时会发生什么。 例如,如果js代码通过POST一些数据从服务器请求某些内容,您可以以常规方式模拟它。

你应该看看PhantomJS和CasperJS(无头浏览器)。

在ruby世界中,运行Phantomjs的gem将是恶作剧者

还有一篇关于你在ruby中有一些选项的文章(但是它们并不是所有的js都有)