Web抓取JAVASCRIPT内容的语言
我认为主题提出问题,我通常使用PHP进行解析/网页抓取,但我真的很难抓刮javascript大多数情况下我无法做到这一点
例如:解析执行javascript时出现的div。
关于RUBY,我有一个javascript的解析器库,所以问题是w是程序的语言网络抓取,将有效废弃javascript生成的内容? 它在这里是一个PHP的库,就像一个用于解析javascript内容的ruby的库?
对此有一些策略。 根据您的需要,考虑以编程方式实例化您可以挂钩的浏览器实例并从中读取页面。
我们的想法是,让浏览器完成工作,因为页面是为浏览器而不是机器人制作的。 然后,您可以使用浏览器插件点击并删除,该插件将数据提供给运行的主应用程序。
尽管如此,这可能会过度杀戮。 我会由你决定。
你应该看一些无GUI /无头浏览器。 有一些是为Java编写的。 我没有找到一个PHP。
看着 :
- 的HtmlUnit
- 高尔夫球
您可以尝试使用Selenium之类的东西,它允许您自动执行浏览器任务。
另一方面,您可以详细了解执行js代码时会发生什么。 例如,如果js代码通过POST一些数据从服务器请求某些内容,您可以以常规方式模拟它。
你应该看看PhantomJS和CasperJS(无头浏览器)。
在ruby世界中,运行Phantomjs的gem将是恶作剧者
还有一篇关于你在ruby中有一些选项的文章(但是它们并不是所有的js都有)