Tag: web scraping

刮取外部网站但返回“您必须使用支持JavaScript的浏览器与此站点。”错误

我在Ruby on Rails中使用rake任务。 我有一个网站,我需要登录才能抓住网站。 我填写了表格。 form[:login] = user_name form[:pw] = password form.submit 这会返回错误 #<Mechanize::Page {url #} {meta_refresh} {title “You must use a JavaScript capable browser with this site.”} {iframes} {frames} {links} {forms}> 这很奇怪,因为a)我可以为刮板打开JSfunction吗)这是否是网站本身的问题? [编辑]更多信息。 当我看到表格时,它看起来像这样。 需要注意的一点是{action“/system/JSAuth/NoScript.html”}。 我相信这就是我无法提交行动的原因。 有没有办法解决这个问题? #

Web抓取JAVASCRIPT内容的语言

我认为主题提出问题,我通常使用PHP进行解析/网页抓取,但我真的很难抓刮javascript大多数情况下我无法做到这一点 例如:解析执行javascript时出现的div。 关于RUBY,我有一个javascript的解析器库,所以问题是w是程序的语言网络抓取,将有效废弃javascript生成的内容? 它在这里是一个PHP的库,就像一个用于解析javascript内容的ruby的库?

在两个单独的页面上刮取需要登录用户名和密码的站点

我正试图从我公司的Intranet中获取信息,这样我就可以通过仪表板在我们的办公室墙板上显示信息。 我正在尝试使用以下提供的信息: 本网站 。除了作为菜鸟之外,我遇到的问题是,为了获取我想要抓取的信息,我需要登录我们的Intranet提供我的用户名在一个页面上,然后提交给另一个,以便我可以提供我的密码。 一旦我登录,我就可以链接并抓取我的数据。 以下是我的登录用户名页面中的一些源代码:  Username: 2) { submit(); } else { alert(‘Enter your Username.’); }”> 以下是我的登录密码页面的一些来源:  Password: 2) { submit(); } else { alert(‘Enter your Password.’); }”> 使用所述资源的示例这是我认为应该工作但似乎不是: require ‘mechanize’ @agent = Mechanize.new @agent.verify_mode = OpenSSL::SSL::VERIFY_NONE ##Login Page: page = @agent.get ‘http://www.website_here.com/intranet/login.asp’ ##Username Page: form = page.forms[0] form[‘USER NAME HERE’] = LoginUser ##Submit […]

使用Mechanize获取JavaScript变量

我想从head > script > var token https://admin.booking.com/hotel/hoteladmin获取一个JavaScript变量。 我不知道浏览器如何设置此变量,因为当我从Mechanize获取此页面时,我得到: var token = ” || ’empty-token’, 这是我用来获取此页面的代码: login_url = “https://admin.booking.com/hotel/hoteladmin” agent = Mechanize.new agent.verify_mode= OpenSSL::SSL::VERIFY_NONE page = agent.get(login_url)