Tag: web scraping

刮取外部网站但返回“您必须使用支持JavaScript的浏览器与此站点。”错误: 我在Ruby on Rails中使用rake任务。我有一个网站，我需要登录才能抓住网站。我填写了表格。 form[:login] = user_name form[:pw] = password form.submit 这会返回错误 #<Mechanize::Page {url #} {meta_refresh} {title “You must use a JavaScript capable browser with this site.”} {iframes} {frames} {links} {forms}> 这很奇怪，因为a）我可以为刮板打开JSfunction吗）这是否是网站本身的问题？ [编辑]更多信息。当我看到表格时，它看起来像这样。需要注意的一点是{action“/system/JSAuth/NoScript.html”}。我相信这就是我无法提交行动的原因。有没有办法解决这个问题？ #

Web抓取JAVASCRIPT内容的语言: 我认为主题提出问题，我通常使用PHP进行解析/网页抓取，但我真的很难抓刮javascript大多数情况下我无法做到这一点例如：解析执行javascript时出现的div。关于RUBY，我有一个javascript的解析器库，所以问题是w是程序的语言网络抓取，将有效废弃javascript生成的内容？它在这里是一个PHP的库，就像一个用于解析javascript内容的ruby的库？

在两个单独的页面上刮取需要登录用户名和密码的站点: 我正试图从我公司的Intranet中获取信息，这样我就可以通过仪表板在我们的办公室墙板上显示信息。我正在尝试使用以下提供的信息：本网站。除了作为菜鸟之外，我遇到的问题是，为了获取我想要抓取的信息，我需要登录我们的Intranet提供我的用户名在一个页面上，然后提交给另一个，以便我可以提供我的密码。一旦我登录，我就可以链接并抓取我的数据。以下是我的登录用户名页面中的一些源代码： Username: 2) { submit(); } else { alert(‘Enter your Username.’); }”> 以下是我的登录密码页面的一些来源： Password: 2) { submit(); } else { alert(‘Enter your Password.’); }”> 使用所述资源的示例这是我认为应该工作但似乎不是： require ‘mechanize’ @agent = Mechanize.new @agent.verify_mode = OpenSSL::SSL::VERIFY_NONE ##Login Page: page = @agent.get ‘http://www.website_here.com/intranet/login.asp’ ##Username Page: form = page.forms[0] form[‘USER NAME HERE’] = LoginUser ##Submit […]

使用Mechanize获取JavaScript变量: 我想从head > script > var token https://admin.booking.com/hotel/hoteladmin获取一个JavaScript变量。我不知道浏览器如何设置此变量，因为当我从Mechanize获取此页面时，我得到： var token = ” || ’empty-token’, 这是我用来获取此页面的代码： login_url = “https://admin.booking.com/hotel/hoteladmin” agent = Mechanize.new agent.verify_mode= OpenSSL::SSL::VERIFY_NONE page = agent.get(login_url)