Tag: 网页爬虫

跳过带有扩展名pdf的网页,在Anemone中抓取拉链

我正在使用海葵gem(Ruby-1.8.7和Rails 3.1.1)开发爬虫。 如何从抓取/下载中跳过带有扩展名pdf,doc,zip等的网页。