Описание тега anemone

Описание тега Вопросы с тегом

Anemone - это библиотека Ruby, которая позволяет быстро и безболезненно писать программы, которые паукуют на сайте. Он предоставляет простой DSL для выполнения действий на каждой странице сайта, пропуска определенных URL-адресов и расчета кратчайшего пути к определенной странице сайта. Многопоточный дизайн делает Anemone быстрым. API делает это простым. А выразительность Ruby делает его мощным.

1 ответ

Как соскоблить продукты с сайта рубином / анемоном / нокогири

Можно ли соскрести продукты с сайта электронной коммерции, используя анемоновые и нокогири либс в рубине? Я понимаю, как извлечь данные, которые мне нужны, с каждой страницы продукта, используя nokogiri, но я не могу понять, как заставить анемон /no…

20 май '12 в 07:02

2 ответа

Ruby, Mongodb, Anemone: веб-сканер с возможной утечкой памяти?

Недавно я начал изучать веб-сканеры и создал хранилище образцов для Ruby, Anemone и Mongodb. Я тестирую сканер на огромном общедоступном веб-сайте с миллиардами ссылок. Файл crawler.rb индексирует правильную информацию, хотя, когда я проверяю исполь…

ruby mongodb memory-leaks web-crawler anemone

22 фев '12 в 12:46

1 ответ

Получение всех доменов на странице зависит от использования Nokogiri

Я пытаюсь получить все домены / IP-адреса, от которых зависит конкретная страница, с помощью Nokogiri. Он не может быть идеальным из-за динамической загрузки зависимостей Javascript, но я рад, что приложил максимум усилий для получения: URL изображе…

ruby nokogiri anemone

29 июл '11 в 13:43

1 ответ

Может ли Anemone сканировать HTML-файлы, хранящиеся локально на моем жестком диске?

Я надеюсь собрать воедино несколько десятков тысяч страниц правительственных данных (в нескольких тысячах папок), которые находятся в сети, и поместить все это в один файл. Чтобы ускорить процесс, я решил сначала загрузить сайт на свой жесткий диск,…

ruby-on-rails ruby web-crawler scrape anemone

31 май '12 в 16:48

3 ответа

Рубиновый скребок. Как экспортировать в CSV?

Я написал этот рубиновый скрипт, чтобы собрать информацию о продукте с сайта производителя. Очистка и хранение объектов продукта в массиве работает, но я не могу понять, как экспортировать данные массива в файл CSV. Выдается эта ошибка: scraper.rb:4…

ruby scraper fastercsv anemone

21 май '12 в 02:59

2 ответа

Получение всех URL-адресов с использованием гема анемона (очень большой сайт)

Сайт, который я хочу проиндексировать, довольно большой, 1.x миллионов страниц. Мне просто нужен json-файл со всеми URL-адресами, чтобы я мог выполнять над ними некоторые операции (сортировка, группировка и т. Д.). Базовая петля анемона работала хор…

ruby anemone

21 авг '13 в 20:35

1 ответ

Базовая аутентификация HTTP с помощью Anemone Web Spider

Мне нужно собрать все "заголовки" со всех страниц сайта.Сайт имеет конфигурацию HTTP Basic Auth.Без аутентификации я делаю следующее: require 'anemone' Anemone.crawl("http://example.com/") do |anemone| anemone.on_every_page do |page| puts page.doc.a…

ruby web-crawler anemone

30 май '13 в 21:22

2 ответа

Страница сканирования, требующая входа с помощью Anemone

Я использую камень Анемон следующим образом: Посетите первый URL (начальное число), сохраните содержимое страницы в базе данных и сохраните все ссылки с этой страницы в базу данных (все ссылки, которых еще нет в базе данных) Загрузить следующую ссыл…

ruby-on-rails ruby web-crawler mechanize-ruby anemone

16 апр '16 в 07:26

0 ответов

Ruby open_uri всегда 404. (разрешить https перенаправляет git-версию)

Я использую модуль open-uri, который позволяет перенаправления https. Я пытаюсь открыть каждую страницу из домена. Я делаю это, сначала сканируя его через анемон: require 'anemone' require "./open_uri" class Query def initialize() fs = File.read("fi…

ruby http open-uri anemone

26 мар '14 в 12:02

1 ответ

Heroku H12 Запрос тайм-аута при запуске Ruby Anemone

У меня есть приложение Ruby, размещенное на Heroku, которое запускает Anemone (веб-паук / сканер Ruby) на указанных пользователем доменах. Когда пользователь выбирает домен среднего и большого размера, он падает, и в журналах отображается ошибка H12…

ruby heroku request-timed-out anemone

01 авг '13 в 20:42

1 ответ

Анемон с Rails и MongoDB

Я готовлюсь написать свой первый веб-сканер, и похоже, что Anemone имеет больше смысла. Существует встроенная поддержка хранилища MongoDB, и я уже использую MongoDB через Mongoid в своем приложении Rails. Моя цель - сохранить просканированные резуль…

mongodb web-crawler ruby-on-rails-3.1 mongoid anemone

24 фев '12 в 06:10

0 ответов

Оператор break в цикле не работает

Я новичок в жемчужине анемона. Я написал следующий код: anemone.on_every_page do |page| if page.url.to_s.match(/\-ad$/) unless page.url.to_s.match("restaurant|hotel") p "not useful url: #{page.url}" count += 1 if count == 5 break end next else count…

ruby anemone

25 апр '14 в 11:33

2 ответа

Использование Ruby's Anemone Gem для очистки всех адресов электронной почты с сайта

Я пытаюсь очистить все адреса электронной почты на данном сайте, используя один файл Ruby-скрипт. В нижней части файла у меня есть жестко заданный контрольный пример с URL-адресом, на котором указан адрес электронной почты, указанный на этой конкрет…

ruby anemone

20 апр '17 в 00:29

1 ответ

Веб-сканер в рельсах, как сканировать все страницы сайта

Мне нужно получить все URL со всех страниц данного домена,Я думаю, что имеет смысл использовать фоновые задания, помещая их в несколько очередей пытаясь использовать паутину, но это кажется очень запутанным драгоценным камнем, и аномон, анемон работ…

ruby-on-rails web-crawler resque anemone

11 окт '13 в 05:32

1 ответ

Rails Anemone и Postgres хранят только URL

Я хочу сохранить URL on_pages_like определенный матч. Анемон делает свое дело, и создаются записи, которые хранят URL-адреса, но: Я хочу использовать что-то вроде find_or_create_by_url вместо create!так что я не дублирую записи каждый раз. Я хочу со…

ruby-on-rails ruby postgresql anemone

01 ноя '12 в 13:38

1 ответ

Как обрабатывать NIL с помощью скребка Anemone / Nokogiri?

def scrape!(url) Anemone.crawl(url) do |anemone| anemone.on_pages_like %[/events/detail/.*] do |page| show = { headliner: page.doc.at_css('h1.summary').text, openers: page.doc.at_css('.details h2').text } puts show end end end Написание скребка в An…

ruby nokogiri scraper anemone

13 авг '13 в 20:47

2 ответа

Anemone Ruby spider - создать массив значений ключей без доменного имени

Я использую анемон для паука домена, и он работает нормально. код для запуска сканирования выглядит следующим образом: require 'anemone' Anemone.crawl("http://www.example.com/") do |anemone| anemone.on_every_page do |page| puts page.url end end Это …

ruby anemone

23 окт '13 в 11:55

1 ответ

Запись вывода цикла в текстовый файл из гема искателя Ruby

Я полный нубист по Ruby, сейчас прохожу учебники по Treehouse, но мне нужна небольшая помощь для вывода содержимого обхода Anemone в текстовый файл для моей работы (я SEO). Как получить следующее, чтобы вывести его вывод в текстовый файл? require 'a…

ruby-on-rails ruby anemone

03 окт '13 в 09:57

1 ответ

Невозможно получить доступ к данным страницы, используя анемон с socksify gem и Tor

Я написал скрипт ruby с использованием гема анемона для сканирования сайта. Скрипт работает нормально при непосредственном использовании. Но я бы хотел использовать gem socksify, чтобы все TCP-вызовы из скрипта маршрутизировались с socks5. Я сдела…

ruby scrape tor anemone

08 сен '13 в 05:19

2 ответа

Сканирование поддоменов с помощью анемона

Я использую Анемон. Как сканировать субдомен тоже? например, если у меня есть веб-сайт www.abc.com мой сканер тоже должен ползать support.abc.com или же blah.abc.com, Я использую Ruby 1.8.7 и Rails 3.

ruby web-crawler anemone

15 фев '12 в 07:16