Описание тега anemone
Anemone - это библиотека Ruby, которая позволяет быстро и безболезненно писать программы, которые паукуют на сайте. Он предоставляет простой DSL для выполнения действий на каждой странице сайта, пропуска определенных URL-адресов и расчета кратчайшего пути к определенной странице сайта. Многопоточный дизайн делает Anemone быстрым. API делает это простым. А выразительность Ruby делает его мощным.
1
ответ
Как соскоблить продукты с сайта рубином / анемоном / нокогири
Можно ли соскрести продукты с сайта электронной коммерции, используя анемоновые и нокогири либс в рубине? Я понимаю, как извлечь данные, которые мне нужны, с каждой страницы продукта, используя nokogiri, но я не могу понять, как заставить анемон /no…
20 май '12 в 07:02
2
ответа
Ruby, Mongodb, Anemone: веб-сканер с возможной утечкой памяти?
Недавно я начал изучать веб-сканеры и создал хранилище образцов для Ruby, Anemone и Mongodb. Я тестирую сканер на огромном общедоступном веб-сайте с миллиардами ссылок. Файл crawler.rb индексирует правильную информацию, хотя, когда я проверяю исполь…
22 фев '12 в 12:46
1
ответ
Получение всех доменов на странице зависит от использования Nokogiri
Я пытаюсь получить все домены / IP-адреса, от которых зависит конкретная страница, с помощью Nokogiri. Он не может быть идеальным из-за динамической загрузки зависимостей Javascript, но я рад, что приложил максимум усилий для получения: URL изображе…
29 июл '11 в 13:43
1
ответ
Может ли Anemone сканировать HTML-файлы, хранящиеся локально на моем жестком диске?
Я надеюсь собрать воедино несколько десятков тысяч страниц правительственных данных (в нескольких тысячах папок), которые находятся в сети, и поместить все это в один файл. Чтобы ускорить процесс, я решил сначала загрузить сайт на свой жесткий диск,…
31 май '12 в 16:48
3
ответа
Рубиновый скребок. Как экспортировать в CSV?
Я написал этот рубиновый скрипт, чтобы собрать информацию о продукте с сайта производителя. Очистка и хранение объектов продукта в массиве работает, но я не могу понять, как экспортировать данные массива в файл CSV. Выдается эта ошибка: scraper.rb:4…
21 май '12 в 02:59
2
ответа
Получение всех URL-адресов с использованием гема анемона (очень большой сайт)
Сайт, который я хочу проиндексировать, довольно большой, 1.x миллионов страниц. Мне просто нужен json-файл со всеми URL-адресами, чтобы я мог выполнять над ними некоторые операции (сортировка, группировка и т. Д.). Базовая петля анемона работала хор…
21 авг '13 в 20:35
1
ответ
Базовая аутентификация HTTP с помощью Anemone Web Spider
Мне нужно собрать все "заголовки" со всех страниц сайта.Сайт имеет конфигурацию HTTP Basic Auth.Без аутентификации я делаю следующее: require 'anemone' Anemone.crawl("http://example.com/") do |anemone| anemone.on_every_page do |page| puts page.doc.a…
30 май '13 в 21:22
2
ответа
Страница сканирования, требующая входа с помощью Anemone
Я использую камень Анемон следующим образом: Посетите первый URL (начальное число), сохраните содержимое страницы в базе данных и сохраните все ссылки с этой страницы в базу данных (все ссылки, которых еще нет в базе данных) Загрузить следующую ссыл…
16 апр '16 в 07:26
0
ответов
Ruby open_uri всегда 404. (разрешить https перенаправляет git-версию)
Я использую модуль open-uri, который позволяет перенаправления https. Я пытаюсь открыть каждую страницу из домена. Я делаю это, сначала сканируя его через анемон: require 'anemone' require "./open_uri" class Query def initialize() fs = File.read("fi…
26 мар '14 в 12:02
1
ответ
Heroku H12 Запрос тайм-аута при запуске Ruby Anemone
У меня есть приложение Ruby, размещенное на Heroku, которое запускает Anemone (веб-паук / сканер Ruby) на указанных пользователем доменах. Когда пользователь выбирает домен среднего и большого размера, он падает, и в журналах отображается ошибка H12…
01 авг '13 в 20:42
1
ответ
Анемон с Rails и MongoDB
Я готовлюсь написать свой первый веб-сканер, и похоже, что Anemone имеет больше смысла. Существует встроенная поддержка хранилища MongoDB, и я уже использую MongoDB через Mongoid в своем приложении Rails. Моя цель - сохранить просканированные резуль…
24 фев '12 в 06:10
0
ответов
Оператор break в цикле не работает
Я новичок в жемчужине анемона. Я написал следующий код: anemone.on_every_page do |page| if page.url.to_s.match(/\-ad$/) unless page.url.to_s.match("restaurant|hotel") p "not useful url: #{page.url}" count += 1 if count == 5 break end next else count…
25 апр '14 в 11:33
2
ответа
Использование Ruby's Anemone Gem для очистки всех адресов электронной почты с сайта
Я пытаюсь очистить все адреса электронной почты на данном сайте, используя один файл Ruby-скрипт. В нижней части файла у меня есть жестко заданный контрольный пример с URL-адресом, на котором указан адрес электронной почты, указанный на этой конкрет…
20 апр '17 в 00:29
1
ответ
Веб-сканер в рельсах, как сканировать все страницы сайта
Мне нужно получить все URL со всех страниц данного домена,Я думаю, что имеет смысл использовать фоновые задания, помещая их в несколько очередей пытаясь использовать паутину, но это кажется очень запутанным драгоценным камнем, и аномон, анемон работ…
11 окт '13 в 05:32
1
ответ
Rails Anemone и Postgres хранят только URL
Я хочу сохранить URL on_pages_like определенный матч. Анемон делает свое дело, и создаются записи, которые хранят URL-адреса, но: Я хочу использовать что-то вроде find_or_create_by_url вместо create!так что я не дублирую записи каждый раз. Я хочу со…
01 ноя '12 в 13:38
1
ответ
Как обрабатывать NIL с помощью скребка Anemone / Nokogiri?
def scrape!(url) Anemone.crawl(url) do |anemone| anemone.on_pages_like %[/events/detail/.*] do |page| show = { headliner: page.doc.at_css('h1.summary').text, openers: page.doc.at_css('.details h2').text } puts show end end end Написание скребка в An…
13 авг '13 в 20:47
2
ответа
Anemone Ruby spider - создать массив значений ключей без доменного имени
Я использую анемон для паука домена, и он работает нормально. код для запуска сканирования выглядит следующим образом: require 'anemone' Anemone.crawl("http://www.example.com/") do |anemone| anemone.on_every_page do |page| puts page.url end end Это …
23 окт '13 в 11:55
1
ответ
Запись вывода цикла в текстовый файл из гема искателя Ruby
Я полный нубист по Ruby, сейчас прохожу учебники по Treehouse, но мне нужна небольшая помощь для вывода содержимого обхода Anemone в текстовый файл для моей работы (я SEO). Как получить следующее, чтобы вывести его вывод в текстовый файл? require 'a…
03 окт '13 в 09:57
1
ответ
Невозможно получить доступ к данным страницы, используя анемон с socksify gem и Tor
Я написал скрипт ruby с использованием гема анемона для сканирования сайта. Скрипт работает нормально при непосредственном использовании. Но я бы хотел использовать gem socksify, чтобы все TCP-вызовы из скрипта маршрутизировались с socks5. Я сдела…
08 сен '13 в 05:19
2
ответа
Сканирование поддоменов с помощью анемона
Я использую Анемон. Как сканировать субдомен тоже? например, если у меня есть веб-сайт www.abc.com мой сканер тоже должен ползать support.abc.com или же blah.abc.com, Я использую Ruby 1.8.7 и Rails 3.
15 фев '12 в 07:16