Как соскоблить продукты с сайта рубином / анемоном / нокогири
Можно ли соскрести продукты с сайта электронной коммерции, используя анемоновые и нокогири либс в рубине?
Я понимаю, как извлечь данные, которые мне нужны, с каждой страницы продукта, используя nokogiri, но я не могу понять, как заставить анемон /nokogiri сканировать сайт и захватить все страницы продукта.
Толчок в правильном направлении будет высоко ценится
1 ответ
Я разобрался со своими проблемами. Сначала было то, что анемон, казалось, не ползал все страницы. Это было потому, что страницы, которые я хотел, находились под поддоменом, который мне пришлось просить анемона сканировать отдельно от основного домена. Во-вторых, мне был нужен способ определить, какие страницы на самом деле были страницами продукта (и, следовательно, необходимо проанализировать). Я сделал это, проанализировав одно из полей, которые я хотел (номер sku), а затем проверив, является ли это sku с RegEX.