Запускаемый сканер не получает те же данные, что и при обучении
При обучении моего сканера по очистке страницы Yelp он получает всю информацию, и я ничего не делаю, но когда я запускаю сканер, адрес не распознается и не записывается.
3 ответа
Получение данных компании от Yelp
В этом случае мы хотим получить адреса для компаний в Сан-Франциско с сайта www.yelp.com.
Анализ сайта
На этой странице мы можем получить список компаний, начинающихся с буквы "А":
http://www.yelp.com/sm/san-francisco-ca-us/a/1
Эта страница каталога сообщает нам, что есть 42 страницы результатов для "A" с до 80 результатами на страницу.
Это хорошие новости.
Создать API
Сейчас я собираюсь создать API для получения данных с первой страницы, а затем использовать Bulk Extract для передачи списка URL-адресов на все 42 страницы.
Используя Magic, я могу сгенерировать API всего за несколько кликов:
- Перейти к Magic.import.io
- Вставьте URL на страницу Yelp (ссылка выше)
- Нажмите "Извлечь данные"
- Нажмите "Получить API"
- Нажмите "Копировать в мои данные"
Теперь у нас есть API!
(Обратите внимание, что если вам нужен больший контроль над тем, что включать или исключать из API, вы можете использовать Extractor)
Создать список URL-адресов
Чтобы создать список URL-адресов, которые позволят нам получать данные со страниц 1–42, я собираюсь использовать внешнюю службу, размещенную по адресу:
http://texttool.blogspot.co.uk/
Найдите инструмент "Создать список номеров" и создайте список URL-адресов:
http://www.yelp.com/sm/san-francisco-ca-us/a/1
http://www.yelp.com/sm/san-francisco-ca-us/a/2
http://www.yelp.com/sm/san-francisco-ca-us/a/3
http://www.yelp.com/sm/san-francisco-ca-us/a/4
http://www.yelp.com/sm/san-francisco-ca-us/a/5
http://www.yelp.com/sm/san-francisco-ca-us/a/6
http://www.yelp.com/sm/san-francisco-ca-us/a/7
http://www.yelp.com/sm/san-francisco-ca-us/a/8
http://www.yelp.com/sm/san-francisco-ca-us/a/9
http://www.yelp.com/sm/san-francisco-ca-us/a/10
http://www.yelp.com/sm/san-francisco-ca-us/a/11
http://www.yelp.com/sm/san-francisco-ca-us/a/12
http://www.yelp.com/sm/san-francisco-ca-us/a/13
http://www.yelp.com/sm/san-francisco-ca-us/a/14
http://www.yelp.com/sm/san-francisco-ca-us/a/15
http://www.yelp.com/sm/san-francisco-ca-us/a/16
http://www.yelp.com/sm/san-francisco-ca-us/a/17
http://www.yelp.com/sm/san-francisco-ca-us/a/18
http://www.yelp.com/sm/san-francisco-ca-us/a/19
http://www.yelp.com/sm/san-francisco-ca-us/a/20
http://www.yelp.com/sm/san-francisco-ca-us/a/21
http://www.yelp.com/sm/san-francisco-ca-us/a/22
http://www.yelp.com/sm/san-francisco-ca-us/a/23
http://www.yelp.com/sm/san-francisco-ca-us/a/24
http://www.yelp.com/sm/san-francisco-ca-us/a/25
http://www.yelp.com/sm/san-francisco-ca-us/a/26
http://www.yelp.com/sm/san-francisco-ca-us/a/27
http://www.yelp.com/sm/san-francisco-ca-us/a/28
http://www.yelp.com/sm/san-francisco-ca-us/a/29
http://www.yelp.com/sm/san-francisco-ca-us/a/30
http://www.yelp.com/sm/san-francisco-ca-us/a/31
http://www.yelp.com/sm/san-francisco-ca-us/a/32
http://www.yelp.com/sm/san-francisco-ca-us/a/33
http://www.yelp.com/sm/san-francisco-ca-us/a/34
http://www.yelp.com/sm/san-francisco-ca-us/a/35
http://www.yelp.com/sm/san-francisco-ca-us/a/36
http://www.yelp.com/sm/san-francisco-ca-us/a/37
http://www.yelp.com/sm/san-francisco-ca-us/a/38
http://www.yelp.com/sm/san-francisco-ca-us/a/39
http://www.yelp.com/sm/san-francisco-ca-us/a/40
http://www.yelp.com/sm/san-francisco-ca-us/a/41
http://www.yelp.com/sm/san-francisco-ca-us/a/42
Массовый экстракт
Теперь вы можете использовать Bulk Extract для получения данных с каждого из этих URL-адресов за один раз.
Сделать это:
- Перейдите на вкладку "Настройка" в Yelp API.
- Выберите Bulk Extract из выпадающего списка
- Вставить в список из 42 URL
- Нажмите "Запустить запросы"
Примечание: вы можете получить несколько неудачных запросов. Нажав текст "X URLs failed", вы можете повторить неудачные запросы.
экспорт
Теперь вы можете экспортировать эти данные в электронную таблицу, как HTML или JSON.
дальнейшее чтение
http://support.import.io/knowledgebase/articles/669784-getting-company-data-from-yelp
Вы должны использовать xpath, чтобы выбрать то, что вы хотите на yelp, я делал это раньше для yelp, и xpath более точен, чем ручное обучение.
Мне повезло больше с http://datascramblr.com/ как все это делается автоматически для Yelp