Проблема импортирования скрапа в JSON

Question

Проблема импортирования скрапа в JSON

Я пытаюсь извлечь некоторую информацию из Craigslist и сохранить ее в файле JSON, но информация хранится немного неправильно. Вместо массива [title, link, location, time] я получаю массив со всеми заголовками, один со всеми ссылками и т. Д. Мои заголовки неверны или сам цикл for неправильный?

from scrapy.spiders import BaseSpider
from scrapy.selector import HtmlXPathSelector
from scrapy.selector import Selector
from craigslist_sample.items import CraigslistSampleItem

class MySpider(BaseSpider):
 name = "craig"
 allowed_domains = ["craigslist.org"]
 start_urls = ["https://pittsburgh.craigslist.org/search/ccc"]

 def parse(self, response):
    titles = response.selector.xpath("//p[@class='row']")
    items = []
    for titles in titles:
        item = CraigslistSampleItem()
        item["title"] = titles.xpath("//span[@id='titletextonly']").extract()
        item["link"] = titles.xpath("a/@href").extract()
        item["location"] = titles.xpath("//small").extract()
        item["time"] = titles.xpath('//time').extract()
        items.append(item)
    return items

1

web-scraping scrapy scrapy-spider

Источник

user4304934 21 апр '16 в 02:38

1 ответ

Решение

Другие вопросы по тегам web-scraping scrapy scrapy-spider

user771848 21 апр '16 в 02:46 2016-04-21 02:46 · Accepted Answer · 2016-04-21 02:46

Это потому, что ваши внутренние xpaths соответствуют элементам, начиная с корня дерева. Вместо этого вам нужно заставить их работать в контексте каждого элемента, добавив точку:

for title in titles:
    item = CraigslistSampleItem()
    item["title"] = title.xpath(".//span[@id='titletextonly']").extract()
    item["link"] = title.xpath("a/@href").extract()
    item["location"] = title.xpath(".//small").extract()
    item["time"] = title.xpath('.//time').extract()
    yield item