Извлечение автора из статьи
Как следует из названия, я работал над сканированием статьи, и все, что осталось, - это автор.
Ниже приведен мой код, использующий pyquery для компиляции абзацев и автора, причем только автор возвращает пустое
сайт цели: http://business.transworld.net/153984/news/surfrider-foundation-names-chad-nelsen-new-ceo/
def extract_text_pyquery(html):
p = pq(html)
article_whole = p.find(".entry")
p_tag = article_whole('p')
print len(p_tag)
print p_tag
for i in range (0, len(p_tag)):
text = p_tag.eq(i).text()
print text
entire = p.find("#main")
author = entire.find('a').filter('.author')
print 'By:', author
1 ответ
Класс не автор, rel
является; Период выбирает класс. Вы должны вместо этого фильтровать '[rel="author"]'
, скобки позволяют вам подавать нестандартные теги.