Описание тега goose

Описание тега Вопросы с тегом

The Goose library is, according to its website, a Html content / article extractor in Scala. It's mission is to take any news article or article type web page and not only extract what is the main body of the article but also all meta data and most probable image candidate.

1 ответ

Как сохранить извлеченные заголовки из URL с помощью Python?

Мне дано задание извлечь заголовок и meta_description из списка URL. Я использовал гуся. Я делаю это правильно? из гуся импорт гусь импорт urlparse импорт numpy как np import os import pandas os.chdir("C:\Users\EDAWES01\Desktop\Cookie profiling") da…

23 июн '16 в 07:00

3 ответа

Проблемы при установке гуся

Я следовал точным инструкциям с https://github.com/grangier/python-goose при установке goose, и после того, как я набрал "mkvirtualenv --no-site-packages goose", вот что я получил: 172-27-220-167:~ yitongwang$ mkvirtualenv --no-site-packages goose N…

python anaconda goose

24 мар '15 в 20:53

1 ответ

Goose NoClassDefFound Ошибка

Я пытаюсь внедрить Goose-2.1.22 в одно из моих приложений. Однако, когда я пытаюсь запустить свое приложение с основным кодом, который мне предоставили, я получаю эту ошибку: 02-16 11:19:55.048 29391-29391/test.package.test2 E/AndroidRuntime﹕ FATAL …

javascript android goose

16 фев '15 в 16:37

2 ответа

Как мне получить автора статьи с помощью python-goose

Я пытаюсь почистить статьи в новостных агентствах, но не могу понять, как получить автора статьи с помощью python-goose. Я прочитал документацию, исходный код и искал в Google. from goose import Goose def getArticle(url): g = Goose() article = g.ext…

python web-scraping goose

12 янв '14 в 19:10

2 ответа

Как мне сказать python НЕ печатать элемент в списке?

Мой скрипт Python анализирует заголовки и ссылки из нескольких RSS-каналов. Я храню эти заголовки в списке и хочу убедиться, что никогда не буду печатать дубликаты. Как я могу это сделать? #!/usr/bin/python from twitter import * from goose import Go…

python python-2.7 feedparser goose

23 май '16 в 16:40

1 ответ

Извлечение текста из HTML с помощью Goose (работает для всех, кроме одного)

Я использую Goose для извлечения заголовка и основного текста из различных URL. Он работает с большинством URL-адресов, за исключением одного конкретного голландского новостного сайта. Есть идеи, что здесь не так? Конкретный проблемный URL здесь. Мо…

python html web-scraping html-content-extraction goose

11 авг '17 в 12:33

1 ответ

Особенности ScadaLTS с поддержкой MMS и GOOSE Driver

Я делаю проект для мониторинга моих виртуальных устройств IED с помощью системы SCADA. Однако драйвер, который я хочу использовать для передачи информации, это MMS или GOOSE. Так поддерживает ли ScadaLTS МЭК 60870-5-104 (MMS) и МЭК 61850 (GOOSE)? Ес…

mms goose scadalts

16 авг '18 в 02:51

0 ответов

Python Goose-extractor создает папку в tmp с именем goose и заполняет ее файлами

Я использую Goose-Extractor для анализа списка URL-адресов из словарного ключа. Я использую Python 2.7.6. Мой код приведен ниже: import json import re import sys from goose import Goose from pymongo import MongoClient mongoobj = MongoClient() coll =…

python goose

24 апр '18 в 11:39

0 ответов

Объект 'NoneType' не имеет атрибута 'src'

Если я не ошибаюсь, я думаю, что эта ошибка означает, что я пытаюсь показать, что не существует. Но я предоставил содержание, я не знаю, почему я получаю эту ошибку. Я объясню подробно: я использую django-ckeditor, и когда я пытаюсь опубликовать изо…

python django goose

03 фев '16 в 03:24

0 ответов

Как извлечь статью на китайском

from newspaper import Article import pdb from unidecode import unidecode def get_article_newspaper(url): article = Article(url,en='zh') # Chinese article.download(); article.parse()# article.text if blank! print unidecode(article.text).replace('Imag…

python web-scraping python-newspaper goose

09 сен '15 в 22:39

1 ответ

Как разрешить превышение глубины рекурсии (Goose-Extractor)

У меня одна проблема с Goose-Extractor Это мой код: for resultado in soup.find_all('a', href=True,text=re.compile(llave)): url = resultado['href'] article = g.extract(url=url) print article.title и взгляни на мою проблему. RuntimeError: maximum recu…

python extractor goose

01 апр '15 в 23:58

1 ответ

Как извлечь статьи Python Goose с помощью New York Times

Я пытаюсь извлечь статьи из The New York Times, используя экстрактор гусей питона. Я попытался использовать стандартный способ получения URL: g.extract(url=url) Однако это приводит к пустой строке. Поэтому я попробовал следующий путь, рекомендованны…

python python-requests urllib2 goose

22 дек '15 в 15:36

0 ответов

Замена гуся в Python3?

Я попытался установить Goose-extractor для моего проекта python/flask, но он выдает сообщение об ошибке: SyntaxError: Missing parentheses in call to 'print'. Did you mean print(int "Unit tests have failed!")? Кажется, что Goose не поддерживает Pytho…

python python-3.x goose

24 ноя '18 в 22:48

2 ответа

ImportError: нет модуля с именем goose

Я пытаюсь работать с экстрактором Python-Goose. Я установил virtualenv и следовал инструкциям по установке. При запуске из PyCharm все отлично работает. Но при запуске из командной строки Windows я получаю эту ошибку: C:\Users\tal>C:\virtual_envi…

python pycharm virtualenv goose

29 сен '14 в 07:29

1 ответ

Python Goose не может извлекать статьи из mashable / usatoday / politwire

Я использую Python Goose Extractor и его сбой для каждой статьи на mashable.com и usatoday.com. Может кто-нибудь предложить решение проблемы? Для статьи usatoday.com: g = Goose() article = g.extract(url='http://www.usatoday.com/story/tech/columnist/…

python text-extraction goose

28 янв '14 в 05:51

1 ответ

Как извлечь статьи из хинди с помощью Goose?

Я использую Python Goose для извлечения статей из веб-страниц. Он отлично работает для многих языков, но не для хинди. Я попытался добавить остановку хинди как stopwords-hi.txt и установить target_language в hi, но безуспешно. Спасибо эран

goose

17 май '16 в 11:36

0 ответов

Scala Jar (Goose), как использовать напрямую в Android/Java

Кто -нибудь может помочь? Я использовал Goose для дополнительного текста из HTML, чтобы завершить. Я импортировал в свой проект и пытаюсь запустить, но исключение приходит 07-18 09:44:13.472: E/AndroidRuntime(2565): вызвано: java.lang.NoClassDefFoun…

java android scala goose

18 июл '13 в 08:00

1 ответ

Создать функцию неопределенной строки в кавычках

Я пытаюсь создать эту функцию с помощью Goose, используя базу данных postgres ( pq lib). Мой код выглядит следующим образом: CREATE OR REPLACE FUNCTION add_userlocation(user_id INT, location_id INT) RETURNS VOID AS $BODY$ BEGIN LOOP UPDATE usersloca…

postgresql go libpq goose

05 янв '14 в 14:11

0 ответов

Почему python возвращает пустой массив при извлечении мета-описания из URL?

Я пытаюсь извлечь мета-описание, используя гуся. Я написал следующий код. Я также рассмотрел обработку файлов cookie. Когда я тестирую, используя только один URL, это работает. Однако, когда я выполняю итерацию по массиву URL-адресов, при использова…

python cookies meta goose

25 июн '16 в 16:46

4 ответа

Как использовать Goose в Java Project

Как я могу использовать Goose в Java-проекте? Я тестировал онлайн-версию как котельной трубы, так и гуся, и последняя из них намного лучше, но теперь она разработана в Scala. Я искал банку предыдущей версии, но не могу ее найти (ни api). Последний.j…

java goose

17 сен '13 в 15:23