Описание тега goose
The Goose library is, according to its website, a Html content / article extractor in Scala. It's mission is to take any news article or article type web page and not only extract what is the main body of the article but also all meta data and most probable image candidate.
1
ответ
Как сохранить извлеченные заголовки из URL с помощью Python?
Мне дано задание извлечь заголовок и meta_description из списка URL. Я использовал гуся. Я делаю это правильно? из гуся импорт гусь импорт urlparse импорт numpy как np import os import pandas os.chdir("C:\Users\EDAWES01\Desktop\Cookie profiling") da…
23 июн '16 в 07:00
3
ответа
Проблемы при установке гуся
Я следовал точным инструкциям с https://github.com/grangier/python-goose при установке goose, и после того, как я набрал "mkvirtualenv --no-site-packages goose", вот что я получил: 172-27-220-167:~ yitongwang$ mkvirtualenv --no-site-packages goose N…
24 мар '15 в 20:53
1
ответ
Goose NoClassDefFound Ошибка
Я пытаюсь внедрить Goose-2.1.22 в одно из моих приложений. Однако, когда я пытаюсь запустить свое приложение с основным кодом, который мне предоставили, я получаю эту ошибку: 02-16 11:19:55.048 29391-29391/test.package.test2 E/AndroidRuntime﹕ FATAL …
16 фев '15 в 16:37
2
ответа
Как мне получить автора статьи с помощью python-goose
Я пытаюсь почистить статьи в новостных агентствах, но не могу понять, как получить автора статьи с помощью python-goose. Я прочитал документацию, исходный код и искал в Google. from goose import Goose def getArticle(url): g = Goose() article = g.ext…
12 янв '14 в 19:10
2
ответа
Как мне сказать python НЕ печатать элемент в списке?
Мой скрипт Python анализирует заголовки и ссылки из нескольких RSS-каналов. Я храню эти заголовки в списке и хочу убедиться, что никогда не буду печатать дубликаты. Как я могу это сделать? #!/usr/bin/python from twitter import * from goose import Go…
23 май '16 в 16:40
1
ответ
Извлечение текста из HTML с помощью Goose (работает для всех, кроме одного)
Я использую Goose для извлечения заголовка и основного текста из различных URL. Он работает с большинством URL-адресов, за исключением одного конкретного голландского новостного сайта. Есть идеи, что здесь не так? Конкретный проблемный URL здесь. Мо…
11 авг '17 в 12:33
1
ответ
Особенности ScadaLTS с поддержкой MMS и GOOSE Driver
Я делаю проект для мониторинга моих виртуальных устройств IED с помощью системы SCADA. Однако драйвер, который я хочу использовать для передачи информации, это MMS или GOOSE. Так поддерживает ли ScadaLTS МЭК 60870-5-104 (MMS) и МЭК 61850 (GOOSE)? Ес…
16 авг '18 в 02:51
0
ответов
Python Goose-extractor создает папку в tmp с именем goose и заполняет ее файлами
Я использую Goose-Extractor для анализа списка URL-адресов из словарного ключа. Я использую Python 2.7.6. Мой код приведен ниже: import json import re import sys from goose import Goose from pymongo import MongoClient mongoobj = MongoClient() coll =…
24 апр '18 в 11:39
0
ответов
Объект 'NoneType' не имеет атрибута 'src'
Если я не ошибаюсь, я думаю, что эта ошибка означает, что я пытаюсь показать, что не существует. Но я предоставил содержание, я не знаю, почему я получаю эту ошибку. Я объясню подробно: я использую django-ckeditor, и когда я пытаюсь опубликовать изо…
03 фев '16 в 03:24
0
ответов
Как извлечь статью на китайском
from newspaper import Article import pdb from unidecode import unidecode def get_article_newspaper(url): article = Article(url,en='zh') # Chinese article.download(); article.parse()# article.text if blank! print unidecode(article.text).replace('Imag…
09 сен '15 в 22:39
1
ответ
Как разрешить превышение глубины рекурсии (Goose-Extractor)
У меня одна проблема с Goose-Extractor Это мой код: for resultado in soup.find_all('a', href=True,text=re.compile(llave)): url = resultado['href'] article = g.extract(url=url) print article.title и взгляни на мою проблему. RuntimeError: maximum recu…
01 апр '15 в 23:58
1
ответ
Как извлечь статьи Python Goose с помощью New York Times
Я пытаюсь извлечь статьи из The New York Times, используя экстрактор гусей питона. Я попытался использовать стандартный способ получения URL: g.extract(url=url) Однако это приводит к пустой строке. Поэтому я попробовал следующий путь, рекомендованны…
22 дек '15 в 15:36
0
ответов
Замена гуся в Python3?
Я попытался установить Goose-extractor для моего проекта python/flask, но он выдает сообщение об ошибке: SyntaxError: Missing parentheses in call to 'print'. Did you mean print(int "Unit tests have failed!")? Кажется, что Goose не поддерживает Pytho…
24 ноя '18 в 22:48
2
ответа
ImportError: нет модуля с именем goose
Я пытаюсь работать с экстрактором Python-Goose. Я установил virtualenv и следовал инструкциям по установке. При запуске из PyCharm все отлично работает. Но при запуске из командной строки Windows я получаю эту ошибку: C:\Users\tal>C:\virtual_envi…
29 сен '14 в 07:29
1
ответ
Python Goose не может извлекать статьи из mashable / usatoday / politwire
Я использую Python Goose Extractor и его сбой для каждой статьи на mashable.com и usatoday.com. Может кто-нибудь предложить решение проблемы? Для статьи usatoday.com: g = Goose() article = g.extract(url='http://www.usatoday.com/story/tech/columnist/…
28 янв '14 в 05:51
1
ответ
Как извлечь статьи из хинди с помощью Goose?
Я использую Python Goose для извлечения статей из веб-страниц. Он отлично работает для многих языков, но не для хинди. Я попытался добавить остановку хинди как stopwords-hi.txt и установить target_language в hi, но безуспешно. Спасибо эран
17 май '16 в 11:36
0
ответов
Scala Jar (Goose), как использовать напрямую в Android/Java
Кто -нибудь может помочь? Я использовал Goose для дополнительного текста из HTML, чтобы завершить. Я импортировал в свой проект и пытаюсь запустить, но исключение приходит 07-18 09:44:13.472: E/AndroidRuntime(2565): вызвано: java.lang.NoClassDefFoun…
18 июл '13 в 08:00
1
ответ
Создать функцию неопределенной строки в кавычках
Я пытаюсь создать эту функцию с помощью Goose, используя базу данных postgres ( pq lib). Мой код выглядит следующим образом: CREATE OR REPLACE FUNCTION add_userlocation(user_id INT, location_id INT) RETURNS VOID AS $BODY$ BEGIN LOOP UPDATE usersloca…
05 янв '14 в 14:11
0
ответов
Почему python возвращает пустой массив при извлечении мета-описания из URL?
Я пытаюсь извлечь мета-описание, используя гуся. Я написал следующий код. Я также рассмотрел обработку файлов cookie. Когда я тестирую, используя только один URL, это работает. Однако, когда я выполняю итерацию по массиву URL-адресов, при использова…
25 июн '16 в 16:46
4
ответа
Как использовать Goose в Java Project
Как я могу использовать Goose в Java-проекте? Я тестировал онлайн-версию как котельной трубы, так и гуся, и последняя из них намного лучше, но теперь она разработана в Scala. Я искал банку предыдущей версии, но не могу ее найти (ни api). Последний.j…
17 сен '13 в 15:23