Описание тега python-newspaper

Newspaper - это библиотека Python, которая обеспечивает извлечение статей в стиле Instapaper.
1 ответ

Газета Python с веб-архивом (машина обратного хода)

Я пытаюсь использовать библиотеку газет python (импортировать газету...) с интернет-архивом ( http://www.archive.org/), в котором хранятся старые версии веб-сайтов. Теоретически это может позволить загружать очень старые новостные статьи. Так, напри…
16 янв '17 в 15:44
0 ответов

Питон, газета, тип unhashable: 'tzutc' и запись в dataframe

У меня есть куча URL-адресов, которые я хочу скачать и провести дальнейший анализ. Я новичок в питоне. У меня две проблемы: (1) У меня действительно странная ошибка типа; и (2) результаты не записываются во фрейм данных. Мой код выглядит следующим о…
12 янв '18 в 23:13
1 ответ

Python: Newspaper Module - загрузка с нескольких URL

Я не хочу начинать новую публикацию, но я пытаюсь выполнить точную вещь, описанную в этом вопросе: Python: Газетный модуль - Есть ли способ объединить получение статей прямо с URL? Однако, пытаясь реализовать решение, я получаю следующую ошибку: Nam…
03 апр '17 в 01:39
0 ответов

Обработайте список URL с помощью Newspaper3k (python3 lib), используя многопоточность, которая никогда не заканчивается

Скрипт читает список URL, я передаю этот список в очередь, а затем обрабатываю их с помощью python-magazine3k. У меня много разных URL, многие из них не очень популярные сайты. Проблема в том, что обработка никогда не заканчивается. Иногда это доход…
1 ответ

Проблема с кэшем в газетном питоне, каждый вызов одинаковый

Я использую этот модуль: https://github.com/codelucas/newspaper для загрузки статей о биткойнах с https://news.bitcoin.com/. Но когда я пытаюсь получить следующие статьи со следующей страницы " https://news.bitcoin.com/page/2/page", я получаю такой …
23 янв '19 в 17:42
1 ответ

ModuleNotFoundError: нет модуля с именем "magazine3k"

Я пытаюсь установить газетный модуль на python, но получаю сообщение об ошибке, в котором говорится, что такого модуля нет. Я попытался убедиться, что мой каталог установлен в нужном месте, и я проверил, что модуль установлен. PyCharm, который я исп…
05 фев '19 в 23:10
4 ответа

Удалить все возможные нежелательные символы из строки Python сразу

Я использую модуль Python newspaper3k и извлечение резюме статьи, используя его веб-URL. Как, from newspaper import Article article = Article('https://www.abcd....vnn.com/dhdhd') article.download() article.parse() article.nlp() text = article.summar…
0 ответов

Ошибка импорта скрипта Ubuntu с использованием газетного модуля

У меня есть скрипт, который будет запускаться локально, но не на моем сервере Ubuntu. Другие сценарии работают нормально на обеих платформах, но этот конкретный скрипт выдает ошибку импорта, когда я пытаюсь запустить его в Ubuntu. root@ip-xxx-xx-xx-…
2 ответа

ImportError при установке газеты

Я довольно плохо знаком с Python и пытаюсь импортировать газеты для извлечения статей. Всякий раз, когда я пытаюсь импортировать модуль, я получаю ImportError: cannot import name images, Кто-нибудь сталкивался с этой проблемой и нашел решение?
20 янв '15 в 01:22
1 ответ

Я хочу получить статью новостей CNN всю ссылку

Я хочу получить статью новостей CNN всю ссылку например по этой ссылке https://edition.cnn.com/search/?q=%20news&size=10 я могу показать последние 10 новостей чтобы получить ссылку на новость, я попробовал два метода. html_page = urlopen(url) so…
25 авг '18 в 12:47
1 ответ

Newspaper3k возвращает 0 статей со страниц сайта archive.org waybackmachine, тогда как живая страница работает как положено

При попытке использовать библиотеку python library3 на URL-адресе архивной страницы из archive.org не удается получить какие-либо статьи. Однако при использовании его на том же URL-адресе активной страницы он работает нормально. Пожалуйста, смотрите…
19 дек '17 в 12:58
2 ответа

Газетная библиотека

Как абсолютный новичок в теме использования python, я наткнулся на несколько трудностей, связанных с расширением газетной библиотеки. Моя цель - регулярно использовать расширение газеты, чтобы загружать все новые статьи немецкого новостного сайта по…
13 ноя '18 в 21:02
1 ответ

ImportError: Нет модуля с именем '_sqlite3' error- Подчеркнуть актуальность?

Я использую Python3.4, я недавно обновился с python 3.3.2. Я следую этим инструкциям о том, как установить газету, которая является библиотекой / инструментом Python. https://github.com/codelucas/newspaper Я получаю ошибки после выполнения этой кома…
1 ответ

PermissionError: не может получить доступ к файлу, потому что он используется другим процессом, даже если администратор

Я пытаюсь установить библиотеку под названием газета. Тем не менее у меня были проблемы с правами доступа, так как казалось, что другой процесс использовал пакет, который был деинсталлирован: пакет 'defaults::qt-5.9.6-vc14h1e9a669_2'. (base) C:\User…
28 ноя '18 в 12:21
0 ответов

Ошибка импорта Python на одном компьютере, но не на другом

Я использую библиотеку под названием газета и развертываю свое приложение на эластичном бобовом стебле. Локально работает, но на сервере не работает и выдает эту ошибку: File "/opt/python/current/app/application.py", line 7, in <module> from a…
2 ответа

Газета (питон) получить все CNN новости URL

Например, в этом URL ( https://edition.cnn.com/search/?q=%20news&size;=10&from;=5540&page;=555) В HTML-файле я могу найти эту ссылку (HTML-тег) <div class="cnn-search__result-thumbnail"> <a href="https://www.cnn.com/2018/03/27/asia/north-ko…
02 авг '18 в 02:20
1 ответ

Проблемы с установкой географии с Anaconda Prompt

Я пытаюсь использовать модуль географии через подсказку Anaconda. Когда я бегу pip install geograpy Я получаю это предупреждение, которое прекращает установку Газета3к в моем AppData/Local/Continuum/Anaconda3/Lib/site-packages после того, как я след…
1 ответ

Удалить специальные кавычки и другие символы

Я пытаюсь скачать статьи используя Article от newspaperи пытаясь токенизировать слова, используя nltk word_tokenizer, Проблема в том, что когда я пытаюсь напечатать проанализированный текст статьи, некоторые из этих статей имеют специальные кавычки,…
28 июн '17 в 13:50
0 ответов

Проблемы с импортом газетного модуля на Beanstalk

Кто-нибудь пробовал использовать библиотеку Газетон 3k на AWS Elastic Beanstalk Python 3.4? Я получаю странную ошибку, несмотря на наличие images.py в каталоге газеты. Traceback (most recent call last): File "/opt/python/current/app/application.py",…
0 ответов

Библиотечная библиотека Python для публикации и возврата статей возвращает только статьи главной страницы

Мне удалось вытащить все статьи с домашней страницы, используя газету Python lib. Есть ли способ или параметр конфигурации, чтобы получить все статьи из URL (новости URL) с использованием одной и той же библиотеки? import newspaper news_articles = n…
22 мар '18 в 07:13