Описание тега python-textprocessing

Создание или обработка текста с помощью Python.
1 ответ

Создание TermDocumentMatrix в Python 2.7 с помощью пакета текстового анализа (ошибка атрибута)

Я пытаюсь сделать TermDocumentMatrix в Python с использованием пакета textmining. Следующий код вызывает ошибку: КОД: import textmining tdm = textmining.TermDocumentMatrix() ОШИБКА: File "<ipython-input-7-50b739ce2532>", line 1, in <module&…
18 фев '16 в 15:18
0 ответов

Как избежать ошибки StopIteration с Ngrams

Я учусь обрабатывать языковые данные, особенно с помощью ngrams. Когда я пишу следующий цикл, он выдает мне сообщение об ошибке StopIteration. Файлы представляют собой текстовые файлы, которые содержат список из многих слов. Не могли бы вы сказать м…
1 ответ

Поиск слова в сумке слов

Привет я строю классификатор обработки текста, в котором я создал пакет слов, моя проблема заключается в том, что если слово вводится в качестве входных данных, во-первых, он должен проверить, что слово присутствует в пакет слов, и моя вторая пробле…
29 ноя '17 в 14:16
1 ответ

Прогноз рейтингов фильмов с использованием TF-IDF

У меня есть набор данных, имеющий формат Movie_Name, TomatoCritics, Target_Variable Вот, TomatoCritics Атрибут имеет свободный текст от разных пользователей для разных фильмов. А также Target_Variable является двоичным значением (0 или 1), указывающ…
26 янв '19 в 11:40
0 ответов

Эффективное представление для создания текста, HTML или PDF?

У меня есть система, которая должна генерировать вывод в виде HTML, PDF и простого текста. Один из способов сделать это - просто создать HTML, а затем отобразить его в формате PDF или использовать какой-нибудь преобразователь для создания текста. Но…
01 мар '19 в 16:38
2 ответа

Python .append() для вектора в одну строку

У меня проблемы в append в массиве. Я ожидаю такой результат, как: ['44229#0:', '2016/10/11', '11:15:57','11:15:57','11:15:57','11:15:58' '0'] но у меня такой результат: ['44229#0:', '2016/10/11', '11:15:57'] ['11:15:57'] ['11:15:57'] ['11:15:58'] […
13 окт '16 в 08:29
1 ответ

Быстрая обработка текста в python на датафрейме

Я работаю над данными электронной коммерции в Python. Я загрузил эти данные в python и преобразовал их во фрейм данных pandas. Теперь я хочу выполнить обработку текста на этих данных, например, удалить ненужные символы, стоп-слова, ввод текста и т. …
13 окт '17 в 14:23
0 ответов

Результаты Tesseract 4.0 OCR противоречивы

Мы пытаемся выполнить ocr для изображения с 2 символами, и команда tesseract возвращает неверный вывод. Очевидно, ожидаемый результат должен быть телевизор, но мы получаем AY. Результатом должен был стать S7 Ep7, но мы получаем [Sa aes]. Который, ка…
1 ответ

Я хочу объединить части двух файлов блокнота в один файл

У меня есть два текстовых файла с именами BOOK1.txt и BOOK2.txt BOOK1.txt \id BookName \ide Encoding \rem Copyright Information \h Header \toc1 Topic1 \toc2 Topic2 \mt1 BookNameEng \mt1 BookNameHin \c 1 \p \v 1 This is first sentence \v 2 This is se…
2 ответа

Замена строки на питоне

Я хочу изменить первый / E после / V на X и второй / E на Y и третий / E на Z в текстовых файлах. / V может сопровождаться словом, отличным от / E Количество / Е составляет от 1 до 3. Например, следующая строка АА / В + ВВ / Е +CC/ Е + ДД / Е следуе…
3 ответа

Удаляя правильное значение с плавающей точкой из моей строки

Я использую python для обработки файлов pcap и ввода обработанных значений в текстовый файл. Текстовый файл имеет около 8000 строк, и иногда текстовый файл имеет строку, например 7.70.582 . В моей дальнейшей обработке текстового файла я разделяю фай…
10 ноя '17 в 20:25
2 ответа

Как я могу реализовать семантическую аннотацию в Python?

Семантическая аннотация - это процесс присоединения дополнительной информации к различным понятиям (например, людям, вещам, местам, организациям и т. Д.) В данном тексте или любом другом контенте. Например, семантически аннотировать выбранные концеп…
23 мар '17 в 07:30
1 ответ

Начало вложенного цикла от текущей позиции элемента до конца списка

У меня есть текстовый файл со следующей структурой: name1: sentence. [sentence. ...] # can be one or more name2: sentence. [sentence. ...] РЕДАКТИРОВАТЬ входной образец: Djohn: Hello. I am Djohn I am Djohn. Bot: Lorem ipsum dolor sit amet, consectet…
05 ноя '18 в 23:58
2 ответа

Мой лирический бот не отправляет строки на сервер

Я создал текстового бота на python. Я удаляю тексты песен с сайта genius.com, используя robobrowser, но не отправляю тексты в группу. if ( parser.getCommand() == 'GroupMESG'): if(parser.getPayload().lower()[:7]=='!lyrics'): #Send wait message in the…
1 ответ

Регулярное выражение для поиска определенного шаблона / текста в журналах

Я сейчас пишу Python script для фильтрации некоторых log файл и я хочу фильтровать текст с помощью регулярных выражений / некоторая библиотека (preferred regex как я хочу избежать зависимости от виртуальной среды). Ниже приведен текст / предложение,…
2 ответа

Разделение слов с помощью модуля nltk в Python

Я пытаюсь найти способ разделения слов в Python с помощью модуля nltk. Я не уверен, как достичь своей цели, учитывая необработанные данные, которые у меня есть, которые представляют собой список токенизированных слов, например ['usingvariousmolecula…
0 ответов

Разбор текстовых файлов и сохранение данных по некоторым заголовкам в базе данных

Я работаю над проектом Python(3.6), в котором мне нужно проанализировать текстовый файл, Моя конкретная проблема: у моего текстового файла есть некоторые заголовки, такие как Примеры, Ввод, Вывод, Пояснения, Заметки. Мне нужно проанализировать этот …
24 дек '17 в 08:08
0 ответов

Разбор длинных структурированных строк в python

Я пытаюсь извлечь данные из сотен текстовых строк, которые имеют следующую структуру: [{ "x": 63.43947250969682, "y": 88.9877012738793, "id": 281281, "p": "S.Jones", "h": false, "t": "SYD", "ts": 52, "qt": "Q1-0:52", "sp": 6, "g": false, "b": false,…
1 ответ

Python - быстрое решение для удаления повторяющихся строк в 2 файлах

У меня есть два файла: файл A и файл B. Я хотел бы получить номера строк всех строк в файле B, которые существуют в файле A. Но если строка действительно находится в файле A, я не буду идентифицировать ее как "существующую в файле A", если в ней так…
27 фев '18 в 09:55
0 ответов

Векторизация счетчика и векторизация TF-IDF одинаковы, когда существует только один документ?

Я получаю те же значения, когда у меня есть только один документ. скажем, у меня есть один документ, как показано ниже docs = [['my first document']] и я использую его для подгонки и преобразования, используя как sklearn's CountVectorizer а также Tf…