Описание тега python-textprocessing
Создание или обработка текста с помощью Python.
1
ответ
Создание TermDocumentMatrix в Python 2.7 с помощью пакета текстового анализа (ошибка атрибута)
Я пытаюсь сделать TermDocumentMatrix в Python с использованием пакета textmining. Следующий код вызывает ошибку: КОД: import textmining tdm = textmining.TermDocumentMatrix() ОШИБКА: File "<ipython-input-7-50b739ce2532>", line 1, in <module&…
18 фев '16 в 15:18
0
ответов
Как избежать ошибки StopIteration с Ngrams
Я учусь обрабатывать языковые данные, особенно с помощью ngrams. Когда я пишу следующий цикл, он выдает мне сообщение об ошибке StopIteration. Файлы представляют собой текстовые файлы, которые содержат список из многих слов. Не могли бы вы сказать м…
17 авг '18 в 01:54
1
ответ
Поиск слова в сумке слов
Привет я строю классификатор обработки текста, в котором я создал пакет слов, моя проблема заключается в том, что если слово вводится в качестве входных данных, во-первых, он должен проверить, что слово присутствует в пакет слов, и моя вторая пробле…
29 ноя '17 в 14:16
1
ответ
Прогноз рейтингов фильмов с использованием TF-IDF
У меня есть набор данных, имеющий формат Movie_Name, TomatoCritics, Target_Variable Вот, TomatoCritics Атрибут имеет свободный текст от разных пользователей для разных фильмов. А также Target_Variable является двоичным значением (0 или 1), указывающ…
26 янв '19 в 11:40
0
ответов
Эффективное представление для создания текста, HTML или PDF?
У меня есть система, которая должна генерировать вывод в виде HTML, PDF и простого текста. Один из способов сделать это - просто создать HTML, а затем отобразить его в формате PDF или использовать какой-нибудь преобразователь для создания текста. Но…
01 мар '19 в 16:38
2
ответа
Python .append() для вектора в одну строку
У меня проблемы в append в массиве. Я ожидаю такой результат, как: ['44229#0:', '2016/10/11', '11:15:57','11:15:57','11:15:57','11:15:58' '0'] но у меня такой результат: ['44229#0:', '2016/10/11', '11:15:57'] ['11:15:57'] ['11:15:57'] ['11:15:58'] […
13 окт '16 в 08:29
1
ответ
Быстрая обработка текста в python на датафрейме
Я работаю над данными электронной коммерции в Python. Я загрузил эти данные в python и преобразовал их во фрейм данных pandas. Теперь я хочу выполнить обработку текста на этих данных, например, удалить ненужные символы, стоп-слова, ввод текста и т. …
13 окт '17 в 14:23
0
ответов
Результаты Tesseract 4.0 OCR противоречивы
Мы пытаемся выполнить ocr для изображения с 2 символами, и команда tesseract возвращает неверный вывод. Очевидно, ожидаемый результат должен быть телевизор, но мы получаем AY. Результатом должен был стать S7 Ep7, но мы получаем [Sa aes]. Который, ка…
01 окт '18 в 21:44
1
ответ
Я хочу объединить части двух файлов блокнота в один файл
У меня есть два текстовых файла с именами BOOK1.txt и BOOK2.txt BOOK1.txt \id BookName \ide Encoding \rem Copyright Information \h Header \toc1 Topic1 \toc2 Topic2 \mt1 BookNameEng \mt1 BookNameHin \c 1 \p \v 1 This is first sentence \v 2 This is se…
22 июл '17 в 02:34
2
ответа
Замена строки на питоне
Я хочу изменить первый / E после / V на X и второй / E на Y и третий / E на Z в текстовых файлах. / V может сопровождаться словом, отличным от / E Количество / Е составляет от 1 до 3. Например, следующая строка АА / В + ВВ / Е +CC/ Е + ДД / Е следуе…
10 апр '18 в 09:10
3
ответа
Удаляя правильное значение с плавающей точкой из моей строки
Я использую python для обработки файлов pcap и ввода обработанных значений в текстовый файл. Текстовый файл имеет около 8000 строк, и иногда текстовый файл имеет строку, например 7.70.582 . В моей дальнейшей обработке текстового файла я разделяю фай…
10 ноя '17 в 20:25
2
ответа
Как я могу реализовать семантическую аннотацию в Python?
Семантическая аннотация - это процесс присоединения дополнительной информации к различным понятиям (например, людям, вещам, местам, организациям и т. Д.) В данном тексте или любом другом контенте. Например, семантически аннотировать выбранные концеп…
23 мар '17 в 07:30
1
ответ
Начало вложенного цикла от текущей позиции элемента до конца списка
У меня есть текстовый файл со следующей структурой: name1: sentence. [sentence. ...] # can be one or more name2: sentence. [sentence. ...] РЕДАКТИРОВАТЬ входной образец: Djohn: Hello. I am Djohn I am Djohn. Bot: Lorem ipsum dolor sit amet, consectet…
05 ноя '18 в 23:58
2
ответа
Мой лирический бот не отправляет строки на сервер
Я создал текстового бота на python. Я удаляю тексты песен с сайта genius.com, используя robobrowser, но не отправляю тексты в группу. if ( parser.getCommand() == 'GroupMESG'): if(parser.getPayload().lower()[:7]=='!lyrics'): #Send wait message in the…
15 ноя '16 в 08:28
1
ответ
Регулярное выражение для поиска определенного шаблона / текста в журналах
Я сейчас пишу Python script для фильтрации некоторых log файл и я хочу фильтровать текст с помощью регулярных выражений / некоторая библиотека (preferred regex как я хочу избежать зависимости от виртуальной среды). Ниже приведен текст / предложение,…
13 май '16 в 23:05
2
ответа
Разделение слов с помощью модуля nltk в Python
Я пытаюсь найти способ разделения слов в Python с помощью модуля nltk. Я не уверен, как достичь своей цели, учитывая необработанные данные, которые у меня есть, которые представляют собой список токенизированных слов, например ['usingvariousmolecula…
27 ноя '16 в 05:52
0
ответов
Разбор текстовых файлов и сохранение данных по некоторым заголовкам в базе данных
Я работаю над проектом Python(3.6), в котором мне нужно проанализировать текстовый файл, Моя конкретная проблема: у моего текстового файла есть некоторые заголовки, такие как Примеры, Ввод, Вывод, Пояснения, Заметки. Мне нужно проанализировать этот …
24 дек '17 в 08:08
0
ответов
Разбор длинных структурированных строк в python
Я пытаюсь извлечь данные из сотен текстовых строк, которые имеют следующую структуру: [{ "x": 63.43947250969682, "y": 88.9877012738793, "id": 281281, "p": "S.Jones", "h": false, "t": "SYD", "ts": 52, "qt": "Q1-0:52", "sp": 6, "g": false, "b": false,…
16 ноя '16 в 12:19
1
ответ
Python - быстрое решение для удаления повторяющихся строк в 2 файлах
У меня есть два файла: файл A и файл B. Я хотел бы получить номера строк всех строк в файле B, которые существуют в файле A. Но если строка действительно находится в файле A, я не буду идентифицировать ее как "существующую в файле A", если в ней так…
27 фев '18 в 09:55
0
ответов
Векторизация счетчика и векторизация TF-IDF одинаковы, когда существует только один документ?
Я получаю те же значения, когда у меня есть только один документ. скажем, у меня есть один документ, как показано ниже docs = [['my first document']] и я использую его для подгонки и преобразования, используя как sklearn's CountVectorizer а также Tf…
24 янв '19 в 10:29