Описание тега text-processing

Механизация создания или обработки электронного текста.
1 ответ

Различия в dtm различаются в зависимости от tf/tfidf, один и тот же корпус

Кто-нибудь может объяснить? Мое понимание: tf >= 0 (absolute frequency value) tfidf >= 0 (for negative idf, tf=0) sparse entry = 0 nonsparse entry > 0 Таким образом, точная пропорция должна быть одинаковой в двух DTM, созданных с помощью пр…
29 ноя '16 в 12:35
1 ответ

Разбить большой файл на файлы с заданным количеством строк на основе значения первого столбца

Я намеренно цитирую аналогичный вопрос здесь, хотя я не хотел бы, чтобы в столбце 1 было столько файлов, сколько есть разных значений. Например, из: A.B|100|20 A.B|101|20 A.X|101|30 A.X|1000|20 B.Y|1|1 B.Y|1|2 Я хотел бы разбить его на x файлов, каж…
04 май '17 в 13:44
3 ответа

Панды: извлекать определенный текст до или после дефиса, заканчивающийся указанными подстроками

Я очень новичок в pandas и есть data frame похож на ниже import pandas as pd df = pd.DataFrame({'id': ["1", "2", "3","4","5"], 'mill': ["Company A Palm Oil Mill – Special Company A of CC Ltd", "Company X POM – Company X Ltd","DDDD Mill – Company New…
02 апр '18 в 22:05
3 ответа

Python - обработка всех файлов в определенной папке

Я немного новичок в Python (это единственный язык программирования, который я знаю), и у меня есть куча спектральных данных, сохраненных в виде файлов.txt, где каждая строка - это точка данных, первое число - длина волны света используется и разделе…
3 ответа

Как я могу извлечь часть слов из файла, используя python3.6?

Я хочу извлечь конкретное слово из текстового файла.Вот пример текстового файла: https://drive.google.com/file/d/0BzQ6rtO2VN95d3NrTjktMExfNkU/view?usp=sharing Пожалуйста, просмотрите это.Я пытаюсь извлечь строку как: "Name": "the name infront of it"…
16 мар '17 в 12:10
1 ответ

Извлекать частичные дубликаты из списка списков; возвращать одно совпадение с записью происхождения каждого дубликата; питон

У меня есть список в следующем формате: L = ['apples oranges x', 'bananas apples y', 'apples oranges z'] Для каждого элемента в L, если item.split()[0:2] соответствует другому item.split()[0:2] (т. Е. "Яблочные апельсины" соответствуют "яблочным апе…
03 окт '11 в 04:35
1 ответ

Как удалить OCR артефакты из текста?

Сгенерированные OCR тексты иногда поставляются с такими артефактами, как этот: Diese grundsätzliche V erborgenheit Gottes, die sich nur dem N achfolger öffnet, ist mitdem Messiasgeheimnis gemeint Несмотря на то, что в качестве акцента используется и…
2 ответа

Определение пробела в начале строки - сценарий оболочки

У меня есть образец файла, как показано ниже. Есть ведущие пробелы. Есть ли способ обнаружить их и напечатать точный номер строки, который содержит пространство строки, используя сценарий оболочки? test space at back test space at front TAB at end T…
27 дек '16 в 09:21
3 ответа

tf-idf: я правильно понимаю?

Я заинтересован в кластеризации некоторых документов, и сейчас я рассматриваю возможность использования TF-IDF для этого. Если я не ошибаюсь, TF-IDF особенно используется для оценки релевантности документа по заданному запросу. Если у меня нет конкр…
1 ответ

Параллельно вводить данные в молоток

Я пытаюсь построить классификатор текста с помощью молотка. Данные как-то велики, поэтому я ищу способ, если возможно, запустить задачу "импорта" в нескольких потоках, потому что загрузка занимает много времени. Несколько вопросов здесь: Есть ли спо…
3 ответа

Удалить код между #if 0 и #endif при экспорте файла C в новый

Я хочу удалить все комментарии в toy.c файл. Из Удалить комментарии из кода C/C++ я вижу, что я мог бы использовать gcc -E -fpreprocessed -P -dD toy.c Но некоторые из моего кода (скажем, устаревшие функции, которые я не хочу компилировать) заключены…
09 сен '18 в 19:48
2 ответа

Реализация интеллектуального переноса слов

Я ищу реализацию или псевдокод, который описывает интеллектуальную функцию / алгоритм переноса слов. У меня есть линейная строка текста, которая не включает в себя какие-либо переводы строки, алгоритм должен вставить перевод строки, прежде чем она д…
13 май '14 в 21:18
1 ответ

Найти все строки с ключевым словом и извлечь номер

Я хотел бы найти строку, которая начинается со слова: "ОШИБКИ" и извлечь число из этой строки. Часть файла: ... [ERROR] No keywords and test cases defined in file File path: libraries_instances.robot TEST SUITES SUMMARY: ERRORS: 148 WARNINGS: 89 CS …
30 янв '18 в 11:21
2 ответа

Список неинтересных слов

[Предостережение] Это не вопрос программирования, но он возникает так часто при обработке языка, что я уверен, что он будет полезен для сообщества. У кого-нибудь есть хороший список неинтересных (английских) слов, которые были проверены более чем сл…
24 апр '10 в 21:49
1 ответ

Извлечь существительные фразы с использованием opennlp в Java

Я пытаюсь извлечь существительные фразы из предложений. Я использую opennlp librari "en-parser-chunking.bin". пример кода: ArrayList<opennlp.tools.parser.Parse> nounPhrases = new ArrayList<>(); searchmethod("what is the nickname of the B…
30 янв '15 в 12:14
0 ответов

Машинное обучение с использованием нескольких функций - обработка текста

У меня есть данные, как следующие: col1 col2 col3 2 14 text, text, some text Я прошел http://scikit-learn.org/stable/modules/preprocessing.html, но я мог только найти информацию для векторизации col3 и передать ее для классификации. В моем сценарии …
10 ответов

Код для определения языка программирования в текстовом файле

Я должен написать код, который при вводе текстового файла (исходный код) в качестве ввода будет выводить, какой это язык программирования. Это самое основное определение проблемы. Далее следуют дополнительные ограничения: Я должен написать это на C+…
1 ответ

Как я могу преобразовать уравнение MathType в формат MathML?

Я хочу преобразовать уравнение MathType, сохраненное в формате GIF, в MathML. Во-первых, я открыл эти GIF-файлы и сохранил их в MathType 6.7. В результате текст MathML вставляется в конец файлов GIF. Однако когда я извлек текст MathML из этих файлов…
06 июл '11 в 16:24
1 ответ

Пусть Python принимает предложение за предложением, а не слово за словом?

У меня есть ряд строк, и я хочу, чтобы Python брал это предложение за предложением при создании кортежа. Например: string = [("I am a good boy"), ("I am a good girl")] tuple = [("I am a good boy", -1), ("I am a good girl", -1)] Но, видимо, это делае…
12 авг '14 в 05:41
2 ответа

Обработка текста с использованием bash

У меня есть файл дампа vmstat, который имеет заголовок и значения в этом формате procs -----------memory---------- ---swap-- -----io---- --system-- -----cpu------ r b swpd free buff cache si so bi bo in cs us sy id wa st 12 0 5924396 20810624 548548…
12 ноя '11 в 18:14