Описание тега text-processing
Механизация создания или обработки электронного текста.
1
ответ
Различия в dtm различаются в зависимости от tf/tfidf, один и тот же корпус
Кто-нибудь может объяснить? Мое понимание: tf >= 0 (absolute frequency value) tfidf >= 0 (for negative idf, tf=0) sparse entry = 0 nonsparse entry > 0 Таким образом, точная пропорция должна быть одинаковой в двух DTM, созданных с помощью пр…
29 ноя '16 в 12:35
1
ответ
Разбить большой файл на файлы с заданным количеством строк на основе значения первого столбца
Я намеренно цитирую аналогичный вопрос здесь, хотя я не хотел бы, чтобы в столбце 1 было столько файлов, сколько есть разных значений. Например, из: A.B|100|20 A.B|101|20 A.X|101|30 A.X|1000|20 B.Y|1|1 B.Y|1|2 Я хотел бы разбить его на x файлов, каж…
04 май '17 в 13:44
3
ответа
Панды: извлекать определенный текст до или после дефиса, заканчивающийся указанными подстроками
Я очень новичок в pandas и есть data frame похож на ниже import pandas as pd df = pd.DataFrame({'id': ["1", "2", "3","4","5"], 'mill': ["Company A Palm Oil Mill – Special Company A of CC Ltd", "Company X POM – Company X Ltd","DDDD Mill – Company New…
02 апр '18 в 22:05
3
ответа
Python - обработка всех файлов в определенной папке
Я немного новичок в Python (это единственный язык программирования, который я знаю), и у меня есть куча спектральных данных, сохраненных в виде файлов.txt, где каждая строка - это точка данных, первое число - длина волны света используется и разделе…
20 июл '15 в 03:45
3
ответа
Как я могу извлечь часть слов из файла, используя python3.6?
Я хочу извлечь конкретное слово из текстового файла.Вот пример текстового файла: https://drive.google.com/file/d/0BzQ6rtO2VN95d3NrTjktMExfNkU/view?usp=sharing Пожалуйста, просмотрите это.Я пытаюсь извлечь строку как: "Name": "the name infront of it"…
16 мар '17 в 12:10
1
ответ
Извлекать частичные дубликаты из списка списков; возвращать одно совпадение с записью происхождения каждого дубликата; питон
У меня есть список в следующем формате: L = ['apples oranges x', 'bananas apples y', 'apples oranges z'] Для каждого элемента в L, если item.split()[0:2] соответствует другому item.split()[0:2] (т. Е. "Яблочные апельсины" соответствуют "яблочным апе…
03 окт '11 в 04:35
1
ответ
Как удалить OCR артефакты из текста?
Сгенерированные OCR тексты иногда поставляются с такими артефактами, как этот: Diese grundsätzliche V erborgenheit Gottes, die sich nur dem N achfolger öffnet, ist mitdem Messiasgeheimnis gemeint Несмотря на то, что в качестве акцента используется и…
30 июн '15 в 11:12
2
ответа
Определение пробела в начале строки - сценарий оболочки
У меня есть образец файла, как показано ниже. Есть ведущие пробелы. Есть ли способ обнаружить их и напечатать точный номер строки, который содержит пространство строки, используя сценарий оболочки? test space at back test space at front TAB at end T…
27 дек '16 в 09:21
3
ответа
tf-idf: я правильно понимаю?
Я заинтересован в кластеризации некоторых документов, и сейчас я рассматриваю возможность использования TF-IDF для этого. Если я не ошибаюсь, TF-IDF особенно используется для оценки релевантности документа по заданному запросу. Если у меня нет конкр…
29 мар '10 в 07:08
1
ответ
Параллельно вводить данные в молоток
Я пытаюсь построить классификатор текста с помощью молотка. Данные как-то велики, поэтому я ищу способ, если возможно, запустить задачу "импорта" в нескольких потоках, потому что загрузка занимает много времени. Несколько вопросов здесь: Есть ли спо…
28 мар '17 в 20:22
3
ответа
Удалить код между #if 0 и #endif при экспорте файла C в новый
Я хочу удалить все комментарии в toy.c файл. Из Удалить комментарии из кода C/C++ я вижу, что я мог бы использовать gcc -E -fpreprocessed -P -dD toy.c Но некоторые из моего кода (скажем, устаревшие функции, которые я не хочу компилировать) заключены…
09 сен '18 в 19:48
2
ответа
Реализация интеллектуального переноса слов
Я ищу реализацию или псевдокод, который описывает интеллектуальную функцию / алгоритм переноса слов. У меня есть линейная строка текста, которая не включает в себя какие-либо переводы строки, алгоритм должен вставить перевод строки, прежде чем она д…
13 май '14 в 21:18
1
ответ
Найти все строки с ключевым словом и извлечь номер
Я хотел бы найти строку, которая начинается со слова: "ОШИБКИ" и извлечь число из этой строки. Часть файла: ... [ERROR] No keywords and test cases defined in file File path: libraries_instances.robot TEST SUITES SUMMARY: ERRORS: 148 WARNINGS: 89 CS …
30 янв '18 в 11:21
2
ответа
Список неинтересных слов
[Предостережение] Это не вопрос программирования, но он возникает так часто при обработке языка, что я уверен, что он будет полезен для сообщества. У кого-нибудь есть хороший список неинтересных (английских) слов, которые были проверены более чем сл…
24 апр '10 в 21:49
1
ответ
Извлечь существительные фразы с использованием opennlp в Java
Я пытаюсь извлечь существительные фразы из предложений. Я использую opennlp librari "en-parser-chunking.bin". пример кода: ArrayList<opennlp.tools.parser.Parse> nounPhrases = new ArrayList<>(); searchmethod("what is the nickname of the B…
30 янв '15 в 12:14
0
ответов
Машинное обучение с использованием нескольких функций - обработка текста
У меня есть данные, как следующие: col1 col2 col3 2 14 text, text, some text Я прошел http://scikit-learn.org/stable/modules/preprocessing.html, но я мог только найти информацию для векторизации col3 и передать ее для классификации. В моем сценарии …
27 мар '18 в 20:15
10
ответов
Код для определения языка программирования в текстовом файле
Я должен написать код, который при вводе текстового файла (исходный код) в качестве ввода будет выводить, какой это язык программирования. Это самое основное определение проблемы. Далее следуют дополнительные ограничения: Я должен написать это на C+…
30 авг '10 в 12:18
1
ответ
Как я могу преобразовать уравнение MathType в формат MathML?
Я хочу преобразовать уравнение MathType, сохраненное в формате GIF, в MathML. Во-первых, я открыл эти GIF-файлы и сохранил их в MathType 6.7. В результате текст MathML вставляется в конец файлов GIF. Однако когда я извлек текст MathML из этих файлов…
06 июл '11 в 16:24
1
ответ
Пусть Python принимает предложение за предложением, а не слово за словом?
У меня есть ряд строк, и я хочу, чтобы Python брал это предложение за предложением при создании кортежа. Например: string = [("I am a good boy"), ("I am a good girl")] tuple = [("I am a good boy", -1), ("I am a good girl", -1)] Но, видимо, это делае…
12 авг '14 в 05:41
2
ответа
Обработка текста с использованием bash
У меня есть файл дампа vmstat, который имеет заголовок и значения в этом формате procs -----------memory---------- ---swap-- -----io---- --system-- -----cpu------ r b swpd free buff cache si so bi bo in cs us sy id wa st 12 0 5924396 20810624 548548…
12 ноя '11 в 18:14