Описание тега text-segmentation

Text segmentation is the process of dividing written text into meaningful units, such as words, sentences, or topics.
0 ответов

Сегментация связанных символов (Python, OpenCV)

Учитывая следующее изображение: Мой вопрос: как я могу сегментировать символы? Как я могу разделить каждый символ в одной области ROI? Возможно ли это даже при более или менее удобочитаемом использовании символов? Я нашел этот документ, и на страниц…
27 дек '17 в 12:00
1 ответ

Как удалить OCR артефакты из текста?

Сгенерированные OCR тексты иногда поставляются с такими артефактами, как этот: Diese grundsätzliche V erborgenheit Gottes, die sich nur dem N achfolger öffnet, ist mitdem Messiasgeheimnis gemeint Несмотря на то, что в качестве акцента используется и…
0 ответов

Рекурсивный X Y Cut

У меня возникают проблемы с пониманием алгоритма XY Cut, особенно для сегментации страницы на основе ограничивающих рамок. Я прочитал несколько статей, и это мое текущее понимание: Рассчитать вертикальную и горизонтальную проекцию (количество ограни…
06 июн '18 в 23:44
4 ответа

JavaScript: выберите предложение в абзаце

Я хочу создать инструмент текстовой аннотации. Предположим, у нас есть некоторые тексты, показанные как на картинке ниже, объективный эффект: после того, как пользователь щелкнет где-то в тексте, все предложение будет автоматически выделено и выделе…
01 июл '14 в 01:19
1 ответ

Разбить предложение на слова, разделенные пробелом

У меня есть панель запросов, которая в основном принимает входные данные; alpha = raw_input('Give me text: ') Если альфа - это предложение, я хочу, чтобы оно разбилось на слова и поместило их в список; word[1] = "What" word[2] = "is" word[3] = "Life…
29 июн '13 в 15:52
2 ответа

Библиотека Java, которая находит границы предложений

Кто-нибудь знает библиотеку Java, которая обрабатывает поиск границ предложений? Я думаю, что это будет умная реализация StringTokenizer, которая знает обо всех терминаторах предложений, которые могут использовать языки. Вот мой опыт работы с BreakI…
27 янв '09 в 13:13
2 ответа

Получение наименьшего количества подслов

Решение по Dávid Horváth адаптирован, чтобы вернуть самое маленькое слово: import java.util.*; public class SubWordsFinder { private Set<String> words; public SubWordsFinder(Set<String> words) { this.words = words; } public List<Strin…
09 апр '16 в 18:38
2 ответа

Извлечение контента из документов

Я хочу извлечь контент из резюме с различными разделами, такими как навыки, сертификаты, опыт работы и т. Д. С НЛП, и пометить их в соответствии с их категорией. Хотя я могу написать основные правила для извлечения текста на различных знаках препина…
1 ответ

Извлечение приговора из абзаца

С помощью strtok каждый пункт в параграфе можно получить индивидуально. Я хочу захватить все предложения на странице индивидуально для обработки их отдельно. Одним из решений является сохранение цикла и проверка каждого символа, если он . тогда я сч…
01 дек '13 в 06:53
1 ответ

Сегментация текста с использованием пакета слов Python

Folks, Я использую библиотеку Python wordsegment Грант Дженкс за последние пару часов. Библиотека прекрасно работает для любых неполных слов или разделения комбинированных слов, таких как e nd ==> end а также thisisacat ==> this is a cat, Я работаю …
30 ноя '18 в 00:12
5 ответов

Сегментация предложений с использованием Regex

У меня есть несколько текстовых (SMS) сообщений, и я хочу сегментировать их, используя точку ('.') В качестве разделителя. Я не могу обрабатывать следующие типы сообщений. Как я могу сегментировать эти сообщения с помощью Regex в Python. До сегмента…
19 июл '11 в 10:17
10 ответов

Питон: отрезать последнее слово предложения?

Какой лучший способ вырезать последнее слово из блока текста? Я могу думать о Разделите его на список (по пробелам) и удалите последний элемент, а затем повторно объедините список. Используйте регулярное выражение для замены последнего слова. В наст…
1 ответ

Что означает "компактная информация о раскрутке" в синтезаторе линкера

Когда я анализирую файл карты ссылок, который был сгенерирован xcode, в секции синтезатора компоновщика появляются данные, называемые "информация компактного размотки". compact unwind info 858.57KB 858572 Unchecked это займет около 858 КБ пространст…
07 дек '16 в 05:25
0 ответов

Динамическое ядро ​​для образа

Что касается извлечения текста, как динамически установить размер ядра для операции morphologyEx в cv2? В основном, я хочу извлечь слово из изображения в зависимости от различных типов шрифтов, размера. Мой код работает только для определенных изобр…
3 ответа

Поиск предложения в абзаце

Как я могу найти в абзаце одно или несколько предложений, используя PHP?
20 авг '10 в 05:42
6 ответов

Разделить строку на строку допустимых слов с помощью динамического программирования

Мне нужно найти алгоритм динамического программирования, чтобы решить эту проблему. Я пытался, но не мог понять это. Вот проблема: Вам дается строка из n символов s[1...n], которую вы считаете поврежденным текстовым документом, в котором все знаки п…
15 мар '11 в 11:02
1 ответ

Предложение совпадает с регулярным выражением

У меня есть текст, который разбивается на множество строк, без каких-либо конкретных форматов. Поэтому я решил line.strip('\n') для каждой строки. Затем я хочу разделить текст на предложения, используя маркер конца предложения . принимая во внимание…
04 авг '13 в 22:26
1 ответ

Почему бы Solr не индексировать некоторые сегментированные слова

Я пытаюсь проиндексировать некоторые китайские документы с помощью Solr, но похоже, что Solr не индексирует некоторые сегментированные слова. Анализатор, который я использую, является анализатором IK http://code.google.com/p/ik-analyzer/. Поле для и…
23 сен '12 в 04:18
0 ответов

НЛП: TypeError: уменьшить ожидаемые как минимум 2 аргумента, получил 1

import math, functools def splitPairs(word): return [(word[:i+1], word[i+1:]) for i in range(len(word))] def segment(word): if not word: return [] allSegmentations = [[first] + segment(rest) for (first, rest) in splitPairs(word)] return max(allSegme…
1 ответ

Сегментация текста на текстах, закрытых объектами

Я работаю над проектом по извлечению символов номерного знака. Я разработал метод MSER для сегментирования символов для номерных знаков со сложным фоном, и он работает хорошо. Проблема заключается в том, что в некоторых случаях, как показано ниже, р…
18 окт '16 в 12:08