Описание тега text-normalization
0
ответов
QWebView::findText не работает с объединением диакритических меток в Юникоде
Я использую QtWebKit (QWebView) для отображения текста, и я хочу реализовать в нем функцию поиска через QWebView::findText, Проблема заключается в том, что текст, который должен отображаться, содержит так называемые объединяющие диакритические знаки…
01 авг '12 в 10:20
2
ответа
Как правильно реализовать пароли Unicode?
Добавление поддержки паролей Unicode - важная функция, которую разработчики не должны игнорировать. Тем не менее, добавление поддержки Unicode в паролях является сложной задачей, потому что один и тот же текст может быть закодирован по-разному в Uni…
09 май '10 в 19:03
1
ответ
Каков наилучший способ поиска точного соответствия с помощью полнотекстового поиска Postgres?
У меня есть база данных Postgres с 1,5 миллионами записей. В моем приложении Ruby on Rails мне нужно найти statement_text поле (которое может содержать от 1 до сотен слов). Моя проблема: я знаю, что могу использовать pgSearch драгоценный камень для …
11 апр '16 в 18:09
2
ответа
Как мне получить предметы из StringScanner?
Я использую StringScanner Руби для нормализации текста на английском языке. def normalize text s = '' ss = StringScanner.new text while ! ss.eos? do s += ' ' if ss.scan(/\s+/) # mutiple whitespace => single space s += 'mice' if ss.scan(/\bmouses\…
14 ноя '13 в 22:11
0
ответов
Почему нормализация NFKC теряет информацию о верхнем и нижнем индексах?
Я заметил, что при нормализации строки Unicode к форме NFKC символы верхнего индекса, такие как ¹ (U + 00B9), ² (U + 00B2), ³ (U + 00B3) и т. Д. Преобразуются в соответствующую цифру ASCII (например, 1, 2, 3, так далее). Кто-нибудь знает обоснование…
26 апр '18 в 21:09
1
ответ
Нормализация текста в JS
Есть ли способ преобразовать строку в нормальную форму C в Javascript? Я знаю о unorm в node.js, но меня интересует JS в браузере, поэтому вполне приемлемы стандартные браузерные API.
25 апр '12 в 08:13
2
ответа
Нормализует текстовый файл из ненормальных строк?
У меня есть несколько текстовых файлов, в которых есть много новых строк между текстами, которые я хотел бы нормализовать, но, к примеру, нет никакого количества новых строк между текстами: Text Some text More text More more Итак, что я хотел измени…
13 май '12 в 13:00
1
ответ
Какая форма нормализации Юникода подходит для интеллектуального анализа текста?
Я много читал на тему Unicode, но я все еще очень озадачен нормализацией и ее различными формами. Короче говоря, я работаю над проектом, который включает извлечение текста из файлов PDF и выполнение некоторого семантического анализа текста. Мне удал…
27 июн '12 в 19:05
0
ответов
Нормализация Юникода в GWT
Возможный дубликат: Замените éàçè… на эквивалентное "eace" в GWT Есть ли какая-нибудь библиотека, которую я могу использовать для выполнения операций нормализации юникода в gwt? (чтобы контекстуально гарантировать, что латинский O, например, равен к…
26 апр '12 в 15:12
1
ответ
PHP объединяет маленькие слова в строку с preg_replace
В попытках нормализовать текст для нечеткого соответствия я пытаюсь объединить односимвольные слова (в основном части инициализма) в одно слово. Числа игнорируются. Вот где я нахожусь: $strings = array("CROWN ROYAL X R CANADIAN WHISKEY", "CROWN ROYA…
26 апр '15 в 18:22
1
ответ
Нормализация текстовых файлов и сопоставление с образцом
Я получил файл, написанный на языке метаязыка, в котором описана процедура, необходимая для проверки некоторых данных. Мне нужно создать функции проверки для проверки данных. Данные уже хранятся в структуре Шаги, которые я сделал: Разбить текст на с…
17 мар '16 в 19:05
2
ответа
Programatic Accent Reduction в JavaScript (он же нормализация текста или не акцентирование)
Мне нужно сравнить 2 строки как равные, например: Любек == Любек В JavaScript. Зачем? Ну, у меня есть поле автозаполнения, которое отправляется в Java-сервис с использованием Lucene, где географические названия хранятся естественным образом (как Люб…
22 окт '08 в 23:48
1
ответ
Нормализация текста Java ведет себя иначе после развертывания войны в Tomcat
Я пытаюсь нормализовать строку с символами ударения. Он отлично работает на моей intellij IDE, но когда я собираю его с помощью maven и разверну войну в tomcat, я получаю неожиданные результаты, подобные этому. Можете ли вы помочь? Java-код для норм…
27 фев '18 в 21:11
1
ответ
Нормализация строк в Neo4j Cypher - как?
Предпосылки проблемы: китайские слова состоят из символов, которые сами являются словами. У меня есть 3 узла, представляющих китайские слова, каждый со словом атрибута, имеющим строковые значения: узел (1): "а" узел (2): "b" узел (3): "ab" Вопрос 1:…
21 авг '13 в 08:03
1
ответ
Решать различные типы UTF дефисов в ruby 1.8.7
У нас есть различные типы дефисов / тире (в некотором тексте), заполненные в БД. Прежде чем сравнивать их с вводимым пользователем текстом, мне нужно нормализовать любой тип тире / дефисов до простых дефисов / минусов (ascii 45). Возможные тире, кот…
01 окт '10 в 05:51
1
ответ
Сравнение Charset
Мне нужна срочная помощь. Я не могу сравнить строки кодировки. Строка, записанная в базу данных table1: utf-8 charset но выглядит все еще странно: SADI Однако строка, записанная в table2 в той же базе данных, SADI что нормально. всякий раз, когда я …
13 янв '13 в 09:06
0
ответов
Какие языки можно токенизировать и нормализовать с помощью данного файла данных ICU?
Моя задача - определить "поддерживаемые языки" на основе файла данных ICU V8. Кажется, нет однозначного простого ответа, потому что поддержка языка зависит от интересующих функций. Меня интересует следующее: Токенизация (в словах в случае буквенных …
06 авг '20 в 18:57
0
ответов
Сохраняйте функции в файле csv при нормализации текста машинного обучения с помощью python
Я действительно новичок в питоне. Я пытаюсь разобрать свой набор данных конкретным способом. Итак, у меня есть файл.csv, например Это должно быть похоже Я использую этот блок кода для разбора слов; dataset = pandas.read_csv('/root/Desktop/%20/%1004.…
08 ноя '19 в 15:32
0
ответов
Определите часть речи числа
Для данного номера я хочу различать, является ли он номером телефона или количественным значением, в зависимости от контекста. Одна из идей, которые у меня сейчас есть, - это выяснить его часть речи, но у меня возникают проблемы с этим с помощью NLT…
29 июл '20 в 14:17
1
ответ
Невозможно установить text_normalizer в Windows
Я попытался установить text_normalizer через Anaconda Prompt (anaconda3) или Jupyter Notebook и продолжаю получать ту же ошибку Я вошел в систему как Admin. pip3 тоже не распознается. Не знаю, что еще попробовать. C:\Users\username>pip install te…
21 окт '19 в 02:01