Описание тега text-normalization

0 ответов

QWebView::findText не работает с объединением диакритических меток в Юникоде

Я использую QtWebKit (QWebView) для отображения текста, и я хочу реализовать в нем функцию поиска через QWebView::findText, Проблема заключается в том, что текст, который должен отображаться, содержит так называемые объединяющие диакритические знаки…
2 ответа

Как правильно реализовать пароли Unicode?

Добавление поддержки паролей Unicode - важная функция, которую разработчики не должны игнорировать. Тем не менее, добавление поддержки Unicode в паролях является сложной задачей, потому что один и тот же текст может быть закодирован по-разному в Uni…
1 ответ

Каков наилучший способ поиска точного соответствия с помощью полнотекстового поиска Postgres?

У меня есть база данных Postgres с 1,5 миллионами записей. В моем приложении Ruby on Rails мне нужно найти statement_text поле (которое может содержать от 1 до сотен слов). Моя проблема: я знаю, что могу использовать pgSearch драгоценный камень для …
2 ответа

Как мне получить предметы из StringScanner?

Я использую StringScanner Руби для нормализации текста на английском языке. def normalize text s = '' ss = StringScanner.new text while ! ss.eos? do s += ' ' if ss.scan(/\s+/) # mutiple whitespace => single space s += 'mice' if ss.scan(/\bmouses\…
14 ноя '13 в 22:11
0 ответов

Почему нормализация NFKC теряет информацию о верхнем и нижнем индексах?

Я заметил, что при нормализации строки Unicode к форме NFKC символы верхнего индекса, такие как ¹ (U + 00B9), ² (U + 00B2), ³ (U + 00B3) и т. Д. Преобразуются в соответствующую цифру ASCII (например, 1, 2, 3, так далее). Кто-нибудь знает обоснование…
26 апр '18 в 21:09
1 ответ

Нормализация текста в JS

Есть ли способ преобразовать строку в нормальную форму C в Javascript? Я знаю о unorm в node.js, но меня интересует JS в браузере, поэтому вполне приемлемы стандартные браузерные API.
2 ответа

Нормализует текстовый файл из ненормальных строк?

У меня есть несколько текстовых файлов, в которых есть много новых строк между текстами, которые я хотел бы нормализовать, но, к примеру, нет никакого количества новых строк между текстами: Text Some text More text More more Итак, что я хотел измени…
1 ответ

Какая форма нормализации Юникода подходит для интеллектуального анализа текста?

Я много читал на тему Unicode, но я все еще очень озадачен нормализацией и ее различными формами. Короче говоря, я работаю над проектом, который включает извлечение текста из файлов PDF и выполнение некоторого семантического анализа текста. Мне удал…
0 ответов

Нормализация Юникода в GWT

Возможный дубликат: Замените éàçè… на эквивалентное "eace" в GWT Есть ли какая-нибудь библиотека, которую я могу использовать для выполнения операций нормализации юникода в gwt? (чтобы контекстуально гарантировать, что латинский O, например, равен к…
1 ответ

PHP объединяет маленькие слова в строку с preg_replace

В попытках нормализовать текст для нечеткого соответствия я пытаюсь объединить односимвольные слова (в основном части инициализма) в одно слово. Числа игнорируются. Вот где я нахожусь: $strings = array("CROWN ROYAL X R CANADIAN WHISKEY", "CROWN ROYA…
1 ответ

Нормализация текстовых файлов и сопоставление с образцом

Я получил файл, написанный на языке метаязыка, в котором описана процедура, необходимая для проверки некоторых данных. Мне нужно создать функции проверки для проверки данных. Данные уже хранятся в структуре Шаги, которые я сделал: Разбить текст на с…
2 ответа

Programatic Accent Reduction в JavaScript (он же нормализация текста или не акцентирование)

Мне нужно сравнить 2 строки как равные, например: Любек == Любек В JavaScript. Зачем? Ну, у меня есть поле автозаполнения, которое отправляется в Java-сервис с использованием Lucene, где географические названия хранятся естественным образом (как Люб…
1 ответ

Нормализация текста Java ведет себя иначе после развертывания войны в Tomcat

Я пытаюсь нормализовать строку с символами ударения. Он отлично работает на моей intellij IDE, но когда я собираю его с помощью maven и разверну войну в tomcat, я получаю неожиданные результаты, подобные этому. Можете ли вы помочь? Java-код для норм…
27 фев '18 в 21:11
1 ответ

Нормализация строк в Neo4j Cypher - как?

Предпосылки проблемы: китайские слова состоят из символов, которые сами являются словами. У меня есть 3 узла, представляющих китайские слова, каждый со словом атрибута, имеющим строковые значения: узел (1): "а" узел (2): "b" узел (3): "ab" Вопрос 1:…
1 ответ

Решать различные типы UTF дефисов в ruby ​​1.8.7

У нас есть различные типы дефисов / тире (в некотором тексте), заполненные в БД. Прежде чем сравнивать их с вводимым пользователем текстом, мне нужно нормализовать любой тип тире / дефисов до простых дефисов / минусов (ascii 45). Возможные тире, кот…
1 ответ

Сравнение Charset

Мне нужна срочная помощь. Я не могу сравнить строки кодировки. Строка, записанная в базу данных table1: utf-8 charset но выглядит все еще странно: SADI Однако строка, записанная в table2 в той же базе данных, SADI что нормально. всякий раз, когда я …
0 ответов

Какие языки можно токенизировать и нормализовать с помощью данного файла данных ICU?

Моя задача - определить "поддерживаемые языки" на основе файла данных ICU V8. Кажется, нет однозначного простого ответа, потому что поддержка языка зависит от интересующих функций. Меня интересует следующее: Токенизация (в словах в случае буквенных …
0 ответов

Сохраняйте функции в файле csv при нормализации текста машинного обучения с помощью python

Я действительно новичок в питоне. Я пытаюсь разобрать свой набор данных конкретным способом. Итак, у меня есть файл.csv, например Это должно быть похоже Я использую этот блок кода для разбора слов; dataset = pandas.read_csv('/root/Desktop/%20/%1004.…
0 ответов

Определите часть речи числа

Для данного номера я хочу различать, является ли он номером телефона или количественным значением, в зависимости от контекста. Одна из идей, которые у меня сейчас есть, - это выяснить его часть речи, но у меня возникают проблемы с этим с помощью NLT…
29 июл '20 в 14:17
1 ответ

Невозможно установить text_normalizer в Windows

Я попытался установить text_normalizer через Anaconda Prompt (anaconda3) или Jupyter Notebook и продолжаю получать ту же ошибку Я вошел в систему как Admin. pip3 тоже не распознается. Не знаю, что еще попробовать. C:\Users\username>pip install te…
21 окт '19 в 02:01