Описание тега text-normalization

Вопросы с тегом

0 ответов

QWebView::findText не работает с объединением диакритических меток в Юникоде

Я использую QtWebKit (QWebView) для отображения текста, и я хочу реализовать в нем функцию поиска через QWebView::findText, Проблема заключается в том, что текст, который должен отображаться, содержит так называемые объединяющие диакритические знаки…

01 авг '12 в 10:20

2 ответа

Как правильно реализовать пароли Unicode?

Добавление поддержки паролей Unicode - важная функция, которую разработчики не должны игнорировать. Тем не менее, добавление поддержки Unicode в паролях является сложной задачей, потому что один и тот же текст может быть закодирован по-разному в Uni…

unicode passwords normalization unicode-normalization text-normalization

09 май '10 в 19:03

1 ответ

Каков наилучший способ поиска точного соответствия с помощью полнотекстового поиска Postgres?

У меня есть база данных Postgres с 1,5 миллионами записей. В моем приложении Ruby on Rails мне нужно найти statement_text поле (которое может содержать от 1 до сотен слов). Моя проблема: я знаю, что могу использовать pgSearch драгоценный камень для …

ruby-on-rails postgresql full-text-search text-normalization

11 апр '16 в 18:09

2 ответа

Как мне получить предметы из StringScanner?

Я использую StringScanner Руби для нормализации текста на английском языке. def normalize text s = '' ss = StringScanner.new text while ! ss.eos? do s += ' ' if ss.scan(/\s+/) # mutiple whitespace => single space s += 'mice' if ss.scan(/\bmouses\…

ruby normalization text-normalization

14 ноя '13 в 22:11

0 ответов

Почему нормализация NFKC теряет информацию о верхнем и нижнем индексах?

Я заметил, что при нормализации строки Unicode к форме NFKC символы верхнего индекса, такие как ¹ (U + 00B9), ² (U + 00B2), ³ (U + 00B3) и т. Д. Преобразуются в соответствующую цифру ASCII (например, 1, 2, 3, так далее). Кто-нибудь знает обоснование…

unicode text-normalization

26 апр '18 в 21:09

1 ответ

Нормализация текста в JS

Есть ли способ преобразовать строку в нормальную форму C в Javascript? Я знаю о unorm в node.js, но меня интересует JS в браузере, поэтому вполне приемлемы стандартные браузерные API.

javascript unicode normalization unicode-normalization text-normalization

25 апр '12 в 08:13

2 ответа

Нормализует текстовый файл из ненормальных строк?

У меня есть несколько текстовых файлов, в которых есть много новых строк между текстами, которые я хотел бы нормализовать, но, к примеру, нет никакого количества новых строк между текстами: Text Some text More text More more Итак, что я хотел измени…

c# .net-4.0 newline normalization text-normalization

13 май '12 в 13:00

1 ответ

Какая форма нормализации Юникода подходит для интеллектуального анализа текста?

Я много читал на тему Unicode, но я все еще очень озадачен нормализацией и ее различными формами. Короче говоря, я работаю над проектом, который включает извлечение текста из файлов PDF и выполнение некоторого семантического анализа текста. Мне удал…

python unicode normalization unicode-normalization text-normalization

27 июн '12 в 19:05

0 ответов

Нормализация Юникода в GWT

Возможный дубликат: Замените éàçè… на эквивалентное "eace" в GWT Есть ли какая-нибудь библиотека, которую я могу использовать для выполнения операций нормализации юникода в gwt? (чтобы контекстуально гарантировать, что латинский O, например, равен к…

unicode gwt normalization unicode-normalization text-normalization

26 апр '12 в 15:12

1 ответ

PHP объединяет маленькие слова в строку с preg_replace

В попытках нормализовать текст для нечеткого соответствия я пытаюсь объединить односимвольные слова (в основном части инициализма) в одно слово. Числа игнорируются. Вот где я нахожусь: $strings = array("CROWN ROYAL X R CANADIAN WHISKEY", "CROWN ROYA…

php preg-replace normalization string-matching text-normalization

26 апр '15 в 18:22

1 ответ

Нормализация текстовых файлов и сопоставление с образцом

Я получил файл, написанный на языке метаязыка, в котором описана процедура, необходимая для проверки некоторых данных. Мне нужно создать функции проверки для проверки данных. Данные уже хранятся в структуре Шаги, которые я сделал: Разбить текст на с…

regex text pattern-matching normalization text-normalization

17 мар '16 в 19:05

2 ответа

Programatic Accent Reduction в JavaScript (он же нормализация текста или не акцентирование)

Мне нужно сравнить 2 строки как равные, например: Любек == Любек В JavaScript. Зачем? Ну, у меня есть поле автозаполнения, которое отправляется в Java-сервис с использованием Lucene, где географические названия хранятся естественным образом (как Люб…

javascript unicode normalization accent-insensitive text-normalization

22 окт '08 в 23:48

1 ответ

Нормализация текста Java ведет себя иначе после развертывания войны в Tomcat

Я пытаюсь нормализовать строку с символами ударения. Он отлично работает на моей intellij IDE, но когда я собираю его с помощью maven и разверну войну в tomcat, я получаю неожиданные результаты, подобные этому. Можете ли вы помочь? Java-код для норм…

diacritics unaccent text-normalization

27 фев '18 в 21:11

1 ответ

Нормализация строк в Neo4j Cypher - как?

Предпосылки проблемы: китайские слова состоят из символов, которые сами являются словами. У меня есть 3 узла, представляющих китайские слова, каждый со словом атрибута, имеющим строковые значения: узел (1): "а" узел (2): "b" узел (3): "ab" Вопрос 1:…

parsing neo4j cypher normalization text-normalization

21 авг '13 в 08:03

1 ответ

Решать различные типы UTF дефисов в ruby 1.8.7

У нас есть различные типы дефисов / тире (в некотором тексте), заполненные в БД. Прежде чем сравнивать их с вводимым пользователем текстом, мне нужно нормализовать любой тип тире / дефисов до простых дефисов / минусов (ascii 45). Возможные тире, кот…

ruby-on-rails ruby unicode hyphen text-normalization

01 окт '10 в 05:51

1 ответ

Сравнение Charset

Мне нужна срочная помощь. Я не могу сравнить строки кодировки. Строка, записанная в базу данных table1: utf-8 charset но выглядит все еще странно: ＳＡＤＩ Однако строка, записанная в table2 в той же базе данных, SADI что нормально. всякий раз, когда я …

unicode character-encoding normalization unicode-normalization text-normalization

13 янв '13 в 09:06

0 ответов

Какие языки можно токенизировать и нормализовать с помощью данного файла данных ICU?

Моя задача - определить "поддерживаемые языки" на основе файла данных ICU V8. Кажется, нет однозначного простого ответа, потому что поддержка языка зависит от интересующих функций. Меня интересует следующее: Токенизация (в словах в случае буквенных …

v8 tokenize icu text-normalization human-language

06 авг '20 в 18:57

0 ответов

Сохраняйте функции в файле csv при нормализации текста машинного обучения с помощью python

Я действительно новичок в питоне. Я пытаюсь разобрать свой набор данных конкретным способом. Итак, у меня есть файл.csv, например Это должно быть похоже Я использую этот блок кода для разбора слов; dataset = pandas.read_csv('/root/Desktop/%20/%1004.…

python python-3.x machine-learning text-normalization

08 ноя '19 в 15:32

0 ответов

Определите часть речи числа

Для данного номера я хочу различать, является ли он номером телефона или количественным значением, в зависимости от контекста. Одна из идей, которые у меня сейчас есть, - это выяснить его часть речи, но у меня возникают проблемы с этим с помощью NLT…

python nlp nltk text-normalization

29 июл '20 в 14:17

1 ответ

Невозможно установить text_normalizer в Windows

Я попытался установить text_normalizer через Anaconda Prompt (anaconda3) или Jupyter Notebook и продолжаю получать ту же ошибку Я вошел в систему как Admin. pip3 тоже не распознается. Не знаю, что еще попробовать. C:\Users\username>pip install te…

python python-3.x text-normalization

21 окт '19 в 02:01