Описание тега case-folding

Вопросы, касающиеся сравнения без учета регистра и использования строк.
2 ответа

Нормализация необходима после складывания корпуса

Учитывая нормализованную строку NFC, применяя к этой строке полное сворачивание регистра, могу ли я предположить, что результат также нормализован NFC? Я не понимаю, что стандарт Unicode пытается сказать мне в этой цитате: Нормализация также взаимод…
2 ответа

Python ищет более простой способ сократить мой.casefold(). Count()

Мой код Python работает нормально, но код выглядит немного утомительно и грязно. Мне было интересно, есть ли более простой способ написать это. У меня есть текстовый файл, и я должен выяснить, можно ли найти буквы "aardvark" внутри строки. if i.case…
14 сен '17 в 00:39
3 ответа

python: нижний () немецкий умлаутс

У меня проблема с преобразованием прописных букв с умлаутами в строчные. print("ÄÖÜAOU".lower()) A, O и U преобразуются правильно, но Ä,Ö и Ü остаются заглавными. Есть идеи? Первая проблема исправлена ​​с помощью.decode('utf-8'), но у меня все еще е…
2 ответа

При условии Unicode и нечувствительности к регистру, шаблон ".." должен соответствовать "FfIsS"?

Звучит как шутка, но я могу это доказать. Предположения: Точка соответствует любому отдельному символу. Совпадения с учетом регистра символов s если и только если это соответствует s.toUpperCase(), Все следующее довольно логично и верно в Java: "ffi".…
1 ответ

Golang Complex Fold Grüßen

Я пытаюсь добиться того, чтобы сворачивание регистра было согласованным между тремя языками (C++, Python и Golang), потому что мне нужно иметь возможность проверить, соответствует ли строка сохраненному, независимо от языка. Примером проблемного сло…
28 мар '17 в 02:59
2 ответа

На какие типы свертывания дел ссылается U_FOLD_CASE_DEFAULT?

Я реализую сворачивание дела в функции для JavaScript. Я сгенерировал код из файла CaseFolding.txt необходимый код JavaScript. Документация для U_FOLD_CASE_DEFAULT говорит, что ICU будет использовать: сопоставления по умолчанию, определенные в CaseF…
14 сен '15 в 17:54
2 ответа

Как мне удалить одну строку из начала другой, если я знаю, что более длинная строка соответствует регистронезависимому?

Предположим, у меня есть рабочий процесс, который включает проверку начала длинной строки (LSскажем) чтобы увидеть, начинается ли оно с более короткой строки SS, Если это произойдет, я отрезаю соответствующую часть LS и сделай что-нибудь с оставшейс…
24 фев '15 в 15:47
2 ответа

При использовании casefold() я получаю сообщение об ошибке, так как " AttributeError: у объекта 'str' нет атрибута 'casefold' "

vowels = 'aeiou' # take input from the user ip_str = raw_input("Enter a string: ") # make it suitable for caseless comparisions ip_str = ip_str.casefold() # make a dictionary with each vowel a key and value 0 count = {}.fromkeys(vowels,0) # count th…
19 май '15 в 14:08
1 ответ

Максимальная длина строки после выполнения переноса в юникоде

Мне нужно выполнить casefolding для набора строк, и я должен заранее убедиться, что они не превысят заданную длину после того, как это будет сделано (для жесткого кодирования необходимого размера буфера). Проблема в том, что длина строки (в кодовых …
2 ответа

Unicode чехол складывается в верхний регистр

Я пытаюсь реализовать библиотеку для чтения файлов формата Microsoft CFB (Compound File Binary) в соответствии с официальной спецификацией этого формата. Спецификация доступна с этого сайта. В двух словах - некоторые структуры файла хранятся в красн…
24 ноя '13 в 21:52
1 ответ

Должен ли я использовать Python casefold?

Недавно читал о casefold и сравнениях строк при игнорировании регистра. Я читал, что стандарт MSDN должен использовать InvariantCulture и определенно избегать использования нижнего регистра. Тем не менее, casefold из того, что я прочитал, похоже на …
31 окт '16 в 18:21
2 ответа

Складной футляр для ускорения сравнения

"strasse".Equals("STRAße",StringComparison.InvariantCultureIgnoreCase) Это возвращает истину. Что правильно. К сожалению, когда я сохраняю один из них в postgres, он думает, что они не совпадают при выполнении нечувствительного к регистру соответств…
05 апр '18 в 20:01
1 ответ

Как сделать toLowerCase() и toUpperCase() согласованными в разных браузерах

Существуют ли реализации JavaScript с множественным заполнением для String.toLowerCase() и String.toUpperCase() или других методов в JavaScript, которые могут работать с символами Unicode и являются совместимыми в разных браузерах? Справочная информ…
3 ответа

Шаблон регулярных выражений с Unicode не выполняет сворачивание регистра

В C# кажется, что Grüsse а также Grüße считаются равными в большинстве случаев, как это объясняется на этой хорошей веб-странице. Я пытаюсь найти подобное поведение в Java - очевидно, не в java.lang.String, Я думал, что мне повезло с java.regex.Patt…
13 янв '17 в 14:46
0 ответов

Обнаружение критических изменений нормализации в Unicode через UCD

Unicode подчеркивает, что программное обеспечение должно быть максимально совместимым с продвижением вперед, по умолчанию обрабатывая неназначенные символы, как если бы они были кодовой точкой частного использования. В большинстве случаев это хорошо…
2 ответа

Почему верхнего регистра недостаточно для сравнения без учета регистра?

Чтобы сравнить две строки без учета регистра, один из правильных способов - сначала свернуть их по регистру. Чем это лучше, чем верхний или нижний кожух? Я нахожу в Интернете примеры, когда нижний регистр не работает. Например, «σ» и «ς» (две формы …
15 апр '21 в 13:29
1 ответ

Самый простой способ проверить равенство casefolded для двух pathlib.Paths?

В Python 3.7 или выше я хочу протестировать два объекта pathlib.Path p1 а также p2для равенства в свернутом виде. Написано я хочу результат str(p1).casefold() == str(p2).casefold() Есть ли для этого встроенная функция или оператор? Или более простой…
06 ноя '21 в 12:48
1 ответ

Включает ли поддержка юникода регулярных выражений Java полное сворачивание регистра?

Предполагая эти определения строк: String lowerStream = "flüßchen"; String upperStream = "FLÜSSCHEN"; String streamPattern = ".*(ss).*"; Используя этот шаблон: Pattern pattern = Pattern.compile(streamPattern, Pattern.CASE_INSENSITIVE | Pattern.UNICOD…
06 дек '21 в 19:24
0 ответов

Как удалить все знаки препинания в текстовом файле, кроме точки и знаков между двумя числами / целыми числами?

Я делаю предварительную обработку для NER в новостях о коррупции с помощью python. Мне нужно удалить все знаки препинания в моих данных, кроме точек (.), Которые разделяют предложения (так что я могу использовать теги pos для каждого предложения поз…
0 ответов

Фильтрация двух столбцов фрейма данных с фильтром

У меня есть датафрейм следующего типа: df = pd.DataFrame( { "Name": [ [ " Verbundmörtel ", " Compound Mortar ", " Malta per stucchi e per incollaggio ", ], [" StoLevell In Absolute ", " StoLevell In Absolute "], [ " Anhydrit-FlieÃ\x9festrich ", " A…
11 мар '22 в 17:06