Описание тега case-folding
Вопросы, касающиеся сравнения без учета регистра и использования строк.
2
ответа
Нормализация необходима после складывания корпуса
Учитывая нормализованную строку NFC, применяя к этой строке полное сворачивание регистра, могу ли я предположить, что результат также нормализован NFC? Я не понимаю, что стандарт Unicode пытается сказать мне в этой цитате: Нормализация также взаимод…
08 авг '13 в 06:38
2
ответа
Python ищет более простой способ сократить мой.casefold(). Count()
Мой код Python работает нормально, но код выглядит немного утомительно и грязно. Мне было интересно, есть ли более простой способ написать это. У меня есть текстовый файл, и я должен выяснить, можно ли найти буквы "aardvark" внутри строки. if i.case…
14 сен '17 в 00:39
3
ответа
python: нижний () немецкий умлаутс
У меня проблема с преобразованием прописных букв с умлаутами в строчные. print("ÄÖÜAOU".lower()) A, O и U преобразуются правильно, но Ä,Ö и Ü остаются заглавными. Есть идеи? Первая проблема исправлена с помощью.decode('utf-8'), но у меня все еще е…
24 фев '13 в 14:43
2
ответа
При условии Unicode и нечувствительности к регистру, шаблон ".." должен соответствовать "FfIsS"?
Звучит как шутка, но я могу это доказать. Предположения: Точка соответствует любому отдельному символу. Совпадения с учетом регистра символов s если и только если это соответствует s.toUpperCase(), Все следующее довольно логично и верно в Java: "ffi".…
02 окт '13 в 10:57
1
ответ
Golang Complex Fold Grüßen
Я пытаюсь добиться того, чтобы сворачивание регистра было согласованным между тремя языками (C++, Python и Golang), потому что мне нужно иметь возможность проверить, соответствует ли строка сохраненному, независимо от языка. Примером проблемного сло…
28 мар '17 в 02:59
2
ответа
На какие типы свертывания дел ссылается U_FOLD_CASE_DEFAULT?
Я реализую сворачивание дела в функции для JavaScript. Я сгенерировал код из файла CaseFolding.txt необходимый код JavaScript. Документация для U_FOLD_CASE_DEFAULT говорит, что ICU будет использовать: сопоставления по умолчанию, определенные в CaseF…
14 сен '15 в 17:54
2
ответа
Как мне удалить одну строку из начала другой, если я знаю, что более длинная строка соответствует регистронезависимому?
Предположим, у меня есть рабочий процесс, который включает проверку начала длинной строки (LSскажем) чтобы увидеть, начинается ли оно с более короткой строки SS, Если это произойдет, я отрезаю соответствующую часть LS и сделай что-нибудь с оставшейс…
24 фев '15 в 15:47
2
ответа
При использовании casefold() я получаю сообщение об ошибке, так как " AttributeError: у объекта 'str' нет атрибута 'casefold' "
vowels = 'aeiou' # take input from the user ip_str = raw_input("Enter a string: ") # make it suitable for caseless comparisions ip_str = ip_str.casefold() # make a dictionary with each vowel a key and value 0 count = {}.fromkeys(vowels,0) # count th…
19 май '15 в 14:08
1
ответ
Максимальная длина строки после выполнения переноса в юникоде
Мне нужно выполнить casefolding для набора строк, и я должен заранее убедиться, что они не превысят заданную длину после того, как это будет сделано (для жесткого кодирования необходимого размера буфера). Проблема в том, что длина строки (в кодовых …
20 май '14 в 12:07
2
ответа
Unicode чехол складывается в верхний регистр
Я пытаюсь реализовать библиотеку для чтения файлов формата Microsoft CFB (Compound File Binary) в соответствии с официальной спецификацией этого формата. Спецификация доступна с этого сайта. В двух словах - некоторые структуры файла хранятся в красн…
24 ноя '13 в 21:52
1
ответ
Должен ли я использовать Python casefold?
Недавно читал о casefold и сравнениях строк при игнорировании регистра. Я читал, что стандарт MSDN должен использовать InvariantCulture и определенно избегать использования нижнего регистра. Тем не менее, casefold из того, что я прочитал, похоже на …
31 окт '16 в 18:21
2
ответа
Складной футляр для ускорения сравнения
"strasse".Equals("STRAße",StringComparison.InvariantCultureIgnoreCase) Это возвращает истину. Что правильно. К сожалению, когда я сохраняю один из них в postgres, он думает, что они не совпадают при выполнении нечувствительного к регистру соответств…
05 апр '18 в 20:01
1
ответ
Как сделать toLowerCase() и toUpperCase() согласованными в разных браузерах
Существуют ли реализации JavaScript с множественным заполнением для String.toLowerCase() и String.toUpperCase() или других методов в JavaScript, которые могут работать с символами Unicode и являются совместимыми в разных браузерах? Справочная информ…
26 ноя '18 в 19:48
3
ответа
Шаблон регулярных выражений с Unicode не выполняет сворачивание регистра
В C# кажется, что Grüsse а также Grüße считаются равными в большинстве случаев, как это объясняется на этой хорошей веб-странице. Я пытаюсь найти подобное поведение в Java - очевидно, не в java.lang.String, Я думал, что мне повезло с java.regex.Patt…
13 янв '17 в 14:46
0
ответов
Обнаружение критических изменений нормализации в Unicode через UCD
Unicode подчеркивает, что программное обеспечение должно быть максимально совместимым с продвижением вперед, по умолчанию обрабатывая неназначенные символы, как если бы они были кодовой точкой частного использования. В большинстве случаев это хорошо…
29 ноя '20 в 04:53
2
ответа
Почему верхнего регистра недостаточно для сравнения без учета регистра?
Чтобы сравнить две строки без учета регистра, один из правильных способов - сначала свернуть их по регистру. Чем это лучше, чем верхний или нижний кожух? Я нахожу в Интернете примеры, когда нижний регистр не работает. Например, «σ» и «ς» (две формы …
15 апр '21 в 13:29
1
ответ
Самый простой способ проверить равенство casefolded для двух pathlib.Paths?
В Python 3.7 или выше я хочу протестировать два объекта pathlib.Path p1 а также p2для равенства в свернутом виде. Написано я хочу результат str(p1).casefold() == str(p2).casefold() Есть ли для этого встроенная функция или оператор? Или более простой…
06 ноя '21 в 12:48
1
ответ
Включает ли поддержка юникода регулярных выражений Java полное сворачивание регистра?
Предполагая эти определения строк: String lowerStream = "flüßchen"; String upperStream = "FLÜSSCHEN"; String streamPattern = ".*(ss).*"; Используя этот шаблон: Pattern pattern = Pattern.compile(streamPattern, Pattern.CASE_INSENSITIVE | Pattern.UNICOD…
06 дек '21 в 19:24
0
ответов
Как удалить все знаки препинания в текстовом файле, кроме точки и знаков между двумя числами / целыми числами?
Я делаю предварительную обработку для NER в новостях о коррупции с помощью python. Мне нужно удалить все знаки препинания в моих данных, кроме точек (.), Которые разделяют предложения (так что я могу использовать теги pos для каждого предложения поз…
09 дек '21 в 13:26
0
ответов
Фильтрация двух столбцов фрейма данных с фильтром
У меня есть датафрейм следующего типа: df = pd.DataFrame( { "Name": [ [ " Verbundmörtel ", " Compound Mortar ", " Malta per stucchi e per incollaggio ", ], [" StoLevell In Absolute ", " StoLevell In Absolute "], [ " Anhydrit-FlieÃ\x9festrich ", " A…
11 мар '22 в 17:06