Как вручную выбрать элементы из списка, закодированного в utf-8?
У меня есть список, который выглядит так:
['क', ',', 'म', '-', 'ह', 'औ', "'",') ',' (',' स ','. ',' ए ',', ', 'श', 'भ', 'ल', 'य', 'न', 'इ', '}', 'ज', 'र', 'उ', 'ग', 'द', 'त', 't', 'थ', 'ब', 'अ', 'ई', 'o', '%', 'व', 'a', 'आ', '#', ' - ', 'q', 'i', '।', '/', 'ओ', 'फ', 'f', 's', 'u', '!', '?', 'ध', 'ऐ', '१', '+', '२', 'p', 'd', 'j', 'च', 'ऑ', 'b', 'छ', 'ऊ', 'l', 'e', 'w', 'ख', 'घ', 'c', 'r', 'y', 'g', 'n', 'ट', 'ड', 'x', '५', '"', '३', 'm', 'ठ', 'h', '४', '•', '$', '>', 'v', 'z', ', ', '७', ' - ', '६', 'k', 'ढ', '८', '&', 'ऋ', '\', '९', '✉', '०', '॥', '°', '^', '~', '-', '·', 'ॐ', '×', '_', '→', '☆', '£', '€', 'α', ' '', 'ष', '±', '†', 'β', '@', '\u200e', '░', '¬', '₹', 'π', '½', '…', 'ऍ', 'º', 'σ', 'γ', 'δ', 'ऽ', '0', '²', 'ङ', 'ॠ', 'а', '≥', 'ः', 'ऎ', 'ω', 'μ', '{', 'ण', 'ं', '≈', 'ε', 'λ', 'θ', '्', '<',' ↑ ',' \ uf0a7 ',' φ ',' \ u200b ',' ',' ञ ',' о ',' ƒ ',' © ',' ← ',' ळ ',' ा ',' ■ ',' ¢ ',' ρ ',' ∞ ',' î ',' ⁄ ',' √ ',' ব ',' § ', '¾', '≤', '॰', '্', 'é', 'و', '`', '¥', '♂', '₩', 'å', '´', '' ü ',' á ',' ó ',' ভ ',' в ',' ¼ ',' ़ ',' è ',' ʁ ',' े ',' и ',' ≡ ',' ζ ', 'í', '↙', '″', '\ u200d', '₫', 'م', '”', 'ː', '‡', 'ö', 'ँ', 'د', 'η', 'ð', '♦', 'শ', 'প', 'ी', 'ú', '⅓', 'ب', '≠', 'κ', '∈', 'ç ',' ',' এ ',' উ ',' র ',' ν ',' â ',' ê ',' υ ',' k ',' ø ',' ù ',' ā ', 'ä', 'æ', '↓', 'ô', 'স', 'ो', 'ō', '●', 'ē', '₨', 'ि', '„', 'ī ',' ฿ ',' ò ',' τ ',' ਸ ',' ऩ ',' ª ',' р ',' ত ',' н ',' с ',' χ ',' ಕ ', 'ë', 'ॉ', 'خ', 'ا', 'ψ', 'а', '¿', 'ì', 'ý', 'µ', 'ौ', 'š', '‰ ',' ÷ ',' ি ',' আ ',' ə ',' у ',' ★ ',' ل ',' ॡ ',' č ',' ⊕ ',' ृ ',' ñ ', 'ै', 'û', 'ु', 'ू', 'м', 'þ', 'г', 'ι', 'മ', 'پ', '☉', 'த', 'ш ',' ¤ ',' е ',' ',' ş ',' ã ',' ž ',' খ ',' ع ',' 水 ',' õ ',' ক ',' д ',' ï ',' ج ',' ধ ',' ж ',' ऒ ',' ଓ ', '¹', 'ॅ', 'ħ', 'ন', 'ও', 'ʃ', '\ u200c', 'ز', 'х', 'מ', '⊂', 'ф', 'য', 'എ', '\ u202a', 'ষ', '九', '♣', 'ł', 'ऌ', 'া', 'త', 'з', 'ß', ', ',' ר ',' - ',' п ',' غ ',' ऱ ',' ر ',' ŋ ',' ϕ ',' ऴ ',' ክ ',' ğ ',' ą ', 'ś', 'ę', '¨', 'ч', 'ż', '№', 'س', 'œ', 'ă', '♠', 'ش', '◾', ' \ uf0fc ',' ÿ ',' ש ',' \ ufeff ',' ಜ ',' ن ',' ʊ ',' ³ ',' ć ',' آ ',' চ ',' ɛ ',' я ',' 이 ',' đ ',' জ ',' ġ ',' ⅜ ',' ɑ ',' ˚ ',' ξ ',' л ',' б ',' т ',' ц ', '∟', 'й', 'ಭ', 'സ', 'ɒ', 'అ', 'న', '⍨', '⌛', '⌣', 'ĝ', 'ő', ', ',' ، ',' ċ ',' ĵ ',' ژ ',' হ ',' ŝ ',' ণ ',' 沖 ',' ⅞ ',' ت ',' ١ ',' ɸ ', 'ɪ', 'ʌ', 'ě', 'ע', '¸', 'দ', 'ŭ', '∧', 'أ', 'અ', 'ɨ', 'ĥ', ', ',' ગ ',' ű ',' ʒ ',' ح ',' ث ',' █ ',' ∩ ',' ق ',' ↔ ',' ® ',' ਪ ',' ⇒ ', '⅔', '∑', '⇔', 'ழ', 'ю', '月', 'ذ', 'ǻ', 'ń', '∪', 'ك', 'ʰ', ' ё ',' э ',' ™ ',' ض ',' ਦ ',' ɹ ',' ☞ ',' ঞ ',' ম ',' ু ',' ② ',' 道 ',' ӏ ', '大', 'щ', 'א', 'ʔ', 'ǁ ',' ה ',' ∂ ',' ţ ',' പ ',' ∨ ',' 성 ',' ỳ ',' ബ ',' ∇ ',' ظ ',' ط ',' ẽ ', 'ص', 'ಶ', 'υ', 'ഞ', 'қ', 'ỹ', 'ź']
Мне нужно выбрать только символы деванагари (т.е. 'अ', 'आ'
...'क','ख','घ'
..) из вышеперечисленных персонажей. Есть ли другой способ сделать это в Python, кроме ручного выбора индексов?
1 ответ
Вы можете перебирать каждый элемент в списке, конвертировать каждый символ в число Unicode, используя ord
, затем проверьте, находится ли он в диапазоне символов Unicode Деванагари (см.: https://en.wikipedia.org/wiki/Devanagari_(Unicode_block)). Если это так, добавьте его в список вывода.
Это закончится примерно так:
newlist = []
for c in list:
if ord(c) >= 2304 and ord(c) <= 2431:
newlist.append(c)