Кодировка UTF-8 не соблюдается `analysis_entities`
Я пытаюсь Google Cloud language_v1
API для извлечения именованных сущностей из некоторого входного текста, однако я обнаружил, что с параметром кодирования происходит что-то подозрительное. Когда я бегу
txt = '''La divinité des uji la plus importante était ( et est toujours ) Amaterasu , la déesse solaire . '''.strip()
client = language.LanguageServiceClient()
document = types.Document(content=txt, type=enums.Document.Type.PLAIN_TEXT, language='fr')
ents = client.analyze_entities(document, encoding_type=EncodingType.UTF8)
ents
может правильно определить сущность "Amaterasu", однако возвращаемое начальное смещение составляет 67 вместо 65. Однако, если я укажу encoding_type=EncodingType.UTF16
смещение правильное.
Обратите внимание, что по умолчанию кодировка файлов исходного кода Python соответствует UTF-8, и в любом случае я получаю тот же результат, если сохраняю текст в файле UTF-8 и читаю его с правильной кодировкой. Есть идеи, что происходит?