Кодировка UTF-8 не соблюдается `analysis_entities`

Я пытаюсь Google Cloud language_v1 API для извлечения именованных сущностей из некоторого входного текста, однако я обнаружил, что с параметром кодирования происходит что-то подозрительное. Когда я бегу

txt = '''La divinité des uji la plus importante était ( et est toujours ) Amaterasu , la déesse solaire . '''.strip()
client = language.LanguageServiceClient()
document = types.Document(content=txt, type=enums.Document.Type.PLAIN_TEXT, language='fr')
ents = client.analyze_entities(document, encoding_type=EncodingType.UTF8)

ents может правильно определить сущность "Amaterasu", однако возвращаемое начальное смещение составляет 67 вместо 65. Однако, если я укажу encoding_type=EncodingType.UTF16 смещение правильное.

Обратите внимание, что по умолчанию кодировка файлов исходного кода Python соответствует UTF-8, и в любом случае я получаю тот же результат, если сохраняю текст в файле UTF-8 и читаю его с правильной кодировкой. Есть идеи, что происходит?

0 ответов

Другие вопросы по тегам