Как анализировать символы с акцентом с помощью Google Cloud Natural Language
Я пытаюсь использовать клиент Python на Python3 (Collab) для анализа текста с акцентированными символами. Я устанавливаю объект документа с типом PLAIN_TEXT.
# Run a sentiment analysis request on text
def nlp_analyze_text(text, lang=nlp_def_language):
client = language.LanguageServiceClient()
document = types.Document(
content=text,
language=lang,
type=enums.Document.Type.PLAIN_TEXT)
entities = client.analyze_entities(document=document, encoding_type='UTF32')
syntax = client.analyze_syntax(document=document)
return (entities, syntax)
Таким образом, входные данные, которые передаются клиенту, содержат многобайтовые символы.
text = u"Mi vieja mula ya no es lo que era? Qué era entonces? Era de Bs.As. Saludos!"
nlp_analyze_text(text)
Я считаю, что Google Cloud NL неправильно понимает это.
sentences {
text {
content: "Qu\303\251 era entonces?"
begin_offset: -1
}
}
Итак, как мне настроить код для анализа текста с акцентированными символами.
Спасибо
1 ответ
В конце концов, я смотрел на экранированные символы, потому что у печатаемого объекта была своя реализация. Когда я напечатал более глубокие атрибуты, я увидел, что строка не экранирована.
Надеюсь, этот пост поможет другим.