Как анализировать символы с акцентом с помощью Google Cloud Natural Language

Question

Как анализировать символы с акцентом с помощью Google Cloud Natural Language

Я пытаюсь использовать клиент Python на Python3 (Collab) для анализа текста с акцентированными символами. Я устанавливаю объект документа с типом PLAIN_TEXT.

# Run a sentiment analysis request on text
def nlp_analyze_text(text, lang=nlp_def_language):
  client = language.LanguageServiceClient()

  document = types.Document(
      content=text,
      language=lang,      
      type=enums.Document.Type.PLAIN_TEXT)
  entities = client.analyze_entities(document=document, encoding_type='UTF32')
  syntax = client.analyze_syntax(document=document)

  return (entities, syntax)

Таким образом, входные данные, которые передаются клиенту, содержат многобайтовые символы.

text = u"Mi vieja mula ya no es lo que era? Qué era entonces? Era de Bs.As. Saludos!"
nlp_analyze_text(text)

Я считаю, что Google Cloud NL неправильно понимает это.

sentences {
   text {
     content: "Qu\303\251 era entonces?"
     begin_offset: -1
   }
 }

Итак, как мне настроить код для анализа текста с акцентированными символами.

Спасибо

0

google-cloud-platform natural-language-processing google-cloud-automl-nl

Источник

user1392917 22 май '19 в 22:31

1 ответ

Другие вопросы по тегам google-cloud-platform natural-language-processing google-cloud-automl-nl

user1392917 24 май '19 в 18:18 2019-05-24 18:18 · Answer 1 · 2019-05-24 18:18

В конце концов, я смотрел на экранированные символы, потому что у печатаемого объекта была своя реализация. Когда я напечатал более глубокие атрибуты, я увидел, что строка не экранирована.

Надеюсь, этот пост поможет другим.

0

Источник

user1392917 24 май '19 в 18:18