Watson Knowledge Studio режет слова

После успешного импорта документов в WKS некоторые слова будут неправильно вырезаны при создании аннотатора и выборе этих документов. Это происходит с немецкими словами, например, вместо "widerspruchslos", "widerspruch los" или вместо "Warenverkehrsbescheinigung" будет отображаться "Warenverkehr bescheinigung", что имеет последствия для процесса аннотатина и генерации модели позже. Как я могу избежать этой проблемы?

1 ответ

Решение

Немецкие составные слова разбиты на фрагменты по токенайзеру предложения в WKS. Такое поведение является особенностью.

Если вы хотите извлечь "Warenverkehrsbescheinigung" как отдельное упоминание, выберите 2 токена "Warenverkehr" и "bescheinigung" и поместите на них объект.

Другие вопросы по тегам