Как отформатировать документы.DOC для Watson, получить и оценить загрузчик веб-интерфейса

Интересно, каков наилучший способ форматирования документов.DOC для загрузчика документов веб-интерфейса "Извлечение и ранжирование", чтобы он лучше обрабатывал ответ? (Я использую https://watson-retrieve-and-rank.ng.bluemix.net/)

Мы должны создать набор документов, и я не могу найти какое-либо руководство о том, как их переформатировать (например, если какой-либо размер текста, жирный шрифт,... для заголовка, тела ответа и т. Д.) Улучшит автоматизированное ответ расщепления. Команда, создающая эти документы, не может подготовить их в надлежащем формате JSON, и некоторые файлы DOC анализируются службой как одностраничный ответ без какого-либо разделения

Конечно, может быть, есть другой инструмент, который мне не хватает для этой задачи.

Спасибо за любой опыт или ссылки.

1 ответ

Решение

Подробная документация находится по адресу https://www.ibm.com/watson/developercloud/doc/document-conversion/customizing.shtml как инструмент использует настройки по умолчанию для службы преобразования документов.

Однако, чтобы подвести итог, инструмент будет разбивать документы Word по абзацам, где используется стиль с именем "Заголовок N", где "N" - это число.

Таким образом, это включает в себя существующие встроенные стили по умолчанию в MS Word (то есть "Заголовок 1", "Заголовок 2", "Заголовок 3", "Заголовок 4", "Заголовок 5", "Заголовок 6", "Заголовок 7", "Заголовок 8", "Заголовок 9"). Он также включает стили, которые вы создаете с такими именами (например, "Заголовок 123")

Другие вопросы по тегам