Правильное форматирование данных для Watson Retrieve & Rank

Спасибо за ваше время.

Я хотел бы узнать ваши мысли о наилучшей практике форматирования конкретных данных для загрузки в Watson Retrieve и Rank.

Я создаю службу для ответов на вопросы о муниципальных законах и постановлениях, чтобы помочь обучить новоизбранных чиновников в бедных сельских районах.

Вот загадка, с которой я сталкиваюсь:

Допустим, в регионе есть 200 городов, которые я обслуживаю. У каждого города есть подобные, но различные наборы постановлений и правил. Каждый, кто задает вопрос системе, будет ставить "относительно" аналогичные вопросы с точки зрения того, чего они пытаются достичь. Тем не менее, ответ будет сильно отличаться в зависимости от города.

Правила IE Zoning будут одинаковыми в разных городах, но получить неправильный городской указ будет совершенно бесполезно, несмотря на то, что он достаточно близок.

"Какое постановление об оспаривании Смолвиля?" может подтолкнуть любые городские постановления о неудачах или что-то, связанное только с Смолвилем, но не их постановление о неудачах.

У меня есть все документы с подробным описанием необходимых постановлений и постановлений. Я просто ищу совет о том, как структурировать его, чтобы люди могли получать точные данные.

Должен ли я создать отдельный кластер для набора документов каждого отдельного города? Должен ли я поместить все в один и просто тщательно тренироваться, чтобы улучшить точность, или есть другой путь, о котором я не думал.

Еще раз спасибо,

Matt

1 ответ

Решение

Это всего лишь небольшая помощь, чтобы найти решение.

Допустим, что у вас есть много вопросов, сопоставленных с одним отвечающим документом, можно предположить, что приведенный здесь вариант использования может хорошо подходить для классификатора естественного языка или некоторой комбинации NLC и Retrieve-and-Rank (RnR).

Я действительно рекомендую вам взглянуть на эти статьи в среде:

  • Часть I - Разработка с использованием IBM Watson Retrieve и Rank: настройка Solr

  • Часть II. Разработка с использованием IBM Watson Retrieve and Rank: обучение и оценка

  • Часть III. Разработка с использованием IBM Watson Retrieve and Rank: пользовательские функции (важно для вашего вопроса).

Ссылки для справки:

  • См. Официальную документацию о подготовке данных обучения в RnR.
  • См. Официальную документацию по использованию NLC.
Другие вопросы по тегам