Правильное форматирование данных для Watson Retrieve & Rank
Спасибо за ваше время.
Я хотел бы узнать ваши мысли о наилучшей практике форматирования конкретных данных для загрузки в Watson Retrieve и Rank.
Я создаю службу для ответов на вопросы о муниципальных законах и постановлениях, чтобы помочь обучить новоизбранных чиновников в бедных сельских районах.
Вот загадка, с которой я сталкиваюсь:
Допустим, в регионе есть 200 городов, которые я обслуживаю. У каждого города есть подобные, но различные наборы постановлений и правил. Каждый, кто задает вопрос системе, будет ставить "относительно" аналогичные вопросы с точки зрения того, чего они пытаются достичь. Тем не менее, ответ будет сильно отличаться в зависимости от города.
Правила IE Zoning будут одинаковыми в разных городах, но получить неправильный городской указ будет совершенно бесполезно, несмотря на то, что он достаточно близок.
"Какое постановление об оспаривании Смолвиля?" может подтолкнуть любые городские постановления о неудачах или что-то, связанное только с Смолвилем, но не их постановление о неудачах.
У меня есть все документы с подробным описанием необходимых постановлений и постановлений. Я просто ищу совет о том, как структурировать его, чтобы люди могли получать точные данные.
Должен ли я создать отдельный кластер для набора документов каждого отдельного города? Должен ли я поместить все в один и просто тщательно тренироваться, чтобы улучшить точность, или есть другой путь, о котором я не думал.
Еще раз спасибо,
Matt
1 ответ
Это всего лишь небольшая помощь, чтобы найти решение.
Допустим, что у вас есть много вопросов, сопоставленных с одним отвечающим документом, можно предположить, что приведенный здесь вариант использования может хорошо подходить для классификатора естественного языка или некоторой комбинации NLC и Retrieve-and-Rank (RnR).
Я действительно рекомендую вам взглянуть на эти статьи в среде:
Часть I - Разработка с использованием IBM Watson Retrieve и Rank: настройка Solr
Часть II. Разработка с использованием IBM Watson Retrieve and Rank: обучение и оценка
Часть III. Разработка с использованием IBM Watson Retrieve and Rank: пользовательские функции (важно для вашего вопроса).
Ссылки для справки:
- См. Официальную документацию о подготовке данных обучения в RnR.
- См. Официальную документацию по использованию NLC.