Только количество вопросов наземной правды влияет на размер данных обучения R&R?
Я создал обучающие данные R&R из наземной истины и заметил, что на каждый вопрос о наземной истине делалось 10 записей обучающих данных, не зависящих от количества ответов кандидатов на основную истину.
Только количество вопросов наземной правды влияет на размер данных обучения R&R? Я хотел бы знать это, потому что есть ограничение размера данных тренировки.
1 ответ
заметил, что каждый вопрос о наземной истине сделал 10 записей обучающих данных, не зависящих от количества ответов кандидатов на основную правду
Если вы используете утилиту python train.py для подготовки обучающих данных для R&R, количество ответов кандидатов на вопрос контролируется дополнительным -r
(--rows
) аргумент, который указывает количество результатов ответа, возвращаемых запросом. Значение по умолчанию 10, что вы видите.
Точно так же, если вы используете /fcselect
Вызов API для генерации обучающих данных, тогда вы также можете использовать rows
Параметр для указания количества ответов кандидатов, для которых создаются функции. Опять же, по умолчанию 10.
Если вы можете себе это позволить, обычно лучше переопределить это значение по умолчанию и поэкспериментировать с более высокими значениями, поскольку это дает ранкеру больше возможностей для изучения и переоценки ответов. Веб-инструмент RnR использует значение по умолчанию 30.
Только количество вопросов наземной правды влияет на размер данных обучения R & R?
Нет, размер обучающих данных пропорционален всем аспектам: (1) количество запросов, (2) количество ответов кандидатов на запрос и (3) количество функций (столбцов). Количество объектов само по себе пропорционально количеству полей в схеме, помеченных для генерации объектов (т. Е. В схеме по умолчанию они помечены типом watson_text_en
).