Параллельно вводить данные в молоток

Я пытаюсь построить классификатор текста с помощью молотка. Данные как-то велики, поэтому я ищу способ, если возможно, запустить задачу "импорта" в нескольких потоках, потому что загрузка занимает много времени. Несколько вопросов здесь:

  1. Есть ли способ вручную распараллелить процесс, разделив данные и импортировав их отдельно, а затем соедините их. Я знаю, что могу запускать их параллельно и получать несколько входных файлов, но могу ли я объединить получающиеся входные файлы молотка перед тренировкой классификатора?

  2. Параллелизирует ли этот процесс сам процесс, если на машине есть доступные потоки?

Спасибо за помощь!

1 ответ

На самом деле ваши вопросы не связаны напрямую с молотком. Таким образом, чтобы ответить на ваш вопрос два Маллет не делает такую ​​вещь. Но вы можете разделить текст на равные части, а затем использовать их, сохраняя все в одной папке и предоставляя Маллету путь к этой папке. Эта ссылка может помочь вам достичь этого. Вы должны следовать инструкциям на One instance per file часть.

Другие вопросы по тегам