Прогнозы Postgres-MADlib занимают больше времени, чем обучение

Я тренирую свои данные, используя следующий код:

start_time := clock_timestamp();
  PERFORM madlib.create_nb_prepared_data_tables( 'nb_training',
                                                 'class', 
                                                 'attributes', 
                                                 'ARRAY[1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,51,52,53,54,55,56,57]', 
                                                 57, 
                                                 'categ_feature_probs', 
                                                 'numeric_attr_params', 
                                                 'class_priors' 
                                               );
  training_time := 1000* (extract(epoch FROM clock_timestamp()) - extract(epoch FROM start_time));

И мой код предсказания выглядит следующим образом:

start_time := clock_timestamp();
  PERFORM madlib.create_nb_probs_view( 'categ_feature_probs', 
                                       'class_priors', 
                                       'nb_testing', 
                                       'id', 
                                       'attributes', 
                                       57, 
                                       'numeric_attr_params', 
                                       'probs_view' );

select * from probs_view
prediction_time := 1000 * (extract(epoch FROM clock_timestamp()) - extract(epoch FROM start_time));

Данные обучения содержат 450000 записей, поскольку набор данных тестирования содержит 50000 записей.

Тем не менее, мое среднее время обучения составляет около 17173 мс, а время прогнозирования - 26481 мс. Согласно моему пониманию наивного байесовского предсказания время предсказания должно быть меньше времени обучения. Что я здесь не так делаю?

1 ответ

Наивная байесовская классификация находится на ранней стадии для MADlib, что означает, что интерфейс и реализация являются предварительными на этом этапе. Есть множество открытых JIRA, которые говорят мне, что нужно немного усилий, прежде чем перейти в модуль верхнего уровня.

Другие вопросы по тегам