Интерпретировать результаты онлайн-прогноза Google AutoML

Мы используем Google AutoML с таблицами, используя входные данные в виде файлов CSV. Мы импортировали данные, связали всю схему с обнуляемыми столбцами и моделью поезда, а затем развернули и использовали онлайн-прогнозирование, чтобы предсказать значение одного столбца.

Целевой столбец имеет значения min-max ( 44 - 263).

Когда мы развернули и запустили онлайн-прогнозирование, он возвращает значения, подобные этому

Прогноз результата

0.49457597732543945 

Интервал прогнозирования 95%

[-8.209495544433594, 0.9892584085464478] 

Большая часть результатов в вышеуказанном формате. Как мы можем преобразовать его в значения в диапазоне (44-263). Не нашел много документации онлайн на то же самое.

Нужна справочная документация и интерпретация вместе с интерпретацией 95% прогноза.

2 ответа

Решение

На самом деле, чтобы уточнить (я премьер-министр таблиц AutoML)-

Таблицы AutoML не выполняют какой-либо нормализации прогнозируемых значений для данных вашей метки, поэтому, если вы ожидаете, что ваши данные метки будут иметь распределение min/max 44-263, тогда выходные прогнозы также должны быть в этом диапазоне. Две возможности сделали бы это значительно отличающимся:

1) Вы выбрали неправильный столбец метки

2) Ваши входные функции для этого прогноза резко отличаются от того, что было видно в используемых данных обучения.

Пожалуйста, не стесняйтесь обращаться к cloud-automl-tables-discuss@googlegroups.com, если вы хотите, чтобы мы помогли в дальнейшей отладке

Google AutoML нормализует вашу дату автоматически:

Как это:

normalized_df=(df-df.mean())/df.std()

Таким образом, вам просто нужно denormalize вывод, вот пример Python:

def denormalize(df,norm_data):
    df = df['targeted_column'].values.reshape(-1,1)
    norm_data = norm_data.reshape(-1,1)
    scl = MinMaxScaler()
    tmp_ = scl.fit_transform(df)
    new = scl.inverse_transform(norm_data)
    return new

Или просто умножьте на стандартное отклонение и добавьте среднее значение исходных данных

  • Кстати, интервал, который вы даете, называется доверительным интервалом, что означает, что вероятность того, что фактическое значение, которое вы пытаетесь предсказать, будет за пределами этого интервала, ниже 5%, следовательно, 95% -ная достоверность

Ссылки и документы: К сожалению, проект не имеет явной документации по теоретической структуре. Тем не менее, у них есть отличная публикация, которая очень помогает мне понять их модели AutoML. Кроме того, здесь приводится подробное объяснение того, почему " если вы нормализуете / стандартизируете / масштабируете данные", в нем также есть формулы преобразования.

Другие вопросы по тегам