Является ли scaled_euclid_dist gpflow столь же стабильным, как tenorflow_probabilities?

В основном для ядер, которые зависят от r здесь вычисляется норма L2, и мы видим, что сначала мы обрезаем значение. В вероятности тензорного потока они используют sqrt с измененным градиентом, который заменяет grad(|x - x'|) с большим, но конечным числом, когда x=x', У меня вопрос, эквивалентны ли они или лучше?

1 ответ

Я проверил градиенты для обрезанной версии GPflow для x=x', Результат удивляет, так как он нулевой. Я ожидал, что это будет высокая ценность.

Простая проверка подтверждает, что градиент tf.sqrt(1e-40) должен вернуться 5.e+19, и я не уверен, что урезанная версия имеет правильное поведение.

Другие вопросы по тегам