Является ли scaled_euclid_dist gpflow столь же стабильным, как tenorflow_probabilities?
В основном для ядер, которые зависят от r
здесь вычисляется норма L2, и мы видим, что сначала мы обрезаем значение. В вероятности тензорного потока они используют sqrt
с измененным градиентом, который заменяет grad(|x - x'|)
с большим, но конечным числом, когда x=x'
, У меня вопрос, эквивалентны ли они или лучше?
1 ответ
Я проверил градиенты для обрезанной версии GPflow для x=x'
, Результат удивляет, так как он нулевой. Я ожидал, что это будет высокая ценность.
Простая проверка подтверждает, что градиент tf.sqrt(1e-40)
должен вернуться 5.e+19
, и я не уверен, что урезанная версия имеет правильное поведение.