Каким должно быть значение n при принятии решения о значении лямбда при использовании l2-регуляризации и стохастического градиентного спуска?

Обычно лямбда - это C/n, где n - количество точек данных, а C - некоторая константа в [0,01; 100]

0 ответов

Другие вопросы по тегам