Каким должно быть значение n при принятии решения о значении лямбда при использовании l2-регуляризации и стохастического градиентного спуска?
Обычно лямбда - это C/n, где n - количество точек данных, а C - некоторая константа в [0,01; 100]
Обычно лямбда - это C/n, где n - количество точек данных, а C - некоторая константа в [0,01; 100]