Являются ли встроенные функции плотности вероятности `scipy.stat.distributions` медленнее, чем предоставленная пользователем?
Предположим, у меня есть массив: adata=array([0.5, 1.,2.,3.,6.,10.])
и я хочу рассчитать логарифмическую вероятность распределения этого массива по Вейбуллу, учитывая параметры [5.,1.5]
а также [5.1,1.6]
, Я никогда не думал, что мне нужно написать свои собственные функции плотности вероятности Вейбулла для этой задачи, как это уже предусмотрено в scipy.stat.distributions
, Итак, это должно сделать это:
from scipy import stats
from numpy import *
adata=array([0.5, 1.,2.,3.,6.,10.])
def wb2LL(p, x): #log-likelihood of 2 parameter Weibull distribution
return sum(log(stats.weibull_min.pdf(x, p[1], 0., p[0])), axis=1)
А также:
>>> wb2LL(array([[5.,1.5],[5.1,1.6]]).T[...,newaxis], adata)
array([-14.43743911, -14.68835298])
Или я заново изобретаю колесо и пишу новую функцию Weibull pdf, например:
wbp=lambda p, x: p[1]/p[0]*((x/p[0])**(p[1]-1))*exp(-((x/p[0])**p[1]))
def wb2LL1(p, x): #log-likelihood of 2 paramter Weibull
return sum(log(wbp(p,x)), axis=1)
А также:
>>> wb2LL1(array([[5.,1.5],[5.1,1.6]]).T[...,newaxis], adata)
array([-14.43743911, -14.68835298])
Правда, я всегда принимаю это как должное, если что-то уже scipy
, оно должно быть очень хорошо оптимизировано, и изобретать колесо редко будет быстрее. Но тут приходит сюрприз: если я timeit
, 100000 звонков wb2LL1(array([[5.,1.5],[5.1,1.6]])[...,newaxis], adata)
занимает 2.156 с, а 100000 звонков wb2LL(array([[5.,1.5],[5.1,1.6]])[...,newaxis], adata)
занимает 5,219 с, встроенный stats.weibull_min.pdf()
более чем в два раза медленнее.
Проверка исходного кода python_path/sitepackage/scipy/stat/distributions.py
не дал легкий ответ, по крайней мере, для меня. Если что, от этого я бы ожидал stats.weibull_min.pdf()
быть почти так же быстро, как wbp()
,
Соответствующий исходный код: строка 2999-3033:
class frechet_r_gen(rv_continuous):
"""A Frechet right (or Weibull minimum) continuous random variable.
%(before_notes)s
See Also
--------
weibull_min : The same distribution as `frechet_r`.
frechet_l, weibull_max
Notes
-----
The probability density function for `frechet_r` is::
frechet_r.pdf(x, c) = c * x**(c-1) * exp(-x**c)
for ``x > 0``, ``c > 0``.
%(example)s
"""
def _pdf(self, x, c):
return c*pow(x,c-1)*exp(-pow(x,c))
def _logpdf(self, x, c):
return log(c) + (c-1)*log(x) - pow(x,c)
def _cdf(self, x, c):
return -expm1(-pow(x,c))
def _ppf(self, q, c):
return pow(-log1p(-q),1.0/c)
def _munp(self, n, c):
return special.gamma(1.0+n*1.0/c)
def _entropy(self, c):
return -_EULER / c - log(c) + _EULER + 1
frechet_r = frechet_r_gen(a=0.0, name='frechet_r', shapes='c')
weibull_min = frechet_r_gen(a=0.0, name='weibull_min', shapes='c')
Итак, вопрос: stats.weibull_min.pdf()
действительно медленнее? Если так, как получилось?
1 ответ
pdf()
метод определен в rv_continuous
класс, который вызывает frechet_r_gen._pdf()
, код pdf()
является:
def pdf(self,x,*args,**kwds):
loc,scale=map(kwds.get,['loc','scale'])
args, loc, scale = self._fix_loc_scale(args, loc, scale)
x,loc,scale = map(asarray,(x,loc,scale))
args = tuple(map(asarray,args))
x = asarray((x-loc)*1.0/scale)
cond0 = self._argcheck(*args) & (scale > 0)
cond1 = (scale > 0) & (x >= self.a) & (x <= self.b)
cond = cond0 & cond1
output = zeros(shape(cond),'d')
putmask(output,(1-cond0)+np.isnan(x),self.badvalue)
if any(cond):
goodargs = argsreduce(cond, *((x,)+args+(scale,)))
scale, goodargs = goodargs[-1], goodargs[:-1]
place(output,cond,self._pdf(*goodargs) / scale)
if output.ndim == 0:
return output[()]
return output
Таким образом, он имеет много кода для обработки аргументов, что делает его медленным.