Преобразование кода Python Numpy в Spark с использованием RDD для использования GINI для оценки модели

Как я могу преобразовать этот код Python Numpy в Spark RDD, чтобы в операциях использовалась распределенная архитектура Spark для больших данных.

Код выглядит следующим образом -

def gini(array):
    """Calculate the Gini coefficient of a numpy array."""
    array = array.flatten() #all values are treated equally, arrays must be 1d
    if np.amin(array) < 0:
        array -= np.amin(array) #values cannot be negative
    array += 0.0000001 #values cannot be 0
    array = np.sort(array) #values must be sorted
    index = np.arange(1,array.shape[0]+1) #index per array element
    n = array.shape[0]#number of array elements
    return ((np.sum((2 * index - n  - 1) * array)) / (n * np.sum(array))) 

Коэффициент Джини

Пожалуйста помоги!

0 ответов

Другие вопросы по тегам