Преобразование кода Python Numpy в Spark с использованием RDD для использования GINI для оценки модели
Как я могу преобразовать этот код Python Numpy в Spark RDD, чтобы в операциях использовалась распределенная архитектура Spark для больших данных.
Код выглядит следующим образом -
def gini(array):
"""Calculate the Gini coefficient of a numpy array."""
array = array.flatten() #all values are treated equally, arrays must be 1d
if np.amin(array) < 0:
array -= np.amin(array) #values cannot be negative
array += 0.0000001 #values cannot be 0
array = np.sort(array) #values must be sorted
index = np.arange(1,array.shape[0]+1) #index per array element
n = array.shape[0]#number of array elements
return ((np.sum((2 * index - n - 1) * array)) / (n * np.sum(array)))
Коэффициент Джини
Пожалуйста помоги!