Подсчет количества слов в группе по

У меня есть набор данных

+----------+--------+------------+
|        id|    date|       errors|
+----------+--------+------------+
|1         |20170319|      error1|
|1         |20170319|      error2|
|1         |20170319|      error2|
|1         |20170319|      error1|
|2         |20170319|        err6|
|1         |20170319|       error2|

Нужно, чтобы количество ошибок подсчитывалось день за днем

выход

+----------+--------+------------+
|    date|       errors| count
+----------+--------+------------+
 |20170319|      error1|    2
 |20170319|      error2|    3
 |20170319|        err6|    1
    val dataset = spark.read.json(path);
    val c =dataset.groupBy("date").count()

// как я продолжаю считать ошибки

Я пробовал работать с Windows в DSC, но не смог найти продуктивный. Нужно ли мне конвертировать в Rdd и найти подход?

1 ответ

Вам просто нужно groupBy и то и другое date а также errors,

val c =dataset.groupBy("date","errors").count()
Другие вопросы по тегам