Подсчет количества слов в группе по
У меня есть набор данных
+----------+--------+------------+
| id| date| errors|
+----------+--------+------------+
|1 |20170319| error1|
|1 |20170319| error2|
|1 |20170319| error2|
|1 |20170319| error1|
|2 |20170319| err6|
|1 |20170319| error2|
Нужно, чтобы количество ошибок подсчитывалось день за днем
выход
+----------+--------+------------+
| date| errors| count
+----------+--------+------------+
|20170319| error1| 2
|20170319| error2| 3
|20170319| err6| 1
val dataset = spark.read.json(path);
val c =dataset.groupBy("date").count()
// как я продолжаю считать ошибки
Я пробовал работать с Windows в DSC, но не смог найти продуктивный. Нужно ли мне конвертировать в Rdd и найти подход?
1 ответ
Вам просто нужно groupBy
и то и другое date
а также errors
,
val c =dataset.groupBy("date","errors").count()