Группировка CSV-столбцов в Apache Beam transform
У меня есть CSV с около 200 столбцов. Я хотел бы сгруппировать каждый столбец так, чтобы я получил pcollection пар col_name:[column] в качестве элементов. Как бы это можно было сделать с помощью луча Python SDK?
1 ответ
Решение
Вы можете выводить кортежи (column_index, column_value), а затем группировать их по индексу столбца. Если у вас есть имя, связанное с каждым столбцом, вы можете вывести (column_name, column_value).
Ссылка: https://beam.apache.org/documentation/programming-guide/