В Apache Beam, что делает "ExtractWords"?
Я изучаю синтаксис Python по этому адресу:
https://beam.apache.org/get-started/wordcount-example/
Я вижу этот синтаксис:
# The Flatmap transform is a simplified version of ParDo.
| 'ExtractWords' >> beam.FlatMap(lambda x: re.findall(r'[A-Za-z\']+', x))
Что такое "ExtractWords"?
Это имя функции в API луча?
Это комментарий?
Это какая-то аннотация для строки, в которой он находится?
Почему "ExtractWords" там?
1 ответ
Это удобочитаемая уникальная метка для этого конкретного преобразования в вашем конвейере. Это не имеет никакого значения. Это может быть любая строка, и она используется для отладки информации (например, если преобразование не выполнено, покажите, какой она была), для отображения в пользовательском интерфейсе (например, в пользовательском интерфейсе потока данных), для выравнивания старой структуры с новой структурой конвейера при обновлении конвейера и т. д.
Например:
p | 'Read click logs' >> beam.ReadFromText(...)
| 'Analyze user statistics' >> ...
| 'Write statistics to my favorite BigQuery table' >> beam.io.WriteToBigQuery(...)