В Apache Beam, что делает "ExtractWords"?

Я изучаю синтаксис Python по этому адресу:

https://beam.apache.org/get-started/wordcount-example/

Я вижу этот синтаксис:

# The Flatmap transform is a simplified version of ParDo.
| 'ExtractWords' >> beam.FlatMap(lambda x: re.findall(r'[A-Za-z\']+', x))

Что такое "ExtractWords"?

Это имя функции в API луча?

Это комментарий?

Это какая-то аннотация для строки, в которой он находится?

Почему "ExtractWords" там?

1 ответ

Это удобочитаемая уникальная метка для этого конкретного преобразования в вашем конвейере. Это не имеет никакого значения. Это может быть любая строка, и она используется для отладки информации (например, если преобразование не выполнено, покажите, какой она была), для отображения в пользовательском интерфейсе (например, в пользовательском интерфейсе потока данных), для выравнивания старой структуры с новой структурой конвейера при обновлении конвейера и т. д.

Например:

p | 'Read click logs' >> beam.ReadFromText(...)
  | 'Analyze user statistics' >> ...
  | 'Write statistics to my favorite BigQuery table' >> beam.io.WriteToBigQuery(...)
Другие вопросы по тегам