Google Cloud Dataflow не обновляет файл gcs без журнала ошибок (java) после версии с 2.25 до 2.34?

Мой поток данных читает файл из gcs и записывает в другое ведро gcs.

Он работал хорошо, прежде чем я обновил версию sdk с 2.25.0 до 2.34.

Версия 2.25
Если выходной файл не существует, поток данных создаст его.
Когда выходной файл уже существует, поток данных обновит его.

Версия 2.34
Если выходной файл не существует, поток данных создаст его.
Когда выходной файл уже существует, поток данных не будет делать ничего и не будет ошибок в журнале.

Поведение ver2.25 - это то, что я хочу.
Как я могу это сделать с версией 2.34?

Мой код для записи в файл gcs ниже.

      xxPcollection.apply("XXX"
        TextIO.write().withTempDirectory(ValueProvider.NestedValueProvider
                .of(options.getTempDir(), new SerializableFunction<String, ResourceId>() {
                    private static final long serialVersionUID = -8758915126650660917L;

                    @Override
                    public ResourceId apply(String file) {
                        return FileBasedSink.convertToFileResourceIfPossible(file);
                    }
                })).to(options.getOutput()).withoutSharding().withSuffix("csv");

Мой пом

      <!-- Adds a dependency on the Beam SDK. -->
<dependency>
    <groupId>org.apache.beam</groupId>
    <artifactId>beam-sdks-java-core</artifactId>
    <version>2.34.0</version>
</dependency>

<!-- Adds a dependency on the Beam Google Cloud Platform IO module. -->
<dependency>
    <groupId>org.apache.beam</groupId>
    <artifactId>beam-sdks-java-io-google-cloud-platform</artifactId>
    <version>2.34.0</version>
</dependency>

0 ответов

Другие вопросы по тегам