Конвейер вершины AI kubeflow выдает. Реплике workerpool0-0 не хватило памяти, и она завершилась с ненулевым статусом 137(SIGKILL)

Я создал конвейер только для чтения файлов с большими данными (например,>25 ГБ), я только пытаюсь получить данные в фрейм данных, чтобы потом можно было поработать над ним.

В конвейере кубернетов я вызываю настройку моего компонента get_data set_cpu_limit = 32 и set_memory_limit = 64G. Я пытаюсь прочитать результат bigquery размером около 32 ГБ и постоянно получаю одну и ту же ошибку нехватки памяти.

Для моей нестандартной работы Vertex AI запускает машину n1-standart-32 с установленными моими параметрами ресурсов, которых теоретически должно быть достаточно для завершения работы.

После множества неудачных попыток я взял результаты запроса из bigquery и создал CSV-файл размером 41 ГБ и попытался просто прочитать этот файл еще раз на машине n1-standard-32, это продолжалось дольше, чем компонент с bigquery, но все равно не удалось через 40 минут. отметка.

У кого-нибудь есть такая же проблема? мой конвейер def выглядит так, как показано ниже;

введите описание изображения здесь

0 ответов

Другие вопросы по тегам