Есть ли способ отправить объект Python (объект Hugginface Datasets) из памяти непосредственно в корзину Amazon S3 без необходимости сохранять его в локальный файл?

У меня есть объект HuggingFace Datasets, загруженный в память программы Python. После некоторых манипуляций с этим объектом набора данных он будет использоваться отдельной программой Python позже.

В настоящее время я сохраняю его на локальном жестком диске и снова читаю во второй программе. Однако этот процесс идет медленно, поскольку исходный файл Excel, из которого создается набор данных Huggingface, содержит около миллиона строк данных. API для двух программ основаны на Flask Restful. Первый API сохраняет набор данных на локальный диск после манипуляций, а второй API считывает этот набор данных с жесткого диска и выполняет на нем свои собственные задачи.

Есть ли способ, чтобы вместо сохранения объекта набора данных в локальный файл на жестком диске я мог напрямую отправить этот объект набора данных в Amazon S3? Я попытался использовать boto3, но это позволило мне загрузить существующий файл в корзину S3 (файл уже должен существовать на локальном жестком диске). Так что в основном мне все равно нужно сначала сохранить файл на локальном жестком диске, а затем использовать boto3 для загрузки этого файла на S3. Есть ли способ напрямую отправлять объекты Python в памяти, такие как наборы данных или фреймы данных, на S3 без этого дополнительного шага по сохранению их сначала в локальный файл? Спасибо.

0 ответов

Другие вопросы по тегам