Как загрузить процент данных из huggingface load_dataset

Я пытаюсь загрузить набор данных «librispeech_asr», который составляет 29 ГБ, но из-за ограниченного места в Google Colab я не могу загрузить / загрузить набор данных, т. Е. Происходит сбой ноутбука.

Итак, я провел небольшое исследование и нашел аргумент, который мы можем передать в load_datasetфункция для загрузки части набора данных, но она все еще загружает весь набор данных 30 ГБ на ноутбук. Аргумент split не работает...

      from datasets import load_dataset

dataset = load_dataset("librispeech_asr", 'clean', split=['train.360[:50%]', 'validation'])

Я пытался загрузить только 50% данных train.360, но не смог.

Какой метод правильный и что я делаю неправильно?

2 ответа

Вы можете использовать их String API или API ReadInstruction, описанные здесь.

Вы можете создавать поезда, тестировать и проверять разбиения разных размеров (например, Split='train[:10%]'); Однако все данные (файл) будут загружены в объект набора данных.

Другие вопросы по тегам