Как загрузить процент данных из huggingface load_dataset
Я пытаюсь загрузить набор данных «librispeech_asr», который составляет 29 ГБ, но из-за ограниченного места в Google Colab я не могу загрузить / загрузить набор данных, т. Е. Происходит сбой ноутбука.
Итак, я провел небольшое исследование и нашел аргумент, который мы можем передать в
load_dataset
функция для загрузки части набора данных, но она все еще загружает весь набор данных 30 ГБ на ноутбук. Аргумент
split
не работает...
from datasets import load_dataset
dataset = load_dataset("librispeech_asr", 'clean', split=['train.360[:50%]', 'validation'])
Я пытался загрузить только 50% данных train.360, но не смог.
Какой метод правильный и что я делаю неправильно?
2 ответа
Вы можете использовать их String API или API ReadInstruction, описанные здесь.
Вы можете создавать поезда, тестировать и проверять разбиения разных размеров (например, Split='train[:10%]'); Однако все данные (файл) будут загружены в объект набора данных.