KeyError: "Недействительный ключ: slice(0, 1000, None). Сначала выберите разделение

Я пытаюсь выполнить эту строку кода, используя свой собственный набор данных, но обнаруживаю ошибку:


Это ошибка:

      KeyError: "Invalid key: slice(0, 1000, None). Please first select a split. For example: `my_dataset_dictionary['train'][slice(0, 1000, None)]`. Available splits: ['train']"

Поэтому в строке кода, которую я пытаюсь выполнить, где находится ['train'] нужно идти, чтобы удовлетворить аргументы?

Спасибо.

КОД:

      from datasets import load_dataset
      dataset = load_dataset('csv', data_files=['/content/drive/MyDrive/data.csv'])
      dataset['train'][1]
      dataset['train'][:5]
      batch_size = 1000
all_texts = [dataset['train'][i : i + batch_size]["col_1"] for i in range(0, len(dataset), batch_size)]
      def batch_iterator():
    for i in range(0, len(dataset), batch_size):
        yield dataset[i : i + batch_size]["col_1"]
      from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("gpt2")
      new_tokenizer = tokenizer.train_new_from_iterator(batch_iterator(), vocab_size=25000)

1 ответ

Не могли бы вы предоставить больше кода? Поскольку кажется, что ваша строка кода здесь не проблема, вы пытаетесь разрезать и массивировать где-то с помощью панд?

Попробуйте использовать отладку, выбрав строку, которую вы хотите проверить, и запустив тесты.