KeyError: "Недействительный ключ: slice(0, 1000, None). Сначала выберите разделение

Question

KeyError: "Недействительный ключ: slice(0, 1000, None). Сначала выберите разделение

Я пытаюсь выполнить эту строку кода, используя свой собственный набор данных, но обнаруживаю ошибку:

Это ошибка:

      KeyError: "Invalid key: slice(0, 1000, None). Please first select a split. For example: `my_dataset_dictionary['train'][slice(0, 1000, None)]`. Available splits: ['train']"

Поэтому в строке кода, которую я пытаюсь выполнить, где находится ['train'] нужно идти, чтобы удовлетворить аргументы?

Спасибо.

КОД:

      from datasets import load_dataset

      dataset = load_dataset('csv', data_files=['/content/drive/MyDrive/data.csv'])

      dataset['train'][1]

      dataset['train'][:5]

      batch_size = 1000
all_texts = [dataset['train'][i : i + batch_size]["col_1"] for i in range(0, len(dataset), batch_size)]

      def batch_iterator():
    for i in range(0, len(dataset), batch_size):
        yield dataset[i : i + batch_size]["col_1"]

      from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("gpt2")

      new_tokenizer = tokenizer.train_new_from_iterator(batch_iterator(), vocab_size=25000)

0

python huggingface-transformers bert-language-model huggingface-tokenizers huggingface-datasets

Источник

user16098918 09 авг '21 в 16:50

1 ответ

Другие вопросы по тегам python huggingface-transformers bert-language-model huggingface-tokenizers huggingface-datasets

user16327999 09 авг '21 в 16:54 2021-08-09 16:54 · Answer 1 · 2021-08-09 16:54

Не могли бы вы предоставить больше кода? Поскольку кажется, что ваша строка кода здесь не проблема, вы пытаетесь разрезать и массивировать где-то с помощью панд?

Попробуйте использовать отладку, выбрав строку, которую вы хотите проверить, и запустив тесты.