KeyError: "Недействительный ключ: slice(0, 1000, None). Сначала выберите разделение
Я пытаюсь выполнить эту строку кода, используя свой собственный набор данных, но обнаруживаю ошибку:
Это ошибка:
KeyError: "Invalid key: slice(0, 1000, None). Please first select a split. For example: `my_dataset_dictionary['train'][slice(0, 1000, None)]`. Available splits: ['train']"
Поэтому в строке кода, которую я пытаюсь выполнить, где находится
['train']
нужно идти, чтобы удовлетворить аргументы?
Спасибо.
КОД:
from datasets import load_dataset
dataset = load_dataset('csv', data_files=['/content/drive/MyDrive/data.csv'])
dataset['train'][1]
dataset['train'][:5]
batch_size = 1000
all_texts = [dataset['train'][i : i + batch_size]["col_1"] for i in range(0, len(dataset), batch_size)]
def batch_iterator():
for i in range(0, len(dataset), batch_size):
yield dataset[i : i + batch_size]["col_1"]
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("gpt2")
new_tokenizer = tokenizer.train_new_from_iterator(batch_iterator(), vocab_size=25000)
1 ответ
Не могли бы вы предоставить больше кода? Поскольку кажется, что ваша строка кода здесь не проблема, вы пытаетесь разрезать и массивировать где-то с помощью панд?
Попробуйте использовать отладку, выбрав строку, которую вы хотите проверить, и запустив тесты.