CamembertForSequenceClassification: обучение не работает
Я пытаюсь использовать и адаптировать блокнот на основе моделей huggingface: Классификация текста на GLUE (https://colab.research.google.com/github/huggingface/notebooks/blob/master/examples/text_classification.ipynb#scrollTo=YZbiBDuGIrId)
Моя цель - классифицировать предложение (предопределено 16 классов).
Я проследил за записной книжкой и сделал. Мои данные выглядят так, как показано ниже.
id data label langue
0 text_1 label_1 Français
0 text_2 label_2 Français
1 text_3 label_3 Français
import pandas as pd
import numpy as np
from datasets import load_dataset, load_metric, DatasetDict, Features, Value, ClassLabel, Dataset
У меня есть такой ярлык
{'label_1': 0,
'label_2': 1,
...}
dataset = load_dataset('csv', sep="|", data_files={"train" : train_paths, "test" : test_paths})
выход:
DatasetDict({
train: Dataset({
features: ['id', 'data', 'label', 'langue'],
num_rows: ...
})
test: Dataset({
features: ['id', 'data', 'label', 'langue'],
num_rows: ...
})
})
Делал все до этого в блокноте и когда пытаюсь это сделать:
trainer = Trainer(
model,
args,
train_dataset=encoded_dataset["train"],
eval_dataset=encoded_dataset[validation_key],
tokenizer=tokenizer,
compute_metrics= compute_metrics,
callbacks=[MLflowCallback()]
)
trainer.train()
У меня ошибка:
The following columns in the training set don't have a corresponding argument in
CamembertForSequenceClassification.forward
and have been ignored: langue, id, data.
IndexError: tuple index out of range
Что я могу сделать ?