CamembertForSequenceClassification: обучение не работает

Я пытаюсь использовать и адаптировать блокнот на основе моделей huggingface: Классификация текста на GLUE (https://colab.research.google.com/github/huggingface/notebooks/blob/master/examples/text_classification.ipynb#scrollTo=YZbiBDuGIrId)

Моя цель - классифицировать предложение (предопределено 16 классов).

Я проследил за записной книжкой и сделал. Мои данные выглядят так, как показано ниже.

      id  data     label              langue

0   text_1   label_1            Français
 
0   text_2   label_2            Français

1   text_3   label_3            Français


import pandas as pd
import numpy as np
from datasets import load_dataset, load_metric, DatasetDict, Features, Value, ClassLabel, Dataset

У меня есть такой ярлык

      {'label_1': 0,
 'label_2': 1,
 ...}

dataset = load_dataset('csv', sep="|", data_files={"train" : train_paths, "test" : test_paths})

выход:

      DatasetDict({
    train: Dataset({
        features: ['id', 'data', 'label', 'langue'],
        num_rows: ...
    })
    test: Dataset({
        features: ['id', 'data', 'label', 'langue'],
        num_rows: ...
    })
})

Делал все до этого в блокноте и когда пытаюсь это сделать:

      trainer = Trainer(
    model,
    args,
    train_dataset=encoded_dataset["train"],
    eval_dataset=encoded_dataset[validation_key],
    tokenizer=tokenizer,
    compute_metrics= compute_metrics,
    callbacks=[MLflowCallback()]
)

trainer.train()

У меня ошибка: The following columns in the training set don't have a corresponding argument in CamembertForSequenceClassification.forward and have been ignored: langue, id, data. IndexError: tuple index out of range

Что я могу сделать ?

0 ответов