Доработка: лама-2-13б-чат

Для точной настройки больших языковых моделей (llama2) какой должен быть формат (.text/.json/.csv) и структура (например, файл Excel или docs, приглашение и ответ или инструкция и вывод) набор обучающих данных? А также как подготовить или организовать набор табличных данных для целей обучения?

Я создал электронную таблицу, содержащую около 2000 пар инструкций и выходных данных, и использовал модель мета-лама/Llama-2-13b-chat-hf. Но когда вы начинаете запрашивать электронную таблицу с использованием вышеуказанной модели, она большую часть времени дает неправильные ответы, а также повторяет это много раз. Поэтому я хочу знать, какой формат документов и их структуру мне следует попробовать для точной настройки файла llama2.

1 ответ

Можешь попробоватьhuggingface Datasetsбиблиотека.

для всех файлов JSON в каталогеyour_file_dir, пытаться

from Datasets import load_dataset

My_dataset = load_dataset('json',data_files= "your_file_dir/*.json")

вы также можете определить файлы данных дляtrain testрасколы и прочееapiна https://huggingface.co/docs/datasets/loading#json

Другие вопросы по тегам