Доработка: лама-2-13б-чат
Для точной настройки больших языковых моделей (llama2) какой должен быть формат (.text/.json/.csv) и структура (например, файл Excel или docs, приглашение и ответ или инструкция и вывод) набор обучающих данных? А также как подготовить или организовать набор табличных данных для целей обучения?
Я создал электронную таблицу, содержащую около 2000 пар инструкций и выходных данных, и использовал модель мета-лама/Llama-2-13b-chat-hf. Но когда вы начинаете запрашивать электронную таблицу с использованием вышеуказанной модели, она большую часть времени дает неправильные ответы, а также повторяет это много раз. Поэтому я хочу знать, какой формат документов и их структуру мне следует попробовать для точной настройки файла llama2.
1 ответ
Можешь попробоватьhuggingface
Datasets
библиотека.
для всех файлов JSON в каталогеyour_file_dir
, пытаться
from Datasets import load_dataset
My_dataset = load_dataset('json',data_files= "your_file_dir/*.json")
вы также можете определить файлы данных дляtrain test
расколы и прочееapi
на https://huggingface.co/docs/datasets/loading#json