Описание тега huggingface-datasets

Используйте этот тег для вопросов, связанных с проектом наборов данных от Huggingface.[Проект на Github][1] [1]: https://github.com/huggingface/datasets
1 ответ

KeyError: «Ни один из ['index'] не находится в столбцах»

Вот файл json: { "id": "68af48116a252820a1e103727003d1087cb21a32", "article": [ "by mark duell .", "published : .", "05:58 est , 10 september 2012 .", "| .", "updated : .", "07:38 est , 10 september 2012 .", "a pet owner starved her two dogs so badl…
26 май '21 в 16:56
2 ответа

Слишком длинное имя файла

В локальном репозитории у меня есть несколько файлов json. Когда я запускаю команду from datasets import load_dataset dataset = load_dataset('json', data_files=['./100009.json']) Получила следующую ошибку: OSError: [Errno 36] File name too long: '/h…
26 май '21 в 14:44
0 ответов

ArrowInvalid: столбец 1 назвал статью ожидаемой длиной 40, но получил длину 35

Вот файл json: { "id": "68af48116a252820a1e103727003d1087cb21a32", "article": [ "by mark duell .", "published : .", "05:58 est , 10 september 2012 .", "| .", "updated : .", "07:38 est , 10 september 2012 .", "a pet owner starved her two dogs so badl…
26 май '21 в 19:24
0 ответов

ValueError: ввод недействителен. Должен быть строкой, списком / кортежем строк или списком / кортежем целых чисел.

from os import listdir from os.path import isfile, join from datasets import load_dataset from transformers import BertTokenizer test_files = [join('./test/', f) for f in listdir('./test') if isfile(join('./test', f))] dataset = load_dataset('json'…
0 ответов

Обозначение предложений особым образом

from os import listdir from os.path import isfile, join from datasets import load_dataset from transformers import BertTokenizer test_files = [join('./test/', f) for f in listdir('./test') if isfile(join('./test', f))] dataset = load_dataset('json'…
3 ответа

Обнимающее лицо: NameError: имя 'предложения' не определено

Я следую этому руководству здесь: https://huggingface.co/transformers/training.html - хотя я сталкиваюсь с ошибкой, и я думаю, что в учебнике отсутствует импорт, но я не знаю, какой именно. Это мой текущий импорт: # Transformers installation ! pip i…
0 ответов

Каков эффект изменения шагов снижения веса и разминки в точной настройке PEGASUS?

Я настраиваю модель PEGASUS с помощью этого скрипта. В настоящее время я использую набор данных SAMSum, и я достиг точки, когда результат не улучшается. Примеры: Фактическое резюме Алексис и Картер встретились сегодня вечером. Картер хотел бы встрет…
2 ответа

Как загрузить процент данных из huggingface load_dataset

Я пытаюсь загрузить набор данных «librispeech_asr», который составляет 29 ГБ, но из-за ограниченного места в Google Colab я не могу загрузить / загрузить набор данных, т. Е. Происходит сбой ноутбука. Итак, я провел небольшое исследование и нашел арг…
2 ответа

Проблема с методом токенизатора batch_encode_plus

Я столкнулся со странной проблемой в batch_encode_plusметод токенизаторов. Я недавно перешел с трансформатора версии 3.3.0 на 4.5.1. (Я создаю свою базу данных для NER). У меня есть 2 предложения, которые мне нужно закодировать, и у меня есть случай…
2 ответа

Наборы данных ModuleNotFoundError huggingface в записной книжке Jupyter

Я хочу использовать библиотеку наборов данных huggingface из записной книжки Jupyter. Это должно быть так же просто, как его установка ( pip install datasets, в bash внутри venv) и импортируя его ( import datasets, в Python или в записной книжке). В…
0 ответов

получить индексы пакета при итерации DataLoader по набору данных huggingface

Приведенный ниже код взят из учебника huggingface: from datasets import load_metric metric= load_metric("glue", "mrpc") model.eval() for batch in eval_dataloader: batch = {k: v.to(device) for k, v in batch.items()} with torch.no_grad(): outputs = mo…
1 ответ

Установка remove_unused_columns=False вызывает ошибку в классе HuggingFace Trainer

Я обучаю модель с помощью класса HuggingFace Trainer. Следующий код неплохо справляется: !pip install datasets !pip install transformers from datasets import load_dataset from transformers import AutoModelForSequenceClassification, TrainingArguments…
1 ответ

Как загрузить набор данных в потоковом режиме в Google Colab?

Я пытаюсь сэкономить место на диске, чтобы использовать набор данных CommonVoice French (19G) в Google Colab, поскольку в моем ноутбуке всегда не хватает места на диске. Я видел из документации HuggingFace, что мы можем загружать набор данных в пото…
0 ответов

Есть ли способ отправить объект Python (объект Hugginface Datasets) из памяти непосредственно в корзину Amazon S3 без необходимости сохранять его в локальный файл?

У меня есть объект HuggingFace Datasets, загруженный в память программы Python. После некоторых манипуляций с этим объектом набора данных он будет использоваться отдельной программой Python позже. В настоящее время я сохраняю его на локальном жестко…
04 авг '21 в 03:02
0 ответов

Преобразование Pandas DataFrame с помощью набора данных hugginface

from datasets import ClassLabel, Sequence import random import pandas as pd from IPython.display import display, HTML def show_random_elements(dataset, num_examples=10): assert num_examples <= len(dataset), "Can't pick more elements than there a…
04 авг '21 в 07:45
1 ответ

KeyError: "Недействительный ключ: slice(0, 1000, None). Сначала выберите разделение

Я пытаюсь выполнить эту строку кода, используя свой собственный набор данных, но обнаруживаю ошибку: Это ошибка: KeyError: "Invalid key: slice(0, 1000, None). Please first select a split. For example: `my_dataset_dictionary['train'][slice(0, 1000, N…
1 ответ

Ключевая ошибка при загрузке обучающего корпуса в метод train_new_from_iterator

Я следую этому руководству здесь: https://github.com/huggingface/notebooks/blob/master/examples/tokenizer_training.ipynb Итак, используя этот код, я добавляю свой собственный набор данных: from datasets import load_dataset dataset = load_dataset('cs…
2 ответа

PyTorch: Могу ли я группировать партии по длине?

Я работаю над проектом ASR, где использую модель из HuggingFace ( ). Моя цель на данный момент - перенести процесс обучения на PyTorch, поэтому я пытаюсь воссоздать все, что HuggingFace классные предложения. Одна из этих утилит - это возможность гру…
0 ответов

CamembertForSequenceClassification: обучение не работает

Я пытаюсь использовать и адаптировать блокнот на основе моделей huggingface: Классификация текста на GLUE (https://colab.research.google.com/github/huggingface/notebooks/blob/master/examples/text_classification.ipynb#scrollTo=YZbiBDuGIrId) Моя цель …
1 ответ

Кодирование / токенизация словаря набора данных (BERT/Huggingface)

Я пытаюсь доработать свою модель анализа настроений. Поэтому я разделил свой фрейм данных pandas (столбец с отзывами, столбец с оценками настроений) на тренировочный и тестовый фрейм данных и преобразовал все в словарь набора данных: #Creating Datas…