Как включить заголовок в текстовых файлах load_dataset в Huggingface?

Я пытаюсь загрузить текстовый файл с помощью Huggingface ( https://huggingface.co/docs/datasets/v1.2.1/loading_datasets.html )

      from datasets import load_dataset
dataset = load_dataset('text', data_files='my_file.txt')

Этот текстовый файл уже содержит заголовки, как мне указать это модулю (скажем, header = True, в случае панд read_csv())?

Кроме того, как мне указать, что это разделяется табуляцией/запятой?

Есть ли способ представить эти данные в табличном формате?

3 ответа

Это старый вопрос, но для новичков:

Прочтите TSV-файл:

      from datasets import load_dataset

dataset = load_dataset("csv", 'path/to/your/file.tsv', delimiter='\t')

По умолчанию имена столбцов будут выведены из первой строки.

Если в вашем файле нет строки заголовка и вы хотите указать имена столбцов, используйте

      column_names = ['col1', 'col2', 'col3']
dataset = load_dataset("csv", 'path/to/your/file.tsv', delimiter='\t', column_names=column_names)

См. документацию: https://huggingface.co/docs/datasets/v2.12.0/en/package_reference/loading_methods#datasets.packaged_modules.csv.CsvConfig .

Вы можете прочитать это поpandasа затем преобразовать в набор данных:

        from datasets import Dataset
  import pandas as pd

  df = pd.read_table(path)
  ds = Dataset.from_pandas(df)

Они используют pandas.read_csv() , и вы можете передавать параметры через load_dataset:

      from datasets import load_dataset

a = load_dataset("csv", data_files="bla.tsv", sep="\t")
Другие вопросы по тегам