Как включить заголовок в текстовых файлах load_dataset в Huggingface?
Я пытаюсь загрузить текстовый файл с помощью Huggingface ( https://huggingface.co/docs/datasets/v1.2.1/loading_datasets.html )
from datasets import load_dataset
dataset = load_dataset('text', data_files='my_file.txt')
Этот текстовый файл уже содержит заголовки, как мне указать это модулю (скажем,
header = True
, в случае панд
read_csv()
)?
Кроме того, как мне указать, что это разделяется табуляцией/запятой?
Есть ли способ представить эти данные в табличном формате?
3 ответа
Это старый вопрос, но для новичков:
Прочтите TSV-файл:
from datasets import load_dataset
dataset = load_dataset("csv", 'path/to/your/file.tsv', delimiter='\t')
По умолчанию имена столбцов будут выведены из первой строки.
Если в вашем файле нет строки заголовка и вы хотите указать имена столбцов, используйте
column_names = ['col1', 'col2', 'col3']
dataset = load_dataset("csv", 'path/to/your/file.tsv', delimiter='\t', column_names=column_names)
См. документацию: https://huggingface.co/docs/datasets/v2.12.0/en/package_reference/loading_methods#datasets.packaged_modules.csv.CsvConfig .
Вы можете прочитать это поpandas
а затем преобразовать в набор данных:
from datasets import Dataset
import pandas as pd
df = pd.read_table(path)
ds = Dataset.from_pandas(df)
Они используют pandas.read_csv() , и вы можете передавать параметры через load_dataset:
from datasets import load_dataset
a = load_dataset("csv", data_files="bla.tsv", sep="\t")