Как отформатировать файлы TSV для использования с torchtext?

То, как я форматирую, выглядит так:

Jersei  N
atinge  V
média   N
. PU

Programe    V
...

Первая строка в каждой строке - лексический элемент, вторая - тег pos. Но пустая строка (которую я использую, чтобы указать конец предложения) дает мне ошибку AttributeError: 'Example' object has no attribute 'text' при запуске данного кода:

src = data.Field()
trg = data.Field(sequential=False)
mt_train = datasets.TabularDataset(
    path='/path/to/file.tsv',
    fields=(src, trg))
src.build_vocab(train)

Как правильно обозначить EOS для torchtext?

1 ответ

Решение

Следующий код читает TSV так, как я его отформатировал:

mt_train = datasets.SequenceTaggingDataset(path='/path/to/file.tsv',
                                           fields=(('text', text),
                                                   ('labels', labels)))

Бывает что SequenceTaggingDataset правильно определяет пустую строку как разделитель предложений.

Другие вопросы по тегам