Как отформатировать файлы TSV для использования с torchtext?
То, как я форматирую, выглядит так:
Jersei N
atinge V
média N
. PU
Programe V
...
Первая строка в каждой строке - лексический элемент, вторая - тег pos. Но пустая строка (которую я использую, чтобы указать конец предложения) дает мне ошибку AttributeError: 'Example' object has no attribute 'text'
при запуске данного кода:
src = data.Field()
trg = data.Field(sequential=False)
mt_train = datasets.TabularDataset(
path='/path/to/file.tsv',
fields=(src, trg))
src.build_vocab(train)
Как правильно обозначить EOS для torchtext?
1 ответ
Решение
Следующий код читает TSV так, как я его отформатировал:
mt_train = datasets.SequenceTaggingDataset(path='/path/to/file.tsv',
fields=(('text', text),
('labels', labels)))
Бывает что SequenceTaggingDataset
правильно определяет пустую строку как разделитель предложений.