Что такое файл *.subwords при обработке естественного языка для использования в качестве файла словаря?

Question

Что такое файл *.subwords при обработке естественного языка для использования в качестве файла словаря?

Я пытался создать файл словаря в задаче nlp для использования в методе токенизации trax для токенизации слова, но я не могу найти, какой модуль / библиотеку использовать для создания файла *.subwords. Пожалуйста, помогите мне?

0

nlp data-science tokenize vocabulary trax

Источник

user14904002 29 дек '20 в 02:08

2 ответа

Другие вопросы по тегам nlp data-science tokenize vocabulary trax

26 авг '21 в 13:48 2021-08-26 13:48 · Answer 1 · 2021-08-26 13:48

Самый простой способ использовать trax.data.Tokenize с вашими собственными данными и словарем подслов - с помощью модуля Python Sentencepiece от Google.

      import sentencepiece as spm

spm.SentencePieceTrainer.train('--input=data/my_data.csv --model_type=bpe --model_prefix=my_model --vocab_size=32000')

Это создает два файла:

my_model.model
my_model.vocab

Мы будем использовать эту модель в trax.data.Tokenize и добавим параметр vocab_type со значением «фраза».

      trax.data.Tokenize(vocab_dir='vocab/', vocab_file='my_model.model', vocab_type='sentencepiece')

Я думаю, что это лучший способ, поскольку вы можете загрузить модель и использовать ее для получения идентификаторов элементов управления, избегая при этом жесткого кода.

      sp = spm.SentencePieceProcessor()
sp.load('my_model.model')

print('bos=sp.bos_id()=', sp.bos_id())
print('eos=sp.eos_id()=', sp.eos_id())
print('unk=sp.unk_id()=', sp.unk_id())
print('pad=sp.pad_id()=', sp.pad_id()) 

sentence = "hello world"
# encode: text => id
print("Pieces: ", sp.encode_as_pieces(sentence))
print("Ids: ", sp.encode_as_ids(sentence))
# decode: id => text
print("Decode Pieces: ", sp.decode_pieces(sp.encode_as_pieces(sentence)))
print("Decode ids: ", sp.decode_ids(sp.encode_as_ids(sentence)))

print([sp.bos_id()] + sp.encode_as_ids(sentence) + [sp.eos_id()])

Если вы по-прежнему хотите иметь файл подслов, попробуйте следующее:

      python trax/data/text_encoder_build_subword.py \
--corpus_filepattern=data/data.txt --corpus_max_lines=40000 \
--output_filename=data/my_file.subword

Я надеюсь, что это может помочь, поскольку нет четкой литературы, чтобы увидеть, как создавать совместимые файлы подслов.

user8647273 30 дек '20 в 14:04 2020-12-30 14:04 · Answer 2 · 2020-12-30 14:04

Вы можете использовать tenorflow API SubwordTextEncoder

Используйте следующий фрагмент кода -

      encoder = tfds.deprecated.text.SubwordTextEncoder.build_from_corpus(
    (text_row for text_row in text_dataset), target_vocab_size=2**15)
encoder.save_to_file(vocab_fname)

Tensorflow добавит расширение .subwords в указанный выше файл словаря.

0

Источник

user8647273 30 дек '20 в 14:04