Получите размер словаря в токенизаторе tenorflow

Question

Получите размер словаря в токенизаторе tenorflow

Как мне получить размер словаря (неизвестного набора данных) после токенизации?

Это код:

      f = open("parallel2200Tab.txt","r")
pairs = [line.strip().split("\t") for line in  f]
f.close()
docs = tf.data.Dataset.from_tensor_slices(pairs)

tokenizer = text.WhitespaceTokenizer()
tokenized_docs = docs.map(lambda x: tokenizer.tokenize(x))

Мне нужно знать объем словарного запаса для обучения моей модели.

-1

tensorflow huggingface-transformers tokenize sentence-similarity sentence-transformers

Источник

user1319657 10 май '21 в 18:01

1 ответ

Другие вопросы по тегам tensorflow huggingface-transformers tokenize sentence-similarity sentence-transformers

10 май '21 в 20:14 2021-05-10 20:14 · Answer 1 · 2021-05-10 20:14

токенизированные документы должны быть доступны как dict, поэтому попробуйте:

      print(len(tokenized_docs))

или чтобы распечатать все это в режиме неполной отладки, выполните:

      i = 0
for k,v in tokenized_docs.items():
    print("word: "+k)
    print("numeric token: "+v)
    i++
    print("token count: "+i)

1

Источник

10 май '21 в 20:14