Получите размер словаря в токенизаторе tenorflow

Как мне получить размер словаря (неизвестного набора данных) после токенизации?

Это код:

      f = open("parallel2200Tab.txt","r")
pairs = [line.strip().split("\t") for line in  f]
f.close()
docs = tf.data.Dataset.from_tensor_slices(pairs)

tokenizer = text.WhitespaceTokenizer()
tokenized_docs = docs.map(lambda x: tokenizer.tokenize(x))

Мне нужно знать объем словарного запаса для обучения моей модели.

1 ответ

токенизированные документы должны быть доступны как dict, поэтому попробуйте:

      print(len(tokenized_docs))

или чтобы распечатать все это в режиме неполной отладки, выполните:

      i = 0
for k,v in tokenized_docs.items():
    print("word: "+k)
    print("numeric token: "+v)
    i++
    print("token count: "+i)