Получите размер словаря в токенизаторе tenorflow
Как мне получить размер словаря (неизвестного набора данных) после токенизации?
Это код:
f = open("parallel2200Tab.txt","r")
pairs = [line.strip().split("\t") for line in f]
f.close()
docs = tf.data.Dataset.from_tensor_slices(pairs)
tokenizer = text.WhitespaceTokenizer()
tokenized_docs = docs.map(lambda x: tokenizer.tokenize(x))
Мне нужно знать объем словарного запаса для обучения моей модели.
1 ответ
токенизированные документы должны быть доступны как dict, поэтому попробуйте:
print(len(tokenized_docs))
или чтобы распечатать все это в режиме неполной отладки, выполните:
i = 0
for k,v in tokenized_docs.items():
print("word: "+k)
print("numeric token: "+v)
i++
print("token count: "+i)