исправление AttributeError: объект 'NoneType' не имеет атрибута 'tokenize'
Я использую TokenClassificationPipeline для NER через трансформаторы, но сталкиваюсь с AttributeError: объект «NoneType» не имеет атрибута «tokenize». Я не знаю, как это исправить.
from transformers import TokenClassificationPipeline
import torch
import numpy as np
import re
class BatchedTokenClassificationPipeline(TokenClassificationPipeline):
def tokenize_with_subword_mask(self, sequence):
# do a simple word split to find words and punctuation
pattern = r"[\w\d]\S*[\w\d]|(?<=\s)[^\w\d\s]+|[^\w\d\s](?=\s)"
words = re.findall(pattern, ' ' + sequence + ' ')
is_subword_mask = []
tokens = []
for iword, word in enumerate(words):
word_tokens = self.tokenizer.tokenize(' ' + word)
tokens.extend(word_tokens)
is_subword_mask.extend([i != 0 for i in range(len(word_tokens))])
assert len(tokens) == len(is_subword_mask)
return tokens, is_subword_mask