удалить пустые токены в кадре данных

Я хотел бы удалить пустые токены из фрейма данных. Вот пример:

      import pandas as pd
import spacy_transformers

text = "hello  world"
df = pd.DataFrame([x.split(';') for x in text.split('\n')])
sp = spacy.load('en_core_web_sm')
df['token'] = df[0].apply(sp)

С помощью этого кода я получаю df['token']=(hello,, world), а я хотел бы получить df['token']=(hello,world). Я знаю, что могу:

      df[0] = df[0].str.replace('\s+', ' ', regex=True)

до токенизации, но в моем исходном наборе данных у меня есть только токены. Может ли кто-нибудь подсказать мне, как удалить пустые токены?

Источник

user16384503 15 окт '21 в 15:48

0 ответов

Другие вопросы по тегам python pandas dataframe token spacy-transformers