удалить пустые токены в кадре данных
Я хотел бы удалить пустые токены из фрейма данных. Вот пример:
import pandas as pd
import spacy_transformers
text = "hello world"
df = pd.DataFrame([x.split(';') for x in text.split('\n')])
sp = spacy.load('en_core_web_sm')
df['token'] = df[0].apply(sp)
С помощью этого кода я получаю
df['token']=(hello,, world)
, а я хотел бы получить
df['token']=(hello,world)
. Я знаю, что могу:
df[0] = df[0].str.replace('\s+', ' ', regex=True)
до токенизации, но в моем исходном наборе данных у меня есть только токены. Может ли кто-нибудь подсказать мне, как удалить пустые токены?