Есть ли способ получить файл дампа conceptnet, который содержит только английские узлы?

Я попытался загрузить весь файл дампа (утверждения) с https://github.com/commonsense/conceptnet5/wiki/Downloads . Этот файл очень большой (~10 ГБ), а затем я пишу скрипт Python для фильтрации неанглийских языков. узлы:

      FILE = 'conceptnet-assertions-5.7.0.csv'
data = pd.read_csv(FILE, delimiter='\t')
data.columns = ['uri', 'relation', 'start', 'end', 'json']
# delete non-english nodes
data = data[data['start'].apply(lambda row: row.find('en') > 0) & data['end'].apply(lambda row: row.find('en') > 0)]
data.index = range(data.shape[0])
print(data) 

Однако использование pandas для чтения этого большого CSV-файла требует очень много времени, и даже спустя долгое время я все еще не могу получить результат. В этом случае мне интересно, есть ли какой-нибудь эффективный способ отфильтровать неанглийские узлы?

0 ответов

Другие вопросы по тегам