Создать словарь Gensim из Term-Document-Matrix
Я пытаюсь создать словарь для gensim, чтобы оценить мои модели с согласованностью темы.
Следующий код не предоставляет массив токенов Unicode, а содержит одну строку:
with open(TDM_dateipfad, newline='') as csvfile:
reader = csv.reader(csvfile, delimiter=';', quotechar='|') #TDM öffnen
for row in reader:
dict = row[0]
dictionary = corpora.Dictionary(dict)
Из этого поста я знаю, что следующий код дает мой ответ, но я не знаю, как преобразовать его в переменную, чтобы получить из нее словарь.
with open(TDM_dateipfad, newline='') as csvfile:
reader = csv.reader(csvfile, delimiter=';', quotechar='|') #TDM öffnen
print([i[0] for i in reader])
Изменить: это первые пять строк моего CSV-файла. Я хочу пропустить первую строку и начать со второй, а для второй до конца хочу создать массив только для первого столбца:
Term;6,457,943;6,800,956;6,913,435;7,198,471;7,494,324;7,729,100;7,758,313;7,988,423;8,066,490;8,118,559;8,342,805;8,348,622;8,366,392;8,734,110;8,810,049;9,051,921;9,140,234
blade;19;83;110;107;15;53;39;140;55;42;189;215;146;139;0;27;144
surface;0;57;6;84;0;10;16;50;0;4;22;201;19;90;6;2;47
connection;1;38;0;6;15;48;0;23;8;9;6;268;13;34;81;20;4
carbon;10;6;6;29;14;57;29;83;4;17;8;50;2;49;14;43;29