Ошибка сегментации (ядро сброшено) в Glove.c

Я пытаюсь обучить Перчатку https://github.com/stanfordnlp/GloVe/blob/master/src/glove.c на довольно большом наборе данных, новейшем вики-дампе (текстовый файл 22G). Общее количество слов, которые я тренирую, составляет 1,7 мил. Каждый файл (shuffle, cooccur, vocab_count) до перчаток работает без ошибок памяти. (Моя RAM = 64G)

Однако, когда я запускаю перчатку, я получаю "Ошибка сегментации (ядро сброшено)".

aerin@capa:~/Desktop/GloVe/build$ ./glove -input-file cooccurrence.shuf.bin -vocab-file vocab.txt -save-file glove300 -t-iter 25  -gradsq-file gradsq -verbose 2 -vector-size 300 -threads 1 -alpha 0.75 -x-max 100.0 -eta 0.05 -binary 2 -model 2
TRAINING MODEL
Read 1939406304 lines.
Initializing parameters...done.
vector size: 300
vocab size: 1737888
x_max: 100.000000
alpha: 0.750000
Segmentation fault (core dumped)

Я пробовал также с различным количеством потоков: 1,2,4,8,16,32 и т. Д. Ничего не работает. Может кто-нибудь, пожалуйста, укажите мне, где искать?

Обновить

Я сократил количество словарного запаса с 1,7 миллиона до 1 миллиона, и glove.c работает без ошибки "ошибка сегментации". Так что это ошибка памяти. Но мне бы очень хотелось узнать, как устранить эту ошибку, и уметь тренировать модель в большом наборе данных! Любой комментарий будет высоко оценен. Благодарю.

0 ответов

Другие вопросы по тегам