Spark ML Word2Vec Проблемы с сериализацией

Question

Spark ML Word2Vec Проблемы с сериализацией

Версия Spark: 1.6.1

Недавно я провел рефакторинг нашего кода Word2Vec для перехода к мл-моделям на основе DataFrame, но у меня возникла проблема с сериализацией и загрузкой модели локально.

Я могу успешно:

Подгоните фрейм данных и создайте модель.
Получить синонимы.

Когда я пытаюсь сериализовать модель локально, векторы не сериализуются, и, следовательно, размер файла слишком мал - около 2 КБ для 10 ГБ данных.

        FileOutputStream fo = new FileOutputStream("/tmp/word2vec");
        ObjectOutputStream so = new ObjectOutputStream(fo);
        so.writeObject(word2VecModel);
        so.flush();
        so.close();
        logger.info("Word2Vec model saved");

При загрузке модели и вызове функции findSynonyms() получается следующее исключение:

java.lang.NullPointerException at org.apache.spark.ml.feature.Word2VecModel.transform (Word2Vec.scala: 224)

Есть ли способ сохранить модель локально?

0

apache-spark apache-spark-mllib apache-spark-ml

Источник

user1202258 09 июн '16 в 10:24

1 ответ

Другие вопросы по тегам apache-spark apache-spark-mllib apache-spark-ml

user805412 11 окт '16 в 15:50 2016-10-11 15:50 · Answer 1 · 2016-10-11 15:50

Вы пытались использовать функциональность Model Persistence, которая включена в комплект поставки? Вы можете сохранить отдельную модель, весь конвейер и т. Д. Я пробовал это, и это сработало.

0

Источник

user805412 11 окт '16 в 15:50