Пример кода SparkNLP загружается 900 МБ очень медленно на databrcks
Я пытаюсь запустить блокнот ipython о SparkNLP по адресу https://github.com/JohnSnowLabs/spark-nlp-workshop/blob/master/tutorials/Certification_Trainings/Public/databricks_notebooks/3.SparkNLP_Pretrained_Models.ipynb
Я использую его на базе данных с
6.6 ML spark 2.4.5
Код
# no need for token columns
use_embeddings = UniversalSentenceEncoder.pretrained('tfhub_use').\
setInputCols(["document"]).\
setOutputCol("sentence_embeddings")
взял
10 minutes
скачать предварительно обученную модель 900 МБ.
Это слишком медленно, и пользовательский интерфейс Spark UI показывает, что нет активной задачи и что это узел i3.8 EC2. Кроме того, блоки данных показывают, что для кода выполняется только одно задание / задача, поэтому параллельные вычисления не выполняются.
Я сделал какие-то ошибки? Как ускориться?
Благодарность