Пример кода SparkNLP загружается 900 МБ очень медленно на databrcks

Я пытаюсь запустить блокнот ipython о SparkNLP по адресу https://github.com/JohnSnowLabs/spark-nlp-workshop/blob/master/tutorials/Certification_Trainings/Public/databricks_notebooks/3.SparkNLP_Pretrained_Models.ipynb

Я использую его на базе данных с

 6.6 ML spark 2.4.5

Код

# no need for token columns 
use_embeddings = UniversalSentenceEncoder.pretrained('tfhub_use').\
setInputCols(["document"]).\
setOutputCol("sentence_embeddings")

взял

 10 minutes 

скачать предварительно обученную модель 900 МБ.

Это слишком медленно, и пользовательский интерфейс Spark UI показывает, что нет активной задачи и что это узел i3.8 EC2. Кроме того, блоки данных показывают, что для кода выполняется только одно задание / задача, поэтому параллельные вычисления не выполняются.

Я сделал какие-то ошибки? Как ускориться?

Благодарность

0 ответов

Другие вопросы по тегам