Прием данных JanusGraph в масштабе
Мы загружаем данные в Janusgraph на Kubernetes(GCP) с помощью python. Мы выполняем многопоточность, цепочку узлов, индексацию, но все же можем принять только 100 тыс. (Узлов) записей за 60 минут из bigquery.
Спецификация Kubernetes - 1 Pod с 25 виртуальными ЦП и 150 ГиБ RAM ids.block-size = 10 миллионов потоков, пул - 16 узлов - 16 размер кучи - 4 ГБ
Вопросы:
Любой другой подход, который мы можем использовать для увеличения производительности приема, сокращая общее время.
Сколько одновременных соединений мы можем создать с помощью Janusgraph через драйвер Python. В настоящее время мы можем создать 30 потоков (соединений), но когда мы увеличиваем количество потоков, соединение либо зависает, либо снижается производительность.
Любые детали / помощь будут высоко оценены
Запрос Gremlin: gV(). HasLabel("http://purl.uniprot.org/core/Helix_Annotation").has("id", "http://purl.uniprot.org/uniprot/P06931#SIPC5C5063B7561AB45").has("node_id", "http://purl.uniprot.org/uniprot/P06931#SIPC5C5063B7561AB45").has("rdf_type", "http://purl.uniprot.org/uniprot/").has("http://purl.uniprot.org/core/range", "http://purl.uniprot.org/range/22571007582875950tt125tt127").fold().coalesce(deploy (), addV("http://purl.uniprot.org/core/Helix_Annotation").property("id", "http://purl.uniprot.org/uniprot/P06931#SIPC5C5063B7561AB45").property("node_id", "http://purl.uniprot.org/uniprot/P06931#SIPC5C5063B7561AB45").property("rdf_type", "http://purl.uniprot.org/uniprot/").property("http://purl.uniprot.org/core/range", "http://purl.uniprot.org/range/22571007582875950tt125tt127")).V().hasLabel("http://www.w3.org/1999/02/22-rdf-syntax-ns# Заявление "). Has("id", "http://purl.uniprot.org/uniprot/#_kb.P06931_up.annotation_FA85AD309172A9A7").has("node_id", "http://purl.uniprot.org/uniprot/#_kb.P06931_up.annotation_FA85AD309172A9A7").has("rdf_type", "http://purl.uniprot.org/uniprot/").has("http://purl.uniprot.org/core/attribution", "http://purl.uniprot.org/uniprot/P06931#attribution-AE0E09C5B47CC2714C9061D3806995B4").fold().coalesce(deploy (), addV("http://www.w3.org/1999/02/22-rdf-syntax-ns#Statement").property("id", "http://purl.uniprot.org/uniprot/#_kb.P06931_up.annotation_FA85AD309172A9A7").свойство ("node_id", "http://purl.uniprot.org/uniprot/#_kb.P06931_up.annotation_FA85AD309172A9A7").property("rdf_type", "http://purl.uniprot.org/uniprot/"). свойство ("http://purl.uniprot.org/core/attribution", "http://purl.uniprot.org/uniprot/P06931#attribution-AE0E09C5B47CC2714C9061D3806995B4"))
1 ответ
Вы пробовали использовать отличные скрипты? Мне удалось вставить ~5K узлов за ~10 секунд в однопоточную обработку в janusgraph, у которого гораздо меньше ОЗУ и ЦП.