Гремлин: вершины GroupBy, имеющие количество> 1

Question

Я использую TITAN 0.4 и gremlin для обходов. Мое требование - идентифицировать дубликаты вершин в графе и объединить их. В графе> 15 M вершин.

gremlin> g.V.has('domain').groupBy{it.domain}{it.id}.cap

==>{google.com=[4], yahoo.com=[16, 24, 20]}

Я могу сгруппировать вершины, но мне нужны только те области (вершины), которые существуют более одного раза.

В приведенном выше примере мне нужно только вернуть ==>{yahoo.com=[16, 24, 20]}Ключ "домен" индексируется, если это имеет значение.

Пожалуйста, помогите мне здесь

graph gremlin graph-databases titan

Источник

user1843011 11 май '15 в 09:39

2 ответа

Другие вопросы по тегам graph gremlin graph-databases titan

user1831717 11 май '15 в 10:17 2015-05-11 10:17 · Answer 1 · 2015-05-11 10:17

Рассмотрим использование groupCount скорее, чем groupBy чтобы сохранить шаг подсчета идентификаторов в вашем собранном списке:

g.V.has('domain').groupCount(it.domain}.cap.next().findAll{it.value>1}

Я предполагаю, что это также дешевле при большем обходе, поскольку вы просто поддерживаете счетчик, а не списки идентификаторов.

user5559594 18 фев '16 в 20:05 2016-02-18 20:05 · Answer 2 · 2016-02-18 20:05

Старый вопрос, а вы пробовали ниже, чтобы форсировать индекс?

g.V.hasNot('domain', null).groupBy{it.domain}{it.id}.cap

Источник

user5559594 18 фев '16 в 20:05