Масштабируемость Apache Stanbol и реальные приложения
Я начинаю проект с такими требованиями, как НЛП, хранение семантических данных, управление контентом и т. Д., И Apache Stanbol кажется подходящим вариантом, но я не совсем уверен, что он готов, поэтому я пытаюсь сделать соответствующую оценку до того, как начинаю с ним работать, так как меня мало что волнует:
Станбол кажется немного молодым и незрелым (новейшая версия 0.12). Кто-нибудь использовал его в коммерческом проекте / приложении / настройке (мне не удалось найти эту информацию в Интернете)? Каков масштаб этих проектов?
Насколько горизонтально масштабируется Станбол? Каковы его облачные / кластерные возможности? Насколько я знаю, для хранения данных используется Apache Jena, а хранилище Jena не масштабируется по горизонтали, что делает Stanbol неспособным также масштабироваться по горизонтали. Я могу ошибаться, но это мое понимание, пожалуйста, поправьте меня, если я ошибаюсь. Может быть, Джену можно заменить чем-то еще, чтобы использовать в качестве поставщика RDF-хранилища, и я не знаю об этом?
Учебные ресурсы для Stanbol кажутся немного скудными. Кто-нибудь знает место / книгу / что-нибудь еще, где я могу лучше понять Stanbol под капотом (кроме официального сайта Stanbol и сайта IKS)? Есть ли хорошие альтернативы? Я знаю, что есть хорошие альтернативы в отношении NLP (например, GATE, UIMA), но им не хватает возможностей CMS.
Благодарю.
2 ответа
На ваш вопрос:
- 1) Я работал над проектом с участием Stanbol(версия 0.10). Это все еще в стадии предварительного производства. Для CMS мы оценили JackRabbit и Alfresco. Alfresco (CMIS) был признан лучшим выбором в нашем случае. Что мне нравится в stanbol, так это цепочки улучшений и набор Enhancement Engines, которые поставляются по умолчанию. Это небольшой и средний проект.
- 3) Я нашел эту книгу (Instant Apache Stanbol, Packt Publishing) очень практичной и полезной, работая с моей работой, особенно с разделами о Entity-хабах и движках Enhancement.
Жизнеспособным вариантом является использование Redlink, который предлагает контентный анализ и связанные службы данных в облаке с использованием Apache Stanbol и Apache Marmotta в серверной части.
Команда Readlink работала над IKS и Apache Stanbol; по этим причинам контакт с ними может быть хорошей отправной точкой при принятии решения об использовании этих технологий в производственных средах.