termfreq для фразы

Я использую функцию SOLR 4.x termfreq в следующем примере, чтобы найти "авто нулевые усилители" в поле СОДЕРЖАНИЕ.

http://localhost:8080/solr/select/?fl=contents,documentPageId,termfreq%28contents,%27autozero%20amplifiers%27%29&defType=func&q=termfreq%28contents,%27autozero%20amplifiers%27%29&fq=documentId:49667

Я получаю нулевую частоту для следующего абзаца, который содержит фразу "Авто нулевые усилители".

Что мне нужно сделать с solrconfig.xml или schema.xml, чтобы использовать termfreq для фразы, а не для одного слова "усилитель"?

2 ответа

Решение

Если вы не позволите Lucene рассматривать "авто нулевые усилители" как один термин, вы не можете использовать векторы терминов, чтобы получить то, что вы ищете. Вы могли бы использовать KeywordTokenizerFactory для индексации, которая на самом деле не маркирует слова, она сохраняет весь поток текста как один токен. Но если, например, интересующее вас поле содержит следующий текст,

 "The quick brown fox jumps over the lazy dog"

как вы определяете границы своего термина?

 The quick
 The quick brown
 quick brown
 quick brown fox jumps
 over the lazy dog
 .....

комбинация растет экспоненциально для отдельного поля стоимости. Поскольку я отвечал на некоторые ваши вопросы, связанные с term vectors подойдя к этому, я думаю, что вы пытаетесь согнуть Solr/Lucene считать слово / набор слов в большом документе. Вы можете рассмотреть возможность интеграции Solr с Hadoop, и пусть Hadoop сделает все за вас. Черт! каждый пример Hadoop говорит о количестве слов и количестве строк. Solr + Hadoop = Big Data Love или, возможно, вы можете сделать это на своем собственном уровне приложения.

У меня мало информации об объеме данных вашего приложения, целях требований и т. Д., Так что в лучшем случае это предложение.

Вы можете попробовать следующий трюк

  1. termfreq() для обоих слов по отдельности и выполните sum(), чтобы получить его количество.

  2. Кроме того, вы можете использовать if() для проверки ваших значений.

Надеюсь, это звучит хорошо для вашего требования.

Другие вопросы по тегам