Библиотека расширенного поиска python

У меня около 80 000 текстовых файлов, и я хочу иметь возможность выполнять расширенный поиск по ним. Допустим, у меня есть два списка ключевых слов, и я хочу вернуть все файлы, которые содержат по крайней мере одно из ключевых слов в первом списке и по крайней мере одно во втором списке. Уже есть библиотека, которая сделала бы это, я не хочу переписывать это, если это существует.

2 ответа

Решение

Поскольку вам нужно искать документы несколько раз, вы, скорее всего, захотите проиндексировать текстовые файлы, чтобы сделать такой поиск максимально быстрым.

Реализация разумного индекса самостоятельно, конечно, возможна, но быстрый поиск привел меня к:

Посмотрите на документацию. Надеемся, что это должно быть довольно тривиальным для достижения желаемого поведения.

Я просто чувствую, что вы хотите использовать тип поиска MapReduce для поиска. Он должен быть очень масштабируемым, Python должен иметь пакеты MapReduce.

Другие вопросы по тегам