Описание тега information-retrieval

Информационный поиск - это область исследования, связанная с поиском документов, информации или метаданных из набора неструктурированных или частично структурированных данных.
1 ответ

Программно формировать предложение из списка существительных

У меня есть требование, согласно которому мне дают набор существительных, и я должен программно сформулировать (сформировать) предложение из этих существительных.В качестве примера - Предположим, мне дан набор существительных, таких как - {"шоколад"…
1 ответ

Как получить правильный форматированный текст из HTML, когда теги не имеют разрывов строк

Я пытаюсь проанализировать этот образец HTML-файла с помощью библиотеки Jsoup HTML-разбора. <html> <body> <p> this is sample text</p> <h1>this is heading sample</h1> <select name="car" size="1"> <option v…
24 фев '14 в 15:11
2 ответа

Какова правильная версия средней точности?

Я пытаюсь вычислить среднюю точность (и среднюю среднюю точность) в наборе изображений здания Оксфорд. Ниже приведен код, который они предоставляют для вычисления средней точности. Заметить, что pos_set является объединением "оптимальных" и "хороших…
21 дек '16 в 17:59
2 ответа

Алгоритм C# для N-граммы

Я собираюсь использовать n-граммовый код из этой статьи. Алгоритм дает следующие результаты триграммы: t, th, the, he, e, q, qu, qui, uic, ick, ck, k, r, re, red, ed, d для текста the quick red Однако википедия считает, что это должно быть так: the …
30 сен '10 в 08:53
1 ответ

Информационно-поисковые модели индексации и ранжирования

Я не могу думать о структуре, которая соответствует этому вопросу (а). Я думал об идее размещения списка 100х100 +1 записей, которые содержат точные данные любого пикселя, но мне кажется, что это пустая идея. И если бы я мог получить некоторую помо…
01 дек '16 в 23:20
3 ответа

Кластеризация новостных статей

Мой сценарий довольно прост: у меня есть куча новостных статей (~1k на данный момент), для которых я знаю, что некоторые из них освещают одну и ту же историю / тему. Теперь я хотел бы сгруппировать эти статьи на основе общей истории / темы, то есть …
4 ответа

Как удалить и посчитать слова из текстового файла?

Я хочу найти термины Частота и Частота инвертирования документов (TF-IDF) для текстовых файлов в определенной коллекции файлов. Так что в этом случае я просто хочу рассчитать общее количество слов в файле, количество вхождений конкретного слова в фа…
01 мар '13 в 05:38
0 ответов

Как получить размер словаря из IndexReader в Lucene

Поэтому я проиндексировал свои документы, используя IndexWriter Lucene. Теперь, чтобы реализовать некоторую модель сглаживания, мне нужен конкретный размер словаря в коллекции или общее количество уникальных терминов в коллекции. Но похоже, что Luce…
0 ответов

Как автоматически найти хорошие предложения для подсказки завершения Elasticsearch

Я хочу добавить автозаполнение в свою поисковую систему, и подсказка завершения Elasticsearch кажется лучшим решением, чем использование граничных Ngrams. Но есть большая проблема. для завершения предложения требуется список предварительно определен…
09 май '18 в 10:20
1 ответ

Что обозначают коды на ценниках Walmart ("VEN", "AR", "AS", "WR" и т. Д.)?

Я пишу программу для чтения различных ценовых этикеток из моих местных магазинов (те наклейки, которые обычно ниже продукта и показывают цену). На этикетке Walmart есть несколько кодов, которые я совсем не понимаю. В моем городе они находятся в лево…
24 мар '15 в 16:49
2 ответа

Свободный подход к поиску

Я хочу сделать поиск для своего сайта, и для удовольствия я решил, что я должен хотя бы попытаться сделать это сам (в случае неудачи всегда есть пользовательский поиск Google). Проблема в том, что я даже не знаю, как подойти к этому монстру! Вот тре…
1 ответ

Как удалить OCR артефакты из текста?

Сгенерированные OCR тексты иногда поставляются с такими артефактами, как этот: Diese grundsätzliche V erborgenheit Gottes, die sich nur dem N achfolger öffnet, ist mitdem Messiasgeheimnis gemeint Несмотря на то, что в качестве акцента используется и…
0 ответов

К какому абзацу относится поисковый запрос

Получить топ- n ближайших ответов по поисковому запросу задают из списка абзацев. Короче говоря, нужно создать поисковую систему на основе настраиваемого набора данных, где у меня есть списки абзацев, доступных для настраиваемого домена. ТИА
1 ответ

Проблемы с пониманием выбора функции хи-квадрат

У меня были проблемы с пониманием выбора функции хи-квадрат. У меня есть два класса, положительный и отрицательный, каждый из которых содержит разные термины и количество терминов. Мне нужно выполнить выбор функции хи-квадрат, чтобы извлечь наиболее…
3 ответа

Двоичные деревья используются для данных, хранящихся во внутренней памяти

Двоичные деревья обычно предпочитают данные, хранящиеся во внутренней памяти. почему они предпочитают извлечение внутренней памяти??? И почему мы не можем использовать их для извлечения внешней информации???
2 ответа

Как выполнить Семантическое Сходство в документе

Я делаю проект, в котором мне нужно ранжировать текстовый документ в соответствии с поисковым запросом, как поисковая система, но мне нужно ранжировать документы, имеющие семантическое сходство слова или предложения, я не могу начать с того, как най…
25 июн '14 в 11:23
3 ответа

tf-idf: я правильно понимаю?

Я заинтересован в кластеризации некоторых документов, и сейчас я рассматриваю возможность использования TF-IDF для этого. Если я не ошибаюсь, TF-IDF особенно используется для оценки релевантности документа по заданному запросу. Если у меня нет конкр…
0 ответов

Веб логика 12CR2, как получить имя развернутого приложения на уровне раздела

Я пытаюсь найти способ получить имя развернутого приложения на уровне раздела на некоторое время. Но я не получил никакой работы! Если кто так работает, пожалуйста, сообщите! Начиная с Weblogic 12cR2 (12.2.1.0.0), FMW поддерживает несколько арендато…
1 ответ

Где я могу получить Википедию XML корпус

Я не знаю, можно ли здесь об этом спросить, но я так усердно искал это и снова и снова приходил в тупик. Я работаю над проектом по поиску информации. Я запрограммировал свою поисковую систему, но не могу ее протестировать, потому что мне нужен этот …
08 апр '11 в 08:10
2 ответа

Система перевернутого индекса с использованием Python

Я работаю над созданием инвертированного индекса с использованием Python. У меня есть некоторые сомнения относительно производительности, которую он может предоставить мне. Будет ли Python индексировать почти так же быстро, как Java или C? Кроме тог…