Описание тега information-retrieval
Информационный поиск - это область исследования, связанная с поиском документов, информации или метаданных из набора неструктурированных или частично структурированных данных.
1
ответ
Программно формировать предложение из списка существительных
У меня есть требование, согласно которому мне дают набор существительных, и я должен программно сформулировать (сформировать) предложение из этих существительных.В качестве примера - Предположим, мне дан набор существительных, таких как - {"шоколад"…
27 фев '16 в 19:21
1
ответ
Как получить правильный форматированный текст из HTML, когда теги не имеют разрывов строк
Я пытаюсь проанализировать этот образец HTML-файла с помощью библиотеки Jsoup HTML-разбора. <html> <body> <p> this is sample text</p> <h1>this is heading sample</h1> <select name="car" size="1"> <option v…
24 фев '14 в 15:11
2
ответа
Какова правильная версия средней точности?
Я пытаюсь вычислить среднюю точность (и среднюю среднюю точность) в наборе изображений здания Оксфорд. Ниже приведен код, который они предоставляют для вычисления средней точности. Заметить, что pos_set является объединением "оптимальных" и "хороших…
21 дек '16 в 17:59
2
ответа
Алгоритм C# для N-граммы
Я собираюсь использовать n-граммовый код из этой статьи. Алгоритм дает следующие результаты триграммы: t, th, the, he, e, q, qu, qui, uic, ick, ck, k, r, re, red, ed, d для текста the quick red Однако википедия считает, что это должно быть так: the …
30 сен '10 в 08:53
1
ответ
Информационно-поисковые модели индексации и ранжирования
Я не могу думать о структуре, которая соответствует этому вопросу (а). Я думал об идее размещения списка 100х100 +1 записей, которые содержат точные данные любого пикселя, но мне кажется, что это пустая идея. И если бы я мог получить некоторую помо…
01 дек '16 в 23:20
3
ответа
Кластеризация новостных статей
Мой сценарий довольно прост: у меня есть куча новостных статей (~1k на данный момент), для которых я знаю, что некоторые из них освещают одну и ту же историю / тему. Теперь я хотел бы сгруппировать эти статьи на основе общей истории / темы, то есть …
10 авг '14 в 11:39
4
ответа
Как удалить и посчитать слова из текстового файла?
Я хочу найти термины Частота и Частота инвертирования документов (TF-IDF) для текстовых файлов в определенной коллекции файлов. Так что в этом случае я просто хочу рассчитать общее количество слов в файле, количество вхождений конкретного слова в фа…
01 мар '13 в 05:38
0
ответов
Как получить размер словаря из IndexReader в Lucene
Поэтому я проиндексировал свои документы, используя IndexWriter Lucene. Теперь, чтобы реализовать некоторую модель сглаживания, мне нужен конкретный размер словаря в коллекции или общее количество уникальных терминов в коллекции. Но похоже, что Luce…
18 окт '17 в 22:22
0
ответов
Как автоматически найти хорошие предложения для подсказки завершения Elasticsearch
Я хочу добавить автозаполнение в свою поисковую систему, и подсказка завершения Elasticsearch кажется лучшим решением, чем использование граничных Ngrams. Но есть большая проблема. для завершения предложения требуется список предварительно определен…
09 май '18 в 10:20
1
ответ
Что обозначают коды на ценниках Walmart ("VEN", "AR", "AS", "WR" и т. Д.)?
Я пишу программу для чтения различных ценовых этикеток из моих местных магазинов (те наклейки, которые обычно ниже продукта и показывают цену). На этикетке Walmart есть несколько кодов, которые я совсем не понимаю. В моем городе они находятся в лево…
24 мар '15 в 16:49
2
ответа
Свободный подход к поиску
Я хочу сделать поиск для своего сайта, и для удовольствия я решил, что я должен хотя бы попытаться сделать это сам (в случае неудачи всегда есть пользовательский поиск Google). Проблема в том, что я даже не знаю, как подойти к этому монстру! Вот тре…
15 фев '12 в 21:13
1
ответ
Как удалить OCR артефакты из текста?
Сгенерированные OCR тексты иногда поставляются с такими артефактами, как этот: Diese grundsätzliche V erborgenheit Gottes, die sich nur dem N achfolger öffnet, ist mitdem Messiasgeheimnis gemeint Несмотря на то, что в качестве акцента используется и…
30 июн '15 в 11:12
0
ответов
К какому абзацу относится поисковый запрос
Получить топ- n ближайших ответов по поисковому запросу задают из списка абзацев. Короче говоря, нужно создать поисковую систему на основе настраиваемого набора данных, где у меня есть списки абзацев, доступных для настраиваемого домена. ТИА
27 апр '18 в 06:28
1
ответ
Проблемы с пониманием выбора функции хи-квадрат
У меня были проблемы с пониманием выбора функции хи-квадрат. У меня есть два класса, положительный и отрицательный, каждый из которых содержит разные термины и количество терминов. Мне нужно выполнить выбор функции хи-квадрат, чтобы извлечь наиболее…
22 фев '11 в 02:37
3
ответа
Двоичные деревья используются для данных, хранящихся во внутренней памяти
Двоичные деревья обычно предпочитают данные, хранящиеся во внутренней памяти. почему они предпочитают извлечение внутренней памяти??? И почему мы не можем использовать их для извлечения внешней информации???
02 окт '13 в 17:13
2
ответа
Как выполнить Семантическое Сходство в документе
Я делаю проект, в котором мне нужно ранжировать текстовый документ в соответствии с поисковым запросом, как поисковая система, но мне нужно ранжировать документы, имеющие семантическое сходство слова или предложения, я не могу начать с того, как най…
25 июн '14 в 11:23
3
ответа
tf-idf: я правильно понимаю?
Я заинтересован в кластеризации некоторых документов, и сейчас я рассматриваю возможность использования TF-IDF для этого. Если я не ошибаюсь, TF-IDF особенно используется для оценки релевантности документа по заданному запросу. Если у меня нет конкр…
29 мар '10 в 07:08
0
ответов
Веб логика 12CR2, как получить имя развернутого приложения на уровне раздела
Я пытаюсь найти способ получить имя развернутого приложения на уровне раздела на некоторое время. Но я не получил никакой работы! Если кто так работает, пожалуйста, сообщите! Начиная с Weblogic 12cR2 (12.2.1.0.0), FMW поддерживает несколько арендато…
22 фев '16 в 06:47
1
ответ
Где я могу получить Википедию XML корпус
Я не знаю, можно ли здесь об этом спросить, но я так усердно искал это и снова и снова приходил в тупик. Я работаю над проектом по поиску информации. Я запрограммировал свою поисковую систему, но не могу ее протестировать, потому что мне нужен этот …
08 апр '11 в 08:10
2
ответа
Система перевернутого индекса с использованием Python
Я работаю над созданием инвертированного индекса с использованием Python. У меня есть некоторые сомнения относительно производительности, которую он может предоставить мне. Будет ли Python индексировать почти так же быстро, как Java или C? Кроме тог…
26 фев '12 в 11:19