Описание тега information-retrieval

Описание тега Вопросы с тегом

Информационный поиск - это область исследования, связанная с поиском документов, информации или метаданных из набора неструктурированных или частично структурированных данных.

1 ответ

Программно формировать предложение из списка существительных

У меня есть требование, согласно которому мне дают набор существительных, и я должен программно сформулировать (сформировать) предложение из этих существительных.В качестве примера - Предположим, мне дан набор существительных, таких как - {"шоколад"…

27 фев '16 в 19:21

1 ответ

Как получить правильный форматированный текст из HTML, когда теги не имеют разрывов строк

Я пытаюсь проанализировать этот образец HTML-файла с помощью библиотеки Jsoup HTML-разбора. <html> <body> <p> this is sample text</p> <h1>this is heading sample</h1> <select name="car" size="1"> <option v…

java jsoup html-parsing information-retrieval

24 фев '14 в 15:11

2 ответа

Какова правильная версия средней точности?

Я пытаюсь вычислить среднюю точность (и среднюю среднюю точность) в наборе изображений здания Оксфорд. Ниже приведен код, который они предоставляют для вычисления средней точности. Заметить, что pos_set является объединением "оптимальных" и "хороших…

information-retrieval precision-recall

21 дек '16 в 17:59

2 ответа

Алгоритм C# для N-граммы

Я собираюсь использовать n-граммовый код из этой статьи. Алгоритм дает следующие результаты триграммы: t, th, the, he, e, q, qu, qui, uic, ick, ck, k, r, re, red, ed, d для текста the quick red Однако википедия считает, что это должно быть так: the …

c# text-mining information-retrieval n-gram

30 сен '10 в 08:53

1 ответ

Информационно-поисковые модели индексации и ранжирования

Я не могу думать о структуре, которая соответствует этому вопросу (а). Я думал об идее размещения списка 100х100 +1 записей, которые содержат точные данные любого пикселя, но мне кажется, что это пустая идея. И если бы я мог получить некоторую помо…

indexing information-retrieval

01 дек '16 в 23:20

3 ответа

Кластеризация новостных статей

Мой сценарий довольно прост: у меня есть куча новостных статей (~1k на данный момент), для которых я знаю, что некоторые из них освещают одну и ту же историю / тему. Теперь я хотел бы сгруппировать эти статьи на основе общей истории / темы, то есть …

machine-learning nlp cluster-analysis information-retrieval unsupervised-learning

10 авг '14 в 11:39

4 ответа

Как удалить и посчитать слова из текстового файла?

Я хочу найти термины Частота и Частота инвертирования документов (TF-IDF) для текстовых файлов в определенной коллекции файлов. Так что в этом случае я просто хочу рассчитать общее количество слов в файле, количество вхождений конкретного слова в фа…

vb.net information-retrieval

01 мар '13 в 05:38

0 ответов

Как получить размер словаря из IndexReader в Lucene

Поэтому я проиндексировал свои документы, используя IndexWriter Lucene. Теперь, чтобы реализовать некоторую модель сглаживания, мне нужен конкретный размер словаря в коллекции или общее количество уникальных терминов в коллекции. Но похоже, что Luce…

java lucene full-text-search information-retrieval

18 окт '17 в 22:22

0 ответов

Как автоматически найти хорошие предложения для подсказки завершения Elasticsearch

Я хочу добавить автозаполнение в свою поисковую систему, и подсказка завершения Elasticsearch кажется лучшим решением, чем использование граничных Ngrams. Но есть большая проблема. для завершения предложения требуется список предварительно определен…

java elasticsearch nlp information-retrieval

09 май '18 в 10:20

1 ответ

Что обозначают коды на ценниках Walmart ("VEN", "AR", "AS", "WR" и т. Д.)?

Я пишу программу для чтения различных ценовых этикеток из моих местных магазинов (те наклейки, которые обычно ниже продукта и показывают цену). На этикетке Walmart есть несколько кодов, которые я совсем не понимаю. В моем городе они находятся в лево…

information-retrieval

24 мар '15 в 16:49

2 ответа

Свободный подход к поиску

Я хочу сделать поиск для своего сайта, и для удовольствия я решил, что я должен хотя бы попытаться сделать это сам (в случае неудачи всегда есть пользовательский поиск Google). Проблема в том, что я даже не знаю, как подойти к этому монстру! Вот тре…

php algorithm search search-engine information-retrieval

15 фев '12 в 21:13

1 ответ

Как удалить OCR артефакты из текста?

Сгенерированные OCR тексты иногда поставляются с такими артефактами, как этот: Diese grundsätzliche V erborgenheit Gottes, die sich nur dem N achfolger öffnet, ist mitdem Messiasgeheimnis gemeint Несмотря на то, что в качестве акцента используется и…

algorithm ocr text-processing information-retrieval text-segmentation

30 июн '15 в 11:12

0 ответов

К какому абзацу относится поисковый запрос

Получить топ- n ближайших ответов по поисковому запросу задают из списка абзацев. Короче говоря, нужно создать поисковую систему на основе настраиваемого набора данных, где у меня есть списки абзацев, доступных для настраиваемого домена. ТИА

nlp stanford-nlp information-retrieval nlp-question-answering

27 апр '18 в 06:28

1 ответ

Проблемы с пониманием выбора функции хи-квадрат

У меня были проблемы с пониманием выбора функции хи-квадрат. У меня есть два класса, положительный и отрицательный, каждый из которых содержит разные термины и количество терминов. Мне нужно выполнить выбор функции хи-квадрат, чтобы извлечь наиболее…

python statistics information-retrieval chi-squared

22 фев '11 в 02:37

3 ответа

Двоичные деревья используются для данных, хранящихся во внутренней памяти

Двоичные деревья обычно предпочитают данные, хранящиеся во внутренней памяти. почему они предпочитают извлечение внутренней памяти??? И почему мы не можем использовать их для извлечения внешней информации???

data-structures binary-tree information-retrieval

02 окт '13 в 17:13

2 ответа

Как выполнить Семантическое Сходство в документе

Я делаю проект, в котором мне нужно ранжировать текстовый документ в соответствии с поисковым запросом, как поисковая система, но мне нужно ранжировать документы, имеющие семантическое сходство слова или предложения, я не могу начать с того, как най…

information-retrieval

25 июн '14 в 11:23

3 ответа

tf-idf: я правильно понимаю?

Я заинтересован в кластеризации некоторых документов, и сейчас я рассматриваю возможность использования TF-IDF для этого. Если я не ошибаюсь, TF-IDF особенно используется для оценки релевантности документа по заданному запросу. Если у меня нет конкр…

algorithm language-agnostic text-processing tf-idf information-retrieval

29 мар '10 в 07:08

0 ответов

Веб логика 12CR2, как получить имя развернутого приложения на уровне раздела

Я пытаюсь найти способ получить имя развернутого приложения на уровне раздела на некоторое время. Но я не получил никакой работы! Если кто так работает, пожалуйста, сообщите! Начиная с Weblogic 12cR2 (12.2.1.0.0), FMW поддерживает несколько арендато…

deployment web-applications weblogic partition information-retrieval

22 фев '16 в 06:47

1 ответ

Где я могу получить Википедию XML корпус

Я не знаю, можно ли здесь об этом спросить, но я так усердно искал это и снова и снова приходил в тупик. Я работаю над проектом по поиску информации. Я запрограммировал свою поисковую систему, но не могу ее протестировать, потому что мне нужен этот …

xml search-engine information-retrieval

08 апр '11 в 08:10

2 ответа

Система перевернутого индекса с использованием Python

Я работаю над созданием инвертированного индекса с использованием Python. У меня есть некоторые сомнения относительно производительности, которую он может предоставить мне. Будет ли Python индексировать почти так же быстро, как Java или C? Кроме тог…

python information-retrieval inverted-index

26 фев '12 в 11:19