Описание тега information-extraction
Information extraction (IE) is the task of automatically extracting structured information from unstructured and/or semi-structured machine-readable documents. In most of the cases this activity concerns processing human language texts by means of natural language processing (NLP). Recent activities in multimedia document processing like automatic annotation and content extraction out of images/audio/video could be seen as information extraction.
1
ответ
Почему волатильность ничего не возвращает при запуске linux_pslist
Мне удалось извлечь энергозависимую память из эмулятора андроида, используя LiME и используя волатильность для дальнейшего анализа памяти. После запуска команды: $ python vol.py --profile = LinuxGoldfish3_4ARM -f /path/to/lime.dump linux_pslist Я по…
03 фев '15 в 05:55
2
ответа
Извлечь список спецификаций из текста (неизвестный формат)
Как извлечь из описания продукта спецификацию, которая имеет неизвестный формат (иногда это неупорядоченный список, иногда это br-элемент и т. Д.), Но ВСЕГДА выглядит одинаково впереди. Визуал похож на: Некоторый текст описания, иногда это одно пред…
12 ноя '18 в 08:46
1
ответ
Извлечение конкретной информации из научных статей
Я ищу конкретную информацию, которую мне нужно извлечь из научных работ. Информация в основном хранится в разделах "Оценка" или "Реализация". Мне нужно извлечь любое содержимое функции, параметр, имя файла, имя приложения, версию приложения в содерж…
23 окт '18 в 17:42
2
ответа
Как автоматически определять значение / расширение аббревиатуры
Как вы можете обнаружить / узнать значение (расширение) аббревиатуры, используя методы NLP / Information Extraction (IE)? Мы хотим обнаружить в свободном тексте, используется ли слово или его аббревиатуру, и сопоставить его с той же сущностью / токе…
03 ноя '14 в 14:48
3
ответа
Библиотеки Java для извлечения текстовых блоков из HTML-страниц
Я хочу извлечь текстовые блоки из HTML-страницы, и я использую шаблон для этого. Он отлично работает для одного текста на странице, но на некоторых страницах, таких как блоги, на странице несколько текстов. Я хочу извлечь все тексты, но идентифициру…
20 янв '12 в 12:31
2
ответа
Свободно доступные реальные общедоступные данные
Примечание: я не ищу пример данных. Какие наборы реальных данных предоставляются для свободного доступа в разных доменах: Например: Финансовые отчеты для FCM. http://www.cftc.gov/MarketReports/FinancialDataforFCMs/HistoricalFCMReports/index.htm Данн…
25 июл '14 в 18:18
1
ответ
Есть ли извлечение информации, чтобы найти двойники субъекта и глагола / отношения в предложении, такие как ClausIE, Reverb и т. Д.?
Я использовал ClausIE, и он возвращает предмет, глагол и объект тройки из предложения. Но они не будут работать, когда текст является коротким текстом и даже не полным предложением. Я просто хочу библиотеку или иначе, которая может вернуть только па…
19 янв '17 в 13:38
0
ответов
Как извлечь заголовки из документов?
Как можно автоматизировать извлечение соответствующего заголовка из заданного набора случайных документов (docx, pdf и т. Д.)? Точнее, признание того, что считается заголовком документа. Некоторые мысли: Интуитивно, вероятно, будет первой строкой в …
08 сен '17 в 09:32
1
ответ
Логическая семантика, извлечение и суммирование информации
Я хочу узнать общее представление об этих вопросах, в области анализа данных и НЛП. Какие шаги включены? Если я хочу извлечь значимую информацию из любого предметного текста и понять общую идею любого текста. Другой вопрос: чем больше размер анализи…
04 окт '15 в 22:50
1
ответ
Задать путь в файле свойств heidelTime для использования Stanford POS Tagger для немецкого языка?
Я пытаюсь обнаружить временную информацию в немецком тексте. Я попытался использовать конвейер Stanford CoreNLP, так как было бы очень полезно использовать информацию о разборе зависимостей на более поздних этапах (после временного тегирования), но,…
25 авг '17 в 08:40
2
ответа
R скрипт для извлечения строк из нескольких текстовых файлов
В моем каталоге 900 текстовых файлов, как показано на следующем рисунке каждый файл состоит из данных в следующем формате 667869 667869.000000 580083 580083.000000 316133 316133.000000 11065 11065.000000 Я хотел бы извлечь четвертую строку из каждог…
18 окт '16 в 17:30
2
ответа
Извлечь возраст из текста в R
У меня есть CSV-файл со столбцом, содержащим описания книг, вырезанные из Интернета, которые я импортирую в R для дальнейшего анализа. Моя цель - извлечь возраст героев из этой колонки в R, так что я представляю себе следующее: Сопоставьте строки ти…
07 авг '18 в 11:29
1
ответ
Java регулярное выражение извлечения измерений из строки
Я пытаюсь извлечь данные из кратких, неоднородных описаний продуктов, чтобы частично автоматизировать создание веб-страниц продуктов для интернет-магазина моей компании. К сожалению, описания не являются единообразными. Благодаря этому сайту я доста…
07 май '11 в 21:25
4
ответа
Скрытые марковские модели в пакете R
Мне нужна помощь в реализации модуля HMM в R. Я новичок в R и не очень разбираюсь в этом. Поэтому я должен реализовать IE, используя HMM, у меня есть 2 папки с файлами, одна с предложениями, а другая с соответствующими тегами, которые я хочу выучить…
17 июл '13 в 09:50
0
ответов
Как получить данные обучения в правильном формате для извлечения отношений Стэнфорда
Я хочу обучить экстрактору отношений Стэнфорда своими собственными данными. Мне удалось обучить свою собственную модель, и я хочу использовать ее для обозначения именованных сущностей и в то же время создать желаемый результат и формат, который буде…
20 ноя '17 в 23:39
1
ответ
Извлечение информации из предложения с использованием НЛП
Я хочу извлечь информацию из предложений. Я новичок в этой области. У меня есть предложения как: "Andrew query pizza king what is today's deal" "Andrew order flower shop to send my wife roses" Format : <Name> <command> <company name&g…
03 июл '18 в 18:33
2
ответа
OpenIE 4.2 - Невозможно сгенерировать автономный.jar с использованием sbt
Я пытаюсь сгенерировать автономный.jar инструмента OpenIE из Вашингтонского проекта Knowitall, как описано на этой странице Github, с помощью команды: sbt clean compile assembly но это останавливается через некоторое время, без каких-либо ошибок. Я …
01 фев '16 в 19:26
2
ответа
Лучшая библиотека обнаружения отношений под ключ?
Какова лучшая готовая (готовая к использованию, промышленная) библиотека для определения отношений? Я играл с NLTK, и результаты, которые я получаю, не очень удовлетворительны. http://nltk.googlecode.com/svn/trunk/doc/book/ch07.html http://nltk.goog…
19 янв '11 в 07:18
5
ответов
Табулировать коэффициенты от лм
У меня есть 10 линейных моделей, где мне нужна только некоторая информация, а именно: r-квадрат, p-значение, коэффициенты наклона и пересечения. Мне удалось извлечь эти значения (с помощью смешного повторения кода). Теперь мне нужно табулировать эти…
26 дек '18 в 14:13
1
ответ
Сбор данных из Твиттера
Мне нужно собирать данные из твиттера для проекта поиска информации, но пока все загруженное мной программное обеспечение не имело возможности собирать все данные (включая информацию о пользователях твиттера, таких как их подписчики и подписчики, да…
12 дек '14 в 11:22