Описание тега text-extraction

Описание тега Вопросы с тегом

Извлечение текста - это задача автоматического извлечения структурированной информации из неструктурированных и / или частично структурированных машиночитаемых документов (текста).

0 ответов

Использование ifilters без установки, загрузка прямо из моего проекта

Мне нужно извлечь текст с помощью веб-приложения C# MVC. Я использую Ifilter. На рабочем сервере у меня нет установленного MS office или пакета фильтров. поэтому я добавил dll в свой проект и попытался вызвать их из локальных dll. приложение работае…

29 янв '18 в 12:46

1 ответ

Удаление средних имен из строки в Objective-C

Я искал решение на этом сайте, и хотя существует множество решений для обработки строк, я не видел ничего подобного. Если в строке есть отчество / имена, я хочу удалить его / их (например, "Томми Ли Джонс" или "Томми Ли Брайан Джонс" становится "Том…

objective-c nsstring text-extraction

18 дек '15 в 02:40

1 ответ

Как добавить разделитель после каждого слова с помощью ghostscript -sDEVICE=txtwrite

Я использовал ghostscript для успешного извлечения текста из PDF-файлов с таблицами. Эта простая команда работает очень хорошо: gswin64c -sDEVICE=txtwrite -o test.txt "c:\reports\sample.pdf" Однако некоторые слова объединяются, особенно из таблиц, н…

ghostscript text-extraction txtwrite

27 фев '18 в 15:20

4 ответа

Как извлечь строку с помощью C#

Мне нужно извлечь значение пароля, выделенное жирным шрифтом (Password10) из приведенного ниже текста. Я использую язык программирования C#. FName Lname, ваш системный пароль был изменен. Если вы не изменили его или не знаете, почему оно было измене…

c# text-extraction

17 дек '12 в 15:10

3 ответа

Убрать HTML с веб-страницы и вычислить частоту слов?

В Groovy, как захватить веб-страницу и удалить теги HTML и т. Д., Оставив только текст документа? Я хотел бы, чтобы результаты были сброшены в коллекцию, чтобы я мог построить счетчик частоты слов. Наконец, позвольте мне еще раз упомянуть, что я хот…

java html groovy text-extraction html-content-extraction

16 окт '08 в 04:02

2 ответа

itext: как настроить извлечение текста?

Я использую iText 5.5.8 для Java. Следуя стандартным процедурам извлечения текста, т.е. PdfTextExtractor.getTextFromPage(reader, pageNumber) Я был удивлен, обнаружив несколько ошибок в выводе, в частности, все буквы d вышли как o s. Так как же на са…

itext text-extraction

03 янв '16 в 18:09

0 ответов

Могу ли я извлечь модуль VBA из базы данных Access?

У меня есть база данных (.mdb) с большей частью таблиц / запросов и модуль VBA с некоторыми функциями, которые используются в запросах. Я пытаюсь сделать полный текстовый фрагмент базы данных в виде "разборчивого" текстового файла, который я могу ко…

apache-poi text-extraction ole jackcess

07 июн '17 в 04:24

2 ответа

Python Поиск в текстовом файле по ключевому слову и печать соответствующей строки для нескольких ключевых слов

Я пытаюсь найти файл.txt, который содержит много посторонней информации по нескольким ключевым словам, которые содержат наиболее важную информацию. Я хотел бы найти слова и распечатать строку, в которой это слово. Я довольно новичок в python и думал…

python text-extraction

31 авг '18 в 18:16

2 ответа

Python извлечение текста переменной длины из файла

У меня есть текстовый файл, который имеет такие данные, как Tweet_id:"123456789", "text":"What an episode", "truncated":"false",Tweet_id:"12345678910", "text":My number is fascinating", "truncated":false Я хочу извлечь только текстовое поле Tweet_id…

python python-3.x text-extraction

04 мар '16 в 17:44

0 ответов

Использование Tesseract В веб-проекте Java

Я использую tess4j для распознавания текста. В основном Tesseract разработан на C++ . Когда я использую его в веб-проекте Java, он дает ошибки, потому что ему нужны файлы DLL, потому что tess4j использует JNI. Поэтому я хотел спросить, можем ли мы и…

java ocr text-extraction tess4j

02 июн '16 в 08:27

2 ответа

Извлечение символов из операции powershell для передачи в другую функцию

#Where $ConfigPath = C:\App\Place\whatever.xml $AirportCode = [System.IO.File]::ReadAllText($ConfigPath).Replace("%Airport_Code%","LHR") [System.IO.File]::WriteAllText($ConfigPath,$AirportCode) $SystemID = [System.IO.File]::ReadAllText($ConfigPath).…

powershell pipeline text-extraction

31 июл '18 в 15:28

1 ответ

Любой эффективный способ извлечь ключевую фразу из заданных предложений с TF-IDF?

Я пытаюсь извлечь ключевую фразу из данного предложения с помощью схемы TF-IDF. Чтобы сделать это, я попытался найти слово-кандидат или фразу-кандидат в предложении, а затем использовать слово "часто" в предложении. Тем не менее, когда я представил …

python nlp nltk text-extraction

01 дек '18 в 01:30

1 ответ

Сопоставимый класс сравнивает строки на основе длины или значения ascii? Джава

У меня есть файл строк, который выглядит так: IX: {Series|(} {2} IX: {Series!geometric|(} {5} ... Я написал двоичный класс дерева поиска, и теперь я пытаюсь расположить строки в алфавитном порядке. Строки должны быть в алфавитном порядке, потому что…

java text-extraction

19 окт '14 в 02:54

2 ответа

Извлеките имя папки и имя файла из FilePath, используя scala

У меня есть потоки файлов, которые читаются из каталога, и файловое дерево имеет вид: /repository/resources/2016-03-04/file.csv /repository/resources/2016-03-04/file2.csv /repository/resources/2016-03-05/file3.csv /repository/resources/2016-03-05/fi…

scala feature-extraction text-extraction

07 апр '16 в 12:48

2 ответа

Извлекать только те символы, которые находятся между начальным и конечным параграфами в начале и конце строки в R

У меня есть много строк, которые имеют следующий формат: mystrings <- c( "(ABFUHIASH)THISISAVERYLONGSTRINGWITHOUTANYSPACES(ENDING)", "(SECONDSTR)YETANOTHERBORINGSTRINGWITHOUTSPACES(RANDOMENDING)", "(JOWERIC)THISPARTSHOULDNOTBEEXTRACTED(GETTHIS)",…

r regex stringr text-extraction stringi

31 янв '18 в 19:15

1 ответ

Мандат группы внутри регулярного выражения ИЛИ группы

Я хочу соответствовать буквенно-цифровым символам, и они должны обязательно содержать цифры. По сути, я хочу извлечь номер заказа, который представляет собой комбинацию алфавитов, цифр и нескольких специальных символов. Я написал следующее регулярно…

java regex pattern-matching text-extraction

16 дек '17 в 09:29

5 ответов

Извлечение 8-значных чисел из списка строк

У меня есть список строк, которые могут содержать буквы, символы, цифры и т. Д., Как показано ниже: list = ['\n', '', '0', '38059', '', '', '?_', '71229366', '', '1', '38059', '', '', '?_', '87640804', '', '2', '38059', '', '', '?_', '71758011', '',…

python list text-extraction

06 июл '17 в 20:51

3 ответа

Невозможно понять координаты в извлеченном документе, используя тессеракт механизма OCR

Я извлек документ изображения из tesseract, и он был извлечен успешно. Но я не могу понять координаты извлеченного документа. Описание проблемы: - Это показывает координаты, но дайте мне знать, что эти координаты представляют пиксель или что-то еще.…

ocr tesseract text-extraction hocr

31 авг '13 в 16:38

0 ответов

Несколько потоков, извлекающих текст из iText PDF

Я пытался ускорить извлечение текста из файлов PDF. Я пробовал SnowTide's PDFTextStream, Это было медленнее, чем iText на моем компьютере. Моя последняя попытка - использовать несколько потоков. Я инициализирую PdfReader с байтовым массивом вместо и…

java multithreading pdf itext text-extraction

06 авг '13 в 19:31

1 ответ

Нужно извлечь все символы в теге с помощью BeautifulSoup или превратить полный тег в строку

Мне нужно включить Tag объект или "узел" в строку. Вот мой код: import urllib from bs4 import BeautifulSoup class scraping: site = urllib.urlopen("http://www.bbc.com/news/world-us-canada-36466228") myfile = site.read() soup = BeautifulSoup(myfile) t…

python beautifulsoup text-extraction

07 июн '16 в 07:49