Описание тега text-extraction
Извлечение текста - это задача автоматического извлечения структурированной информации из неструктурированных и / или частично структурированных машиночитаемых документов (текста).
0
ответов
Использование ifilters без установки, загрузка прямо из моего проекта
Мне нужно извлечь текст с помощью веб-приложения C# MVC. Я использую Ifilter. На рабочем сервере у меня нет установленного MS office или пакета фильтров. поэтому я добавил dll в свой проект и попытался вызвать их из локальных dll. приложение работае…
29 янв '18 в 12:46
1
ответ
Удаление средних имен из строки в Objective-C
Я искал решение на этом сайте, и хотя существует множество решений для обработки строк, я не видел ничего подобного. Если в строке есть отчество / имена, я хочу удалить его / их (например, "Томми Ли Джонс" или "Томми Ли Брайан Джонс" становится "Том…
18 дек '15 в 02:40
1
ответ
Как добавить разделитель после каждого слова с помощью ghostscript -sDEVICE=txtwrite
Я использовал ghostscript для успешного извлечения текста из PDF-файлов с таблицами. Эта простая команда работает очень хорошо: gswin64c -sDEVICE=txtwrite -o test.txt "c:\reports\sample.pdf" Однако некоторые слова объединяются, особенно из таблиц, н…
27 фев '18 в 15:20
4
ответа
Как извлечь строку с помощью C#
Мне нужно извлечь значение пароля, выделенное жирным шрифтом (Password10) из приведенного ниже текста. Я использую язык программирования C#. FName Lname, ваш системный пароль был изменен. Если вы не изменили его или не знаете, почему оно было измене…
17 дек '12 в 15:10
3
ответа
Убрать HTML с веб-страницы и вычислить частоту слов?
В Groovy, как захватить веб-страницу и удалить теги HTML и т. Д., Оставив только текст документа? Я хотел бы, чтобы результаты были сброшены в коллекцию, чтобы я мог построить счетчик частоты слов. Наконец, позвольте мне еще раз упомянуть, что я хот…
16 окт '08 в 04:02
2
ответа
itext: как настроить извлечение текста?
Я использую iText 5.5.8 для Java. Следуя стандартным процедурам извлечения текста, т.е. PdfTextExtractor.getTextFromPage(reader, pageNumber) Я был удивлен, обнаружив несколько ошибок в выводе, в частности, все буквы d вышли как o s. Так как же на са…
03 янв '16 в 18:09
0
ответов
Могу ли я извлечь модуль VBA из базы данных Access?
У меня есть база данных (.mdb) с большей частью таблиц / запросов и модуль VBA с некоторыми функциями, которые используются в запросах. Я пытаюсь сделать полный текстовый фрагмент базы данных в виде "разборчивого" текстового файла, который я могу ко…
07 июн '17 в 04:24
2
ответа
Python Поиск в текстовом файле по ключевому слову и печать соответствующей строки для нескольких ключевых слов
Я пытаюсь найти файл.txt, который содержит много посторонней информации по нескольким ключевым словам, которые содержат наиболее важную информацию. Я хотел бы найти слова и распечатать строку, в которой это слово. Я довольно новичок в python и думал…
31 авг '18 в 18:16
2
ответа
Python извлечение текста переменной длины из файла
У меня есть текстовый файл, который имеет такие данные, как Tweet_id:"123456789", "text":"What an episode", "truncated":"false",Tweet_id:"12345678910", "text":My number is fascinating", "truncated":false Я хочу извлечь только текстовое поле Tweet_id…
04 мар '16 в 17:44
0
ответов
Использование Tesseract В веб-проекте Java
Я использую tess4j для распознавания текста. В основном Tesseract разработан на C++ . Когда я использую его в веб-проекте Java, он дает ошибки, потому что ему нужны файлы DLL, потому что tess4j использует JNI. Поэтому я хотел спросить, можем ли мы и…
02 июн '16 в 08:27
2
ответа
Извлечение символов из операции powershell для передачи в другую функцию
#Where $ConfigPath = C:\App\Place\whatever.xml $AirportCode = [System.IO.File]::ReadAllText($ConfigPath).Replace("%Airport_Code%","LHR") [System.IO.File]::WriteAllText($ConfigPath,$AirportCode) $SystemID = [System.IO.File]::ReadAllText($ConfigPath).…
31 июл '18 в 15:28
1
ответ
Любой эффективный способ извлечь ключевую фразу из заданных предложений с TF-IDF?
Я пытаюсь извлечь ключевую фразу из данного предложения с помощью схемы TF-IDF. Чтобы сделать это, я попытался найти слово-кандидат или фразу-кандидат в предложении, а затем использовать слово "часто" в предложении. Тем не менее, когда я представил …
01 дек '18 в 01:30
1
ответ
Сопоставимый класс сравнивает строки на основе длины или значения ascii? Джава
У меня есть файл строк, который выглядит так: IX: {Series|(} {2} IX: {Series!geometric|(} {5} ... Я написал двоичный класс дерева поиска, и теперь я пытаюсь расположить строки в алфавитном порядке. Строки должны быть в алфавитном порядке, потому что…
19 окт '14 в 02:54
2
ответа
Извлеките имя папки и имя файла из FilePath, используя scala
У меня есть потоки файлов, которые читаются из каталога, и файловое дерево имеет вид: /repository/resources/2016-03-04/file.csv /repository/resources/2016-03-04/file2.csv /repository/resources/2016-03-05/file3.csv /repository/resources/2016-03-05/fi…
07 апр '16 в 12:48
2
ответа
Извлекать только те символы, которые находятся между начальным и конечным параграфами в начале и конце строки в R
У меня есть много строк, которые имеют следующий формат: mystrings <- c( "(ABFUHIASH)THISISAVERYLONGSTRINGWITHOUTANYSPACES(ENDING)", "(SECONDSTR)YETANOTHERBORINGSTRINGWITHOUTSPACES(RANDOMENDING)", "(JOWERIC)THISPARTSHOULDNOTBEEXTRACTED(GETTHIS)",…
31 янв '18 в 19:15
1
ответ
Мандат группы внутри регулярного выражения ИЛИ группы
Я хочу соответствовать буквенно-цифровым символам, и они должны обязательно содержать цифры. По сути, я хочу извлечь номер заказа, который представляет собой комбинацию алфавитов, цифр и нескольких специальных символов. Я написал следующее регулярно…
16 дек '17 в 09:29
5
ответов
Извлечение 8-значных чисел из списка строк
У меня есть список строк, которые могут содержать буквы, символы, цифры и т. Д., Как показано ниже: list = ['\n', '', '0', '38059', '', '', '?_', '71229366', '', '1', '38059', '', '', '?_', '87640804', '', '2', '38059', '', '', '?_', '71758011', '',…
06 июл '17 в 20:51
3
ответа
Невозможно понять координаты в извлеченном документе, используя тессеракт механизма OCR
Я извлек документ изображения из tesseract, и он был извлечен успешно. Но я не могу понять координаты извлеченного документа. Описание проблемы: - Это показывает координаты, но дайте мне знать, что эти координаты представляют пиксель или что-то еще.…
31 авг '13 в 16:38
0
ответов
Несколько потоков, извлекающих текст из iText PDF
Я пытался ускорить извлечение текста из файлов PDF. Я пробовал SnowTide's PDFTextStream, Это было медленнее, чем iText на моем компьютере. Моя последняя попытка - использовать несколько потоков. Я инициализирую PdfReader с байтовым массивом вместо и…
06 авг '13 в 19:31
1
ответ
Нужно извлечь все символы в теге с помощью BeautifulSoup или превратить полный тег в строку
Мне нужно включить Tag объект или "узел" в строку. Вот мой код: import urllib from bs4 import BeautifulSoup class scraping: site = urllib.urlopen("http://www.bbc.com/news/world-us-canada-36466228") myfile = site.read() soup = BeautifulSoup(myfile) t…
07 июн '16 в 07:49