JPedal - выделение слова в точке PDF
Я хочу реализовать функцию, которая позволяет пользователю дважды щелкнуть мышью, чтобы выделить слово в документе PDF с помощью библиотеки JPedal. Это было бы тривиально, если бы я мог получить ограничивающий прямоугольник слова и посмотреть, попадает ли в него местоположение MouseEvent; следующий фрагмент демонстрирует, как выделить область:
private void highlightText() {
Rectangle highlightRectangle = new Rectangle(firstPoint.x, firstPoint.y,
secondPoint.x - firstPoint.x, secondPoint.y - firstPoint.y);
pdfDecoder.getTextLines().addHighlights(new Rectangle[]{highlightRectangle}, false, currentPage);
Однако я могу найти только примеры извлечения открытого текста в документации.
1 ответ
Посмотрев на примеры Марка, мне удалось заставить его работать. Есть несколько причуд, поэтому я объясню, как все это работает, если это помогает кому-то еще. Ключевой метод extractTextAsWordlist
, который возвращает List<String>
формы {word1, w1_x1, w1_y1, w1_x2, w1_y2, word2, w2_x1, ...}
когда дан регион для извлечения. Пошаговые инструкции перечислены ниже.
Во-первых, вам нужно преобразовать MouseEvent
Компонент / экранные координаты к координатам страницы PDF и правильное масштабирование:
* Transforms Component coordinates to page coordinates, correcting for
* scaling and panning.
* @param x Component x-coordinate
* @param y Component y-coordinate
* @return Point on the PDF page
private Point getPageCoordinates(int x, int y) {
float scaling = pdfDecoder.getScaling();
int x_offset = ((pdfDecoder.getWidth() - pdfDecoder.getPDFWidth()) / 2);
int y_offset = pdfDecoder.getPDFHeight();
int correctedX = (int)((x - x_offset + viewportOffset.x) / scaling);
int correctedY = (int)((y_offset - (y + viewportOffset.y)) / scaling);
return new Point(correctedX, correctedY);
Затем создайте поле для сканирования текста. Я решил сделать ширину страницы и +/- 20 страниц по вертикали (это довольно произвольное число) с центром в MouseEvent
* Scans for all the words located with in a box the width of the page and
* 40 points high, centered at the supplied point.
* @param p Point to centre the scan box around
* @return A List of words within the scan box
* @throws PdfException
private List<String> scanForWords(Point p) throws PdfException {
List<String> result = Collections.emptyList();
if (pdfDecoder.getlastPageDecoded() > 0) {
PdfGroupingAlgorithms currentGrouping = pdfDecoder.getGroupingObject();
PdfPageData currentPageData = pdfDecoder.getPdfPageData();
int x1 = currentPageData.getMediaBoxX(currentPage);
int x2 = currentPageData.getMediaBoxWidth(currentPage) + x1;
int y1 = p.y + 20;
int y2 = p.y - 20;
result = currentGrouping.extractTextAsWordlist(x1, y1, x2, y2, currentPage, true, "");
return result;
Затем я разобрал это в последовательность Rectangle
* Parse a String sequence of:
* {word1, w1_x1, w1_y1, w1_x2, w1_y2, word2, w2_x1, ...}
* Into a sequence of Rectangles.
* @param wordList Word list sequence to parse
* @return A List of Rectangles
private List<Rectangle> parseWordBounds(List<String> wordList) {
List<Rectangle> wordBounds = new LinkedList<Rectangle>();
Iterator<String> wordListIterator = wordList.iterator();
while(wordListIterator.hasNext()) {
// sequences are: {word, x1, y1, x2, y2}; // skip the word
int x1 = (int) Float.parseFloat(;
int y1 = (int) Float.parseFloat(;
int x2 = (int) Float.parseFloat(;
int y2 = (int) Float.parseFloat(;
wordBounds.add(new Rectangle(x1, y2, x2 - x1, y1 - y2)); // in page, not screen coordinates
return wordBounds;
Затем определили, какие Rectangle
попал в:
* Finds the bounding Rectangle of a word located at a Point.
* @param p Point to find word bounds
* @param wordBounds List of word boundaries to search
* @return A Rectangle that bounds a word and contains a point, or null if
* there is no word located at the point
private Rectangle findWordBoundsAtPoint(Point p, List<Rectangle> wordBounds) {
Rectangle result = null;
for (Rectangle wordBound : wordBounds) {
if (wordBound.contains(p)) {
result = wordBound;
return result;
По какой-то причине просто передача этого Rectangle методу подсветки не сработала. После некоторой обработки я обнаружил, что сокращение Rectangle
По точке с каждой стороны решена проблема:
* Contracts a Rectangle to enable it to be highlighted.
* @return A contracted Highlight Rectangle
private Rectangle contractHighlight(Rectangle highlight){
int x = highlight.x + 1;
int y = highlight.y + 1;
int width = highlight.width -2;
int height = highlight.height - 2;
return new Rectangle(x, y, width, height);
Затем я просто передал его этому методу, чтобы добавить основные моменты:
* Highlights text on the document
private void highlightText(Rectangle highlightRectangle) {
pdfDecoder.getTextLines().addHighlights(new Rectangle[]{highlightRectangle}, false, currentPage);
Наконец, все вышеперечисленные вызовы упакованы в этот удобный метод:
* Highlights the word at the given point.
* @param p Point where word is located
private void highlightWordAtPoint(Point p) {
try {
Rectangle wordBounds = findWordBoundsAtPoint(p, parseWordBounds(scanForWords(p)));
if (wordBounds != null) {
} catch (PdfException e) {
// TODO Auto-generated catch block