Java 怎么获取PDF页面并从PDF获取文本

2019年7月29日20:00:05Java 怎么获取PDF页面并从PDF获取文本已关闭评论 447 775字阅读2分35秒

1.简介

Java 怎么获取PDF页面并从PDF获取文本?——请看下文。

2.示例代码

/**
 * 版权所有 编程十万个怎么办(www.tah1986.com)
 */


import java.io.*;
import org.apache.pdfbox.pdmodel.*;
import org.apache.pdfbox.util.*;

public class PDFTest {

    public static void main(String[] args) {
        PDDocument pd;
        BufferedWriter wr;
        try {
            File input = new File("pdfbox/pdf/extracting2/link.pdf"); 
            File output = new File("pdfbox/pdf/extracting2/link.txt");
            
            pd = PDDocument.load(input);

            System.out.println(pd.getNumberOfPages());
            System.out.println(pd.isEncrypted());

            pd.save("pdfbox/pdf/extracting2/CopyOfLink.pdf"); 

            PDFTextStripper stripper = new PDFTextStripper();
            stripper.setStartPage(1); 
            stripper.setEndPage(1); 

            wr = new BufferedWriter(new OutputStreamWriter(
                    new FileOutputStream(output)));

            stripper.writeText(pd, wr);

            if (pd != null) {
                pd.close();
            }
            
            wr.close();
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

 
编程十万个怎么办