Det er ikke svært at læse PDF-filer i Java ved hjælp af biblioteker , som er let tilgængelige. Læsning af PDF-filer giver dig mulighed for at skrive Java-programmer , der kan behandle teksten i disse filer. En mulighed for at læse PDF-filer er den gratis , open -source PDFBox biblioteket på Apache . Eclipse Java udviklingsplatform gør dette job lettere og administrerer bibliotekerne du vil downloade. Du skal være fortrolig med Java programmering til at gøre brug af disse Java biblioteker. Instruktioner
Saml Needed Biblioteker
1
downloade Java JDK fra Sun hjemmeside . Dette er en eksekverbar fil, som du kan installere på dit system ved at køre det . Versioner er tilgængelige til Windows, Mac og Linux. Klik på den røde \\ "Download \\ "-knappen. Gem en fil kaldet \\ " jdk - 6uxx -windows- xxx.exe \\ ", når du bliver spurgt. Gem filen og dobbeltklik på den for at starte Java installer.
2
Download Eclipse udvikling system og pak det ind i en mappe på højeste niveau . Vælg \\ " Eclipse IDE for Java udviklere . \\ " Dette vil downloade \\ " Eclipse -java -Galileo - SR2 - win32.zip . \\ " Dobbeltklik på filen for at pakke den efter overførslen er fuldføre . Vælg \\ "C: \\ " . Rodmappen sted at lyne Eclipse
3
Start Eclipse ved at dobbeltklikke på \\ " eclipse.exe \\" i den mappe, du netop skabt ved at lyne formørkelsen zip-fil. I Eclipse -systemet , oprette et projekt ved navn \\ " PrintPDF . \\ " Vælg \\ "File \\ " og derefter \\ "Ny \\ " og derefter \\ "Java -projekt. \\ " Skriv projektets navn \\ " ; PrintPDF \\ "i den dialogboks , der vises. Vær sikker på, at radioknappen er markeret , der siger \\ "Opret separate mapper til kilde og klasse filer. \\" Klik \\ "Finish . \\ "
4
Opret en \\ " lib \\ "mappe i din \\ " PrintPDF \\ "-projektet . Højreklik på \\ " PrintPDF \\ "-projektet , og vælg \\ "Ny \\ " og derefter \\ " Mappe. \\ " Indtast navnet \\ " lib \\ " og klik på \\ "Afslut . \\ "
5
Hent Apache \\ " PDFBox.jar \\ "fra Apache stedet og kopiere det i den lib mappe du lige har oprettet. På samme webside , hente \\ " fontbox - nn.jar \\ " fil og \\ " jempbox - nn.jar \\ " fil . I hvert tilfælde , når du klikker på denne jar fil vil det tage dig til en side hvor du kan vælge en af flere servere, der kan levere denne fil. Pluk hver af dem , og hver jar fil vil hente . Kopier hver jar fil i lib mappe du lige har oprettet.
6
Download Apache log4j.jar pakken på samme måde og kopiere log4j.jar fil i mappen. The Apache PDFBox Biblioteket bruger denne Apache skovhugst bibliotek, så denne fil skal være til stede .
7
Download Apache Commons Discovery pakken som en zip-fil . Dobbeltklik på zip-filen , skal du vælge \\ " commons -discovery - nn.jar \\ ", og pakke den ind i lib bibliotek.
8.
Eclipse, skal du klikke på \\ " lib \\ " mappe og tryk på \\ " F5 . \\ " Sørg for, at alle de jar filer , du har tilføjet , vises.
9
Højreklik på PrintPDF projektet og vælg \\ " Egenskaber . \\ "Vælg \\ " Java Build Path \\ "og vælg \\ " Biblioteker \\ "fanen. Klik på \\ " Add krukker \\ ", og gå til lib mappe du lige har oprettet , og føje \\ " commons -logging - nn.jar \\ " \\ " fontbox - nn.jar , \\ " \\ " ; . jempbox - nn.jar , \\ "\\ " log4J - nn.jar , \\ "og \\" pdfbox - nn.jar \\ "Klik på \\ " OK \\ "
< br . >
skrive koden til at læse PDF-filer
10
Højreklik på \\ "src \\ " mappe på din \\ " PrintPDF \\ " projekt, og vælg \\ "Ny \\ " og \\ " Package. \\ "Opret en pakke med noget meningsfuldt navn. For eksempel nævne pakken \\ " com.pdf.util . \\" Klik \\ "Finish . \\ "
11
Højreklik på pakken navn, du lige har oprettet , og vælg \\ "Ny \\ " og derefter \\ " Class. \\ " Opret en klasse ved navn \\ " PDFTextParser . \\ " Vær sikker på at du markere rubrikken \\ " public static void main ... \\ ", så at systemet vil skabe en \\ " main \\ "-metoden.
12
Rediger \\ " main \\ " metode i \\ " PDFTextParser \\ " class til at indeholde følgende kode :
public static void main ( String args []) {
PDFTextParser pdf = new PDFTextParser ( \\ " data /javaPDF.pdf \\ " ) < br /> GO
//udskrift resultater
System.out.println ( pdf.getParsedText () )
GO
}
;
Bemærk at den fil, du ønsker at udskrive er stavet ud i konstruktøren til PDFTextParser ( \\ " data /JavaPDF.pdf \\ "). Det kunne lige så let være en kommandolinje argument:
PDFTextParser pdf = new PDFTextParser ( argv [0] )
GO
< br /> eller vælges fra en GUI interface .
det skaber en instans af PDFTextParser klassen, og derefter kalder sin \\ " getParsedText \\ "-metoden.
13
Indsæt følgende kode lige under den øverste klasse linje \\ " public class PDFTextParser \\ " , der blev oprettet for dig.
private PDFParser parser = null
GO
//Uddrag tekst fra PDF-dokument
offentlig PDFTextParser (String filename) {
File file = ny fil ( filename)
; ( ! file.isFile () ) GO
hvis {
System.out.println ( \\ " File \\ " + fileName + \\ " . eksisterer ikke \\ " )
GO
}
//Opsætning instans af PDF parser
try {
parser = new PDFParser (ny FileInputStream (fil) )
GO
} catch ( IOException e ) {
System.out.println ( \\ "Kunne ikke åbne PDF Parser . \\ " + e.getMessage () )
GO
}
}
//--------------------- ----------
public String getParsedText () {
PDDocument pdDoc = null
GO
COSDocument cosDoc = null ; < br /> String parsedText = null ;
GO
try {
PDFTextStripper pdfStripper = new PDFTextStripper ()
GO < br /> parser.parse ()
GO
cosDoc = parser.getDocument ()
GO
pdDoc = new PDDocument ( cosDoc ) < br /> GO
//få en liste over alle sider
liste list = pdDoc.getDocumentCatalog () . getAllPages ( )
GO < br />
//Bemærk at du kan printe ud eventuelle sider, du ønsker
//ved at vælge forskellige værdier for start og slut side
pdfStripper.setStartPage (1) //1 -baserede
int længde = list.size () //samlede antal sider
pdfStripper.setEndPage (længde ) //sidste side
< br /> //få teksten til udvalgte sider
parsedText = pdfStripper.getText ( pdDoc )
GO
} catch ( IOException e ) {
System.err
. println ( \\ " En undtagelse opstod i parsing PDF-dokument . \\ "
+ e.getMessage () )
GO
;} endelig {
try {
if (! cosDoc = null)
cosDoc.close ()
GO
if ( pdDoc ! = null)
pdDoc.close ()
GO
} catch ( IOException e ) {
e.printStackTrace () < br /> GO
}
}
tilbagevenden parsedText
GO
}
14 Kør programmet . Højreklik på PDFTextParser klasse og klik på \\ " Kør som \\ " og derefter på \\ "Java -program. \\ " Programmet bør køre og udskrive teksten indholdet af PDF-fil , du har indtastet i din kode .
Undertryk log4J Startup fejlmeddelelse
15
Opret en konfigurationsfil til at undertrykke Java logging systemet log4J fejlmeddelelse opstår, når den ikke kan finde en konfigurationsfil , når den starter. Højreklik på \\ "src \\ " mappen på PrintPDF projektet og vælg \\ "Ny \\ " og derefter \\ "File . \\ " Name filen \\ " log4j.properties \\ " Eclipse vil vise en tom skærm for denne nye fil.
16
Indsæt følgende linjer ind i den tomme skærm repræsenterer \\ " log4j.properties \\ " fil .
; # Indstil rod logger niveau til debug , og dens eneste appender til A1
log4j.rootLogger = WARN , A1
# A1 er indstillet til at blive en ConsoleAppender < . . br /> log4j.appender.A1 = org.apache.log4j.ConsoleAppender
# A1 bruger PatternLayout .
log4j.appender.A1.layout = org.apache . log4j.PatternLayout
log4j.appender.A1.layout.ConversionPattern =% -4R [% d] % - 5p % c % x - % m % n
17
Gem \\ " log4j.properties \\ " fil . Tilstedeværelsen af denne fil i top -level \\ "src \\ " bibliotek vil undertrykke Log4J opstart meddelelsen og trivielle logging beskeder. Det Log4J system vil udskrive kun de faktiske fejl.