Sådan Index & Søg en PDF i Java Med Lucene

Apache Lucene er en full- featured tekst søgemaskine bibliotek skrevet i Java. Du kan bruge Lucene at indeksere og søge nogen form for tekstdokument. At konvertere en Portable Document Format (PDF -fil) i en tekst format, som Lucene kan indeksere , kan du bruge PDFBox open source klasse, som har særlige metoder specielt til Lucene . Du skal blot give den PDF-fil navn til PDFBox og få en Lucene Document objekt, der kan føjes til indekset , og søgte ligesom enhver tekstfil. Instruktioner
1

Vælg et Lucene analysator til brug i skabelsen af indekset , for eksempel " StandardAnalyzer ". Opret en " IndexWriter " objekt til at håndtere tilføje nye elementer til indekset, for eksempel : Hej

IndexWriter myWriter = new IndexWriter ( "index " , nye StandardAnalyzer () , true) ;
2 < p> Ring " LucenePDFDocument " for at få en Lucene Document genstand for din PDF-fil . Tilføj andre nøglefelter til objektet og tilføje objektet til Lucene indeks. For eksempel : Hej

Document pdfDoc = LucenePDFDocument.getDoument (filename ),

pdfDoc.add (ny Field ( "title" , pdf.getTitle () , Field.Store.YES , Field . Index.TOKENIZED )),

pdfDoc.add (ny Field ( "ophavsmand" , pdf.getAuthor () , Field.Store.YES , Field.Index.TOKENIZED )),

myWriter . addDocument ( pdfDoc )
3

Brug " Søgemaskinerne " class for at søge på Lucene indeks. " Søgemaskinerne " returnerer en Lucene " Hits "-objekt med en liste over "hit" objekter. For eksempel : Hej

Søgemaskinerne Mysearch = new Søgemaskinerne ();

Hits myHits = mySearch.performSearch ( searchText )

System.out.println ( "Documents matchede: " + myHits.length ());
4

gentage gennem "hit" objekter for at få mere information om hver kamp . De " Hit " objekter er sorteret efter relevans for søgning, og du kan også få den relative søgning score med " getScore (). " For eksempel : Hej

Iterator ITR = myHits.iterator ();

while ( itr.hasNext ( )) {

Hit theHit = itr.next () ;

Document theDoc = theHit.getDocument ();

System.out.println ( theDoc.get ( "title" ) + "-" + theHit.getScore ()); < br >

}

Forrige ： Hvordan at finde ord ikke findes i PDF-dokumenter med Adobe Professional

næste ： Sådan Fix en beskadiget PDF-fil

Relaterede artikler

·	Sådan oprettes en bærbar PDF med interaktive Index Ta…
·	Sådan oprettes en PDF Brug iText
·	RTF til PDF konvertering
·	Hvordan at skjule en PDF webside Viewer
·	Sådan eksporteres Dokumenter til PDF-format i Open Off…
·	Sådan Konverter Celtx Projekter til PDF
·	Sådan fjernes vandmærker fra PDF-filer
·	Sådan oprettes en PDF i Ubuntu
·	Sådan Bevar lydfiler i PDF-dokumenter
·	Sådan Edit PDF-filer i Linux Brug PDFEdit

Anbefalede Artikler

·	Sådan oprettes Powerpoint Games
·	Hvordan man gør en PowerPoint præsentation på Micros…
·	Sådan oprettes en formularfelter i Word 2007
·	Sådan fjernes Soldier Front
·	Hvordan til at tælle antallet af ord i PowerPoint 2007…
·	Sådan Konverter ODB til Mdb
·	Sådan læses en fil i PDF- formular
·	Sådan tilføjes en Border i Microsoft Publisher
·	Sådan flytter VMDK fra GSX til ESX
·	Sådan løses store rum i Microsoft Word