Extraktion von Informationen aus PDF-Dokumenten mittels Apache PDFBox und Regex.

Nov 5, 2024 PDF Information Extraction Dokumentenanalyse Textanalyse Datenextraktion Open Source

Information Extraction aus PDF-Dokumenten mit Apache PDFBox und Regex: Ein Beispiel mit einem Grundbuchauszug

Die Extraktion von Informationen aus PDF-Dokumenten ist ein häufiges Szenario in Unternehmen und Behörden, insbesondere bei strukturierten Dokumenten wie Grundbuchauszügen. Diese Dokumente enthalten wichtige Informationen wie Eigentümerangaben, Grundstücksgröße, Lage und weitere Details. In diesem Artikel zeigen wir, wie sich mithilfe von Apache PDFBox und regulären Ausdrücken (Regex) gezielt Informationen aus einem Grundbuchauszug extrahieren lassen.

Warum Apache PDFBox und Regex?

Apache PDFBox ist eine Open-Source-Java-Bibliothek zur Arbeit mit PDF-Dokumenten. Sie bietet Funktionen, um PDFs zu lesen, zu erstellen und zu manipulieren und ist ideal für die Text-Extraktion geeignet.
Regex (Reguläre Ausdrücke) ermöglichen die präzise Suche und Extraktion von Textmustern innerhalb der extrahierten Inhalte. Sie sind besonders nützlich, um strukturierte Informationen wie Daten, Adressen und numerische Werte gezielt aus dem Text zu filtern.

Durch die Kombination von PDFBox und Regex lassen sich PDF-Dokumente wie Grundbuchauszüge effizient analysieren und spezifische Informationen extrahieren.

Anwendungsbeispiel: Grundbuchauszug

Ein Grundbuchauszug enthält oft folgende Informationen:

Eigentümer: Name und eventuell Adresse der Person(en) oder Firma
Grundstücksgröße: Fläche des Grundstücks in Quadratmetern
Flurstücksnummer: Ein eindeutiger Identifier des Grundstücks
Lage: Beschreibung oder Adresse des Grundstücks

Diese Informationen sind in der Regel als Text im Dokument vorhanden und durch klare Muster erkennbar, die sich mithilfe von regulären Ausdrücken identifizieren lassen.

Schritt 1: PDF-Dokument mit PDFBox einlesen

Zunächst lesen wir das PDF-Dokument ein und extrahieren den gesamten Textinhalt. PDFBox bietet dafür einfache Funktionen zur Text-Extraktion. Im folgenden Beispiel nehmen wir an, dass die PDF-Datei grundbuchauszug.pdf heißt:

import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;

import java.io.File;
import java.io.IOException;

public class GrundbuchExtractor {

    public static String extractText(String filePath) throws IOException {
        try (PDDocument document = PDDocument.load(new File(filePath))) {
            PDFTextStripper pdfStripper = new PDFTextStripper();
            return pdfStripper.getText(document);
        }
    }

    public static void main(String[] args) {
        try {
            String text = extractText("grundbuchauszug.pdf");
            System.out.println(text);
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

All Posts