PDF Dateien erstellen, zusammenfassen und Daten extrahieren

Bannister0946

Lt. Junior Grade
Registriert
Nov. 2021
Beiträge
327
Guten Morgen!

für mein internes Projekt (mit PHP umgesetzt), muss ich die Möglichkeit haben, PDF Dateien

  • zu erstellen
  • zusammenzufassen
  • auslesen zu können (Daten erhalten)
Aktuell habe ich dafür auch schon Lösungen im Einsatz:

Erstellen: https://tcpdf.org/
Zusammenfassen: https://www.setasign.com/products/fpdi/about/
Daten auslesen: https://github.com/smalot/pdfparser

tcpdf ist leider schon nicht mehr im Support (an einer neuen Version wird gearbeitet - aber das scheint noch zu dauern bis final).
Lange Rede kurzer Sinn:

Gerne hätte ich eine Lösung, welche noch supportet wird und sogar alle 3 Themen abdecken kann.
Könnt Ihr hier etwas empfehlen?
 
Ich hab damals FPDF (anno 2004) genutzt, weis aber nicht ob das die neueren PDF-Standard unterstützt. Da gibts Plugins, zum auslesen und zusammefassen.

Edit: fpdi hast du ja schon erwähnt, dass ist ein Plugin für fpdf :) Jetzt ist nur die Frage, was du auslesen willst. Denk auch mal über Linux-Kommandozeilen-Tools nach, welche eine gute Brücke sein können.
 
Pdf24... Erstellen und zusammen fassen..
Wobei erstellen kann man immer über einen PDF Drucker... Aus jedem Dokument heraus. MS hat einen eigenen Druckertreiber dafür..

Auslesen kann auch Word oder libre Office.

Oder ocr Software.

Allgemein kann man vorhandene Download Areas aufsuchen und die dort gelistete Software nachschauen.
 
ehm ..... noch mal:
Ich brauche eine PHP Lösung für meine webbasierte Programmierung ;)
Die Antwort von @Enigma war bislang eine mögliche Lösung :)
 
Also ich hatte oft das Problem, Texte aus PDFs auszulesen, damit ich einen Index in der Datenbank machen konnte. Damals war das noch pdf2text mit folgendem Ansatz:
  1. Pdf-Datei in Temp-Datei schreiben
  2. Programm pdftotext ausführen und STDOUT des Programms in eine Datei umleiten
  3. Datei mit PHP auslesen
Es gibt 20 Jahre später bestimmt sehr viel bessere Tools als pdf2text. Vielleicht sogar eins der das in HTML umwandelt und man ggf. mit einem XML-Parser ran kann. Da würde ich kreativ sein.

Ich würde auch andere Programmiersprachen nutzen. Du kannst ja z.B. ein node mit 2-3 Zeilen Javascript nutzen, das dir ein PDF ausliest und HTML daraus macht und das auf STDOUT ausgibt. Ich sage das deswegen, weil gerade in JavaScript aktuell sehr viele coole Bibliotheken verfügbar sind.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: xxMuahdibxx
Ergänzung: Ich hab gerade meiner letzten Computerbase-Rechnung geschaut und Steffen nutzt dompdf + CPDF. Vielleicht ist das eine modernere alternative zu FPDF in Bezug auf erstellen von PDF.
 
  • Gefällt mir
Reaktionen: ApeZilla
Ich habe für mein KI projekt einen Pythoncode geschrieben der zumindest PDFs ausliest und in einer Text Datei zusammenfasst. ich weiß nicht, ob dir das helfen würde, oder zumindest ein Anfang wäre?

Könntest es ja nach deinen Wünschen umschreiben.
 
Zurück
Oben