HTM/PDF/RTF: Inhalte automatisch durchnummerieren und beschriften

  • Ersteller Ersteller Echoes90
  • Erstellt am Erstellt am
E

Echoes90

Gast
Hallo :)

Ich bin neu hier und habe eine, vielleicht, etwas ungewöhnliche Frage bzw. Bitte - und hoffe, dass ich hier überhaupt richtig bin. Und zwar geht es um den Output der Medien-Datenbank Factiva. Dort lassen sich verschiedene Zeitungen und Webseiten durchsuchen und Artikel als HTM, PDF oder RTF exportieren. Für alle Formate habe ich eine Beispieldatei hochgeladen.

Ich müsste nun irgendwie die einzelnen Artikel dieser Datei durchzählen können und am besten automatisch beschriften lassen. In dem Beispiel befinden sich nur drei Artikel - später werden es mehr als 1.000 sein. Die Artikel sollen später anhand der fortlaufenden Nummer identifiziert werden. Gibt es eine Möglichkeit dies automatisiert zu erledigen? Mit welchem Format ist für mich nicht weiter wichtig. Hauptsache es funktioniert :)

Hat jemand eine Idee oder kann mir unter Umständen sogar ein Script oder Ähnliches schreiben? Das wäre super!

Vielen Dank im Voraus und liebe Grüße!
 

Anhänge

Ich kenne Factiva nicht (und habe hier gerade nur das Handy), aber lassen sich die Daten auch unformatiert exportieren (txt oder csv)? Dann kann man die Datei einfach zeilenweise auslesen und die Zeilen gleich nummerieren.

Gruß Jens

Edit: Wenn man es richtig machen will, legt man die Daten natürlich am besten in einer eigenen Datenbank ab; dann hat man alle Möglichkeiten, sie weiter zu verarbeiten...
 
Zuletzt bearbeitet:
Factiva ist leider auch nicht frei zugänglich. Ich bekomme im Rahmen meiner Dissertation Zugang über die Uni. Ein Export als CSV ist leider nicht möglich. Der Export ist nur über die Dateiformate möglich, die ich bereits genannt habe.
 
Dann wird es schwieriger, weil die Dateiformate neben den Rohdaten noch jede Menge "Formatierungsmüll" mitbringen.
Hast du mal bei dem Unternehmen angefragt, ob sie dir im Rahmen deines Forschungsprojekts Rohdaten zur Verfügung stellen würden?

Gruß Jens
 
Habe ich. Aber leider sind die nicht sehr kooperativ. Factiva gehört zu Dow Jones und besitzt nicht einmal einen deutschen Kundenservice. Ich habe dort schon angefragt, ob es nicht irgendwie möglich ist den Export als CSV oder EXCEL durchzuführen. Leider nicht...

Das einzige, was ich gefunden habe, ist ein Python-Script, mit dem ich den HTM-Eport in eine CSV verwandeln kann. Aber dieser Vorgang ist so aufwändig, dass ich die Artikel in der Zeit fast händisch beschriften könnte....

Ich darf den Link zum Script leider nicht posten. Sollte über Google zu finden sein: Extracting meta data from Factiva to CSV via Python

Gruß,
Dennis
 
Zuletzt bearbeitet von einem Moderator: (Link hinzugefügt.)
Ja, so ein Export bedeutet Aufwand. Wenn es da keine fertige Lösung gibt und du das auch selbst nicht kannst, dann sehe ich da wenig Hoffnung... :/

Gruß Jens
 
Zurück
Oben