Quelle und Veröffentlichungsdatum wird z.T. nicht ausgelesen, obwohl vorhanden
Testdatei: Pressespiegel_20210614.pdf
– Auslesen von Quelle und Datum schlägt für alle Artikel fehl
Case 1
- ausgelesener Text matcht aus irgendeinem Grund nicht mit regulärem Ausdruck
- Text:
Quelle: DER TAGESSPIEGEL vom 14.06.2021, Seite 22
- Regulärer Ausdruck:
r'Quelle: .* vom .*'
Case 2
- es wird nur die Auflage ausgelesen, obwohl darüber auch Quelle und Datum angegeben sind
- Text:
Auflage: 121.555