Quelle und Veröffentlichungsdatum wird z.T. nicht ausgelesen, obwohl vorhanden

Testdatei: Pressespiegel_20210614.pdf – Auslesen von Quelle und Datum schlägt für alle Artikel fehl

Case 1

  • ausgelesener Text matcht aus irgendeinem Grund nicht mit regulärem Ausdruck
  • Text: Quelle: DER TAGESSPIEGEL vom 14.06.2021, Seite 22
  • Regulärer Ausdruck: r'Quelle: .* vom .*'

Case 2

  • es wird nur die Auflage ausgelesen, obwohl darüber auch Quelle und Datum angegeben sind
  • Text: Auflage: 121.555