PDF-Datei - Internetservice WebConsultant.de Dipl. Ing. Hans
Transcription
PDF-Datei - Internetservice WebConsultant.de Dipl. Ing. Hans
Forum Dialog mit Bibliotheken, 16, 2004, 3 Hans-Martin Aurich [ Texterkennung im großen Stil ] Schreibarbeit. Einige Rechnergenerationen Die Aufwertung der »Exilpresse digital« weiter durften wir nun schon mit exorbitant Das Projekt teuren Scannern unsere Schreibmaschinen- Von Anfang 1998 bis 2003 wurde im Deutsch- seiten einlesen und durch rudimentäre Soft- en Exilarchiv 1933 – 1945 der Deutschen ware als Text erkennen lassen. Spaß konnte Bibliothek Frankfurt am Main das von der man auch das nicht nennen, der kam erst mit Deutschen Forschungsgemeinschaft (DFG) flotten Rechnern und ausgefeilter Software unterstützte Projekt »Exilpresse digital - wie z. B. ABBYY FineReader 7.0 – die erste deutschsprachige Exilzeitungen und -schrif- Wahl unter den Zeichenerkennungsprogram- ten 1933 - 1945« durchgeführt. Herausragen- men2) - auf. Texterfassung des Ziel des Projekts war die Vermittlung eines »repräsentativen Überblicks« über die Stand der Dinge gesamte, vielfältige und sehr unterschiedli- Für eine digitalisierte schwarz/weiße Zei- che deutschsprachige Exilpresse der Jahre tungsseite im Format A2 (TIF-Dateiformat - 1933 - 1945. Ein solcher Überblick sollte tagged image format, 450 dpi Auflösung, ca. wichtige Beispiele für alle im Exil erschiene- 500 kB Dateigröße) benötigt man mit einem nen Zeitschriftengruppen enthalten1). So fin- durchschnittlichen, modernen Rechner (z. B. den sich kulturpolitische und literarische Prozessor AMD Athlon(tm) XP 2000+ mit 1,67 Zeitschriften, wissenschaftliche Zeitschriften, GHz und 1 GB Hauptspeicher) ca. eine Minu- politische Zeitschriften aller größeren Par- te für Import, Zeichenerkennung und Spei- teien und weltanschauliche Zeitschriften; fer- cherung des erkannten Textes in den Forma- ner ist die bedeutende deutsch-jüdische Exil- ten Portable Document Format (PDF) und zeitschrift in den USA, der »Aufbau«, vertre- Text (TXT). Hierbei nimmt die Texterkennung ten – das einzige deutschsprachige Exilperio- und das händische »Klicken« die größte Zeit- dikum, das bis zum heutigen Tag erscheint. spanne ein. Ein sehr schneller Rechner z. B. mit AMD 64 Prozessor 3400+ (2,20 GHz) und Am Anfang war die Mühe 1 GB Hauptspeicher schafft die Rechenpro- Erinnern Sie sich noch an die seligen Zeiten, zesse in 10 % der Zeit, das »Klicken« bleibt als jedes Textblatt zuerst mit der Schreibma- natürlich konstant langsam. Insgesamt sollte schine abgetippt werden musste? Erinnern man jedoch sehr vorsichtig mit Zeitangaben Sie sich auch noch an Radiergummi, Rasier- sein, denn die Struktur, Größe, Vorlagequa- klinge und das gesegnete TippEx, um dem lität und Bildqualität der Digitalisate lassen Fehlerteufel beizukommen? Allen, denen die Angaben um den Faktor 4 – 5 schwanken! jetzt kein wehmütig, mitleidiges Lächeln auf FineReader bietet nach der Zeichen-/Texter- dem Gesicht erstrahlt, sei gesagt: Sie haben kennung und vor dem Export in diverse Da- nichts verpasst! Zum Glück kamen später die teiformate eine Rechtschreibprüfung und – digitalen Ungeheuer mit monochromen Bild- korrektur an. Bemerkenswert ist hierbei, dass schirmen und nahmen uns das mechanische FineReader automatisch erkennt, ob es sich Korrigieren ab, leider jedoch nicht die z. B. um einen englischen oder deutschen 62 Manuelle Texterkennung Forum auch Volltexte zur Verfügung stellen zu kön- cher zur Verfügung stellt. Obwohl das Pro- nen. Der Reifegrad der Texterkennungsver- gramm optimale Bedingungen für den Bear- fahren sowie Zeit- und Kostenaspekte hatten beiter bietet, kommen je Bilddatei 5 – 10 Min. das vorerst verhindert. Gegen Ende des Pro- (!) Bearbeitungszeit für die manuelle Recht- jektes ergab sich jedoch eine günstige finan- schreibkorrektur hinzu. zielle und zeitliche Ausnahmesituation die es erlaubte, die anfänglichen Überlegungen hinsichtlich Volltexterfassung/Texterken- Exilpresse digital Anfang 2004 konnte die »Exilpresse digital - nung und Volltextsuche in die Praxis umzu- Deutsche Exilzeitschriften 1933 - 1945« an setzen. 3) Der Deutschen Bibliothek ca. 80.000 digitalisierte Zei- tungsblätter (Scans) im »TIF« Dateiformat vorweisen. Bibliotheks- und Internetbenutzer haben die Möglichkeit, innerhalb der Zeitschriften Jahrgänge, Ausgaben und Seiten zu wählen, die im Bild-Dateiformat »GIF« (mit Wahl verschiedener Auflösungen) oder im PDF-Dateiformat (allerdings ohne Volltexte) zur Verfügung gestellt werden. Die Ausgabe- Mehr Benutzerservice Datei-Formate werden »on-the-fly«, also Entscheidung für Automatisation während der Verarbeitung einer jeden Anfra- Erinnern wir uns noch einmal an die 1 Minute ge automatisch erzeugt. Durch manuell/intel- pro Bilddatei für Import, Texterkennung und lektuell erschlossene Metadaten, konnte eine Export in verschiedene Formate. Multipliziert Titel/Stichwortsuche ergänzt werden.4) Von mit 80.000 Stück kommen wir auf stolze 170 Anfang an war im Projekt erwogen worden, Personentage Verarbeitungszeit. An dieser zu einem späteren Zeitpunkt dem Nutzer Stelle wird spätestens klar, warum eine zeit- 63 Dialog mit Bibliotheken, 16, 2004, 3 Text handelt und entsprechende Wörterbü- Forum Dialog mit Bibliotheken, 16, 2004, 3 Automatische Texterkennung aufwändige, manuelle Nachbearbeitung der gefangen werden mussten, waren korrupte Textdateien nie in Betracht gezogen wurde. (nicht lesbare) Bilddateien, interne Fehler- Zum Glück liegt die Erkennungsgenauigkeit meldungen von FineReader, fehlende Fine- von FineReader je nach Vorlagequalität über Reader-Meldungen bei offenkundigen Feh- 80 %, genügend, um einen leistungsfähigen lersituationen und Lizenzprobleme. Allein Index für die Volltextsuche zu generieren und schon die Tatsache, dass drei Monate Texte als gut lesbar einstufen zu können. Das Entwicklungszeit unter Inanspruchnahme ei- Projektteam erkannte schnell die Chance, ner Subfirma benötigt wurden zeigen, wie über ein verbessertes und automatisiertes umfassend das Thema Massentexterken- Texterkennungsverfahren den digitalen Ge- nung in der Praxis ist. Am 20. Juli 2004 konn- samtbestand der Exilpresse, statt der ange- ten die Textdaten im PDF- und TXT-Format dachten 35 %, zu realisieren. auf insgesamt zehn DVDs an Die Deutsche Bibliothek geliefert werden. Technische Umsetzung Fazit Gemeinsam mit der Firma Internetservice wurden Vor- Durch die konsequente Ausrichtung auf eine aussetzungen für einen reibungslosen Verar- automatische Texterkennung, konnte Die beitungsablauf geschaffen. Die Datenliefe- Deutsche Bibliothek bei gleich bleibenden rung an WebCon erfolgte per Festplatte. Auf Kosten und trotz erheblicher Entwicklungs- einem AMD 64 Prozessor 3400+ (2,20 GHz) aufwendungen die dreifache Menge an Text- System mit 1 GB RAM und Windows XP Pro- erkennungen gegenüber den anfänglichen fessional als Betriebssystem wurde die ak- Bestrebungen realisieren. Die Deutsche Bib- tuelle ABBY FineReader Scripting Edition in- liothek hat in Zusammenarbeit mit der Firma stalliert. Die Steuerung der FineReader Ma- WebConsultant.de hervorragende Ergeb- schine (OCR-Maschine) wurde durch eine mit nisse erzielt, die sich auf zukünftige Projekte TCP/IP verbundene Server / Client Konstruk- und Maßnahmen anwenden und weiterent- tion realisiert. Innerhalb von drei Monaten wickeln lassen.6) wurde die Anwendungsumgebung an die Anschrift von Hans-Martin Aurich: Langweidenstr. 56, 60488 Frankfurt am Main, E-Mail: [email protected] WebConsultant.de (WebCon) 5) speziellen Anforderungen einer Massenverarbeitung angepasst. Typische Fehler, die ab- Anmerkungen 1 <http://www.bsb-muenchen.de/mdz/dfgprojekte/frankfurt_exilzs.htm> 2 Im Januar 2004 bescheinigt das Computermagazin »c’t magazin« der Zeichenerkennungs-Software FineReader: »Bei Texten mit Grafik belegte der FineReader klar Platz 1...«; die »PC Welt« beurteilt im Dezember 2003 ABBYY FineReader 7.0 mit »sehr gut«. 64 Behebung von Problemen Forum 4 <http://deposit.ddb.de/Harvest/brokers/exil/query-glimpse.htm> 5 <http://www.WebConsultant.de> 6 <http://www.webconsultant.de/OCR01.htm> 65 Dialog mit Bibliotheken, 16, 2004, 3 3 <http://deposit.ddb.de/online/exil/exil.htm>