PDF-Datei - Internetservice WebConsultant.de Dipl. Ing. Hans

Transcription

PDF-Datei - Internetservice WebConsultant.de Dipl. Ing. Hans
Forum
Dialog mit Bibliotheken, 16, 2004, 3
Hans-Martin Aurich
[
Texterkennung im großen Stil
]
Schreibarbeit. Einige Rechnergenerationen
Die Aufwertung der »Exilpresse digital«
weiter durften wir nun schon mit exorbitant
Das Projekt
teuren Scannern unsere Schreibmaschinen-
Von Anfang 1998 bis 2003 wurde im Deutsch-
seiten einlesen und durch rudimentäre Soft-
en Exilarchiv 1933 – 1945 der Deutschen
ware als Text erkennen lassen. Spaß konnte
Bibliothek Frankfurt am Main das von der
man auch das nicht nennen, der kam erst mit
Deutschen Forschungsgemeinschaft (DFG)
flotten Rechnern und ausgefeilter Software
unterstützte Projekt »Exilpresse digital -
wie z. B. ABBYY FineReader 7.0 – die erste
deutschsprachige Exilzeitungen und -schrif-
Wahl unter den Zeichenerkennungsprogram-
ten 1933 - 1945« durchgeführt. Herausragen-
men2) - auf.
Texterfassung
des Ziel des Projekts war die Vermittlung eines »repräsentativen Überblicks« über die
Stand der Dinge
gesamte, vielfältige und sehr unterschiedli-
Für eine digitalisierte schwarz/weiße Zei-
che deutschsprachige Exilpresse der Jahre
tungsseite im Format A2 (TIF-Dateiformat -
1933 - 1945. Ein solcher Überblick sollte
tagged image format, 450 dpi Auflösung, ca.
wichtige Beispiele für alle im Exil erschiene-
500 kB Dateigröße) benötigt man mit einem
nen Zeitschriftengruppen enthalten1). So fin-
durchschnittlichen, modernen Rechner (z. B.
den sich kulturpolitische und literarische
Prozessor AMD Athlon(tm) XP 2000+ mit 1,67
Zeitschriften, wissenschaftliche Zeitschriften,
GHz und 1 GB Hauptspeicher) ca. eine Minu-
politische Zeitschriften aller größeren Par-
te für Import, Zeichenerkennung und Spei-
teien und weltanschauliche Zeitschriften; fer-
cherung des erkannten Textes in den Forma-
ner ist die bedeutende deutsch-jüdische Exil-
ten Portable Document Format (PDF) und
zeitschrift in den USA, der »Aufbau«, vertre-
Text (TXT). Hierbei nimmt die Texterkennung
ten – das einzige deutschsprachige Exilperio-
und das händische »Klicken« die größte Zeit-
dikum, das bis zum heutigen Tag erscheint.
spanne ein. Ein sehr schneller Rechner z. B.
mit AMD 64 Prozessor 3400+ (2,20 GHz) und
Am Anfang war die Mühe
1 GB Hauptspeicher schafft die Rechenpro-
Erinnern Sie sich noch an die seligen Zeiten,
zesse in 10 % der Zeit, das »Klicken« bleibt
als jedes Textblatt zuerst mit der Schreibma-
natürlich konstant langsam. Insgesamt sollte
schine abgetippt werden musste? Erinnern
man jedoch sehr vorsichtig mit Zeitangaben
Sie sich auch noch an Radiergummi, Rasier-
sein, denn die Struktur, Größe, Vorlagequa-
klinge und das gesegnete TippEx, um dem
lität und Bildqualität der Digitalisate lassen
Fehlerteufel beizukommen? Allen, denen
die Angaben um den Faktor 4 – 5 schwanken!
jetzt kein wehmütig, mitleidiges Lächeln auf
FineReader bietet nach der Zeichen-/Texter-
dem Gesicht erstrahlt, sei gesagt: Sie haben
kennung und vor dem Export in diverse Da-
nichts verpasst! Zum Glück kamen später die
teiformate eine Rechtschreibprüfung und –
digitalen Ungeheuer mit monochromen Bild-
korrektur an. Bemerkenswert ist hierbei, dass
schirmen und nahmen uns das mechanische
FineReader automatisch erkennt, ob es sich
Korrigieren ab, leider jedoch nicht die
z. B. um einen englischen oder deutschen
62
Manuelle
Texterkennung
Forum
auch Volltexte zur Verfügung stellen zu kön-
cher zur Verfügung stellt. Obwohl das Pro-
nen. Der Reifegrad der Texterkennungsver-
gramm optimale Bedingungen für den Bear-
fahren sowie Zeit- und Kostenaspekte hatten
beiter bietet, kommen je Bilddatei 5 – 10 Min.
das vorerst verhindert. Gegen Ende des Pro-
(!) Bearbeitungszeit für die manuelle Recht-
jektes ergab sich jedoch eine günstige finan-
schreibkorrektur hinzu.
zielle und zeitliche Ausnahmesituation die
es erlaubte, die anfänglichen Überlegungen hinsichtlich Volltexterfassung/Texterken-
Exilpresse digital
Anfang 2004 konnte die »Exilpresse digital -
nung und Volltextsuche in die Praxis umzu-
Deutsche Exilzeitschriften 1933 - 1945« an
setzen.
3)
Der Deutschen Bibliothek
ca. 80.000
digitalisierte
Zei-
tungsblätter (Scans)
im
»TIF«
Dateiformat
vorweisen.
Bibliotheks- und Internetbenutzer haben die Möglichkeit, innerhalb der
Zeitschriften Jahrgänge,
Ausgaben
und Seiten zu wählen, die im Bild-Dateiformat »GIF« (mit
Wahl verschiedener
Auflösungen) oder
im PDF-Dateiformat
(allerdings
ohne
Volltexte) zur Verfügung gestellt werden. Die Ausgabe-
Mehr
Benutzerservice
Datei-Formate werden »on-the-fly«, also
Entscheidung für Automatisation
während der Verarbeitung einer jeden Anfra-
Erinnern wir uns noch einmal an die 1 Minute
ge automatisch erzeugt. Durch manuell/intel-
pro Bilddatei für Import, Texterkennung und
lektuell erschlossene Metadaten, konnte eine
Export in verschiedene Formate. Multipliziert
Titel/Stichwortsuche ergänzt werden.4) Von
mit 80.000 Stück kommen wir auf stolze 170
Anfang an war im Projekt erwogen worden,
Personentage Verarbeitungszeit. An dieser
zu einem späteren Zeitpunkt dem Nutzer
Stelle wird spätestens klar, warum eine zeit-
63
Dialog mit Bibliotheken, 16, 2004, 3
Text handelt und entsprechende Wörterbü-
Forum
Dialog mit Bibliotheken, 16, 2004, 3
Automatische
Texterkennung
aufwändige, manuelle Nachbearbeitung der
gefangen werden mussten, waren korrupte
Textdateien nie in Betracht gezogen wurde.
(nicht lesbare) Bilddateien, interne Fehler-
Zum Glück liegt die Erkennungsgenauigkeit
meldungen von FineReader, fehlende Fine-
von FineReader je nach Vorlagequalität über
Reader-Meldungen bei offenkundigen Feh-
80 %, genügend, um einen leistungsfähigen
lersituationen und Lizenzprobleme. Allein
Index für die Volltextsuche zu generieren und
schon die Tatsache, dass drei Monate
Texte als gut lesbar einstufen zu können. Das
Entwicklungszeit unter Inanspruchnahme ei-
Projektteam erkannte schnell die Chance,
ner Subfirma benötigt wurden zeigen, wie
über ein verbessertes und automatisiertes
umfassend das Thema Massentexterken-
Texterkennungsverfahren den digitalen Ge-
nung in der Praxis ist. Am 20. Juli 2004 konn-
samtbestand der Exilpresse, statt der ange-
ten die Textdaten im PDF- und TXT-Format
dachten 35 %, zu realisieren.
auf insgesamt zehn DVDs an Die Deutsche
Bibliothek geliefert werden.
Technische Umsetzung
Fazit
Gemeinsam mit der Firma Internetservice
wurden Vor-
Durch die konsequente Ausrichtung auf eine
aussetzungen für einen reibungslosen Verar-
automatische Texterkennung, konnte Die
beitungsablauf geschaffen. Die Datenliefe-
Deutsche Bibliothek bei gleich bleibenden
rung an WebCon erfolgte per Festplatte. Auf
Kosten und trotz erheblicher Entwicklungs-
einem AMD 64 Prozessor 3400+ (2,20 GHz)
aufwendungen die dreifache Menge an Text-
System mit 1 GB RAM und Windows XP Pro-
erkennungen gegenüber den anfänglichen
fessional als Betriebssystem wurde die ak-
Bestrebungen realisieren. Die Deutsche Bib-
tuelle ABBY FineReader Scripting Edition in-
liothek hat in Zusammenarbeit mit der Firma
stalliert. Die Steuerung der FineReader Ma-
WebConsultant.de hervorragende Ergeb-
schine (OCR-Maschine) wurde durch eine mit
nisse erzielt, die sich auf zukünftige Projekte
TCP/IP verbundene Server / Client Konstruk-
und Maßnahmen anwenden und weiterent-
tion realisiert. Innerhalb von drei Monaten
wickeln lassen.6)
wurde die Anwendungsumgebung an die
Anschrift von Hans-Martin Aurich: Langweidenstr. 56,
60488 Frankfurt am Main,
E-Mail: [email protected]
WebConsultant.de (WebCon)
5)
speziellen Anforderungen einer Massenverarbeitung angepasst. Typische Fehler, die ab-
Anmerkungen
1
<http://www.bsb-muenchen.de/mdz/dfgprojekte/frankfurt_exilzs.htm>
2
Im Januar 2004 bescheinigt das Computermagazin »c’t magazin« der Zeichenerkennungs-Software FineReader:
»Bei Texten mit Grafik belegte der FineReader klar Platz 1...«; die »PC Welt« beurteilt im Dezember 2003 ABBYY FineReader 7.0 mit »sehr gut«.
64
Behebung von
Problemen
Forum
4
<http://deposit.ddb.de/Harvest/brokers/exil/query-glimpse.htm>
5
<http://www.WebConsultant.de>
6
<http://www.webconsultant.de/OCR01.htm>
65
Dialog mit Bibliotheken, 16, 2004, 3
3
<http://deposit.ddb.de/online/exil/exil.htm>

Documents pareils