OCR 1994-Quo vadis?

Transcription

OCR 1994-Quo vadis?
m
•üäll!
•|;iü:
"iiiij
:!l
:{{H)
:
iiil'i.
ij^ifÜ!!!*
°8i|i!!!!!iP "
?
OCR 1 9 9 4 - Q u o vadis?
O C R 1994-Quo vadis?
Andreas
Herberger
M i t schöner Regelmäßigkeit wird
das T h e m a O C R oder besser
Zeichenerkennung i n den P C Z e i t s c h r i f t e n r e i h u m aufgegriffen. Waren es f r ü h e r n o c h m e h r j ä h r i g e Intervalle i n denen die
Thematik
bearbeitet
wurde,
scheint sich j e t z t ein j ä h r l i c h w i e derkehrender B r a u c h z u e n t w i k k e l n . D o c h vielleicht gibt es ja
auch i n der Sache selbst b e g r ü n dete N o t w e n d i g k e i t , sich gerade
jetzt erneut m i t dem T h e m a auseinanderzusetzen ?
U n d i n der Tat, i n den letzten 6
M o n a t e n hat sich einiges getan
i m M a r k t der
Zeichenerkenn u n gsp ro gr a m m e.
Neu im Markt
Textbridge und
OPTOPUS-Economy
W u r d e der M a r k t i n der Vergangenheit v o n den Anbietern der
Programme Omnipage (Caere),
Wordscan (Calera) und Recognita
( S Z K I ) dominiert, hat sich das s p ä testens m i t dem Angebot v o n
TextBridge durch die Firma K u r z w e i l ( = X e r o x Imaging Systems)
g e ä n d e r t . K u r z w e i l ist seit Beginn
der 80er Jahre s y n o n y m m i t P i o nierentwicklungen i m Bereich der
Zeichenerkennung, M i t dem Z e i chenerkennungsprogramm
OPT O P U S der Wiesbadener M a k r o l o g G m b H teilen sich die
H i g h - E n d K u r z w e i l Lesesysteme
( K 5 X X X ) seit M i t t e der 80er
Jahre den professionellen Erfassungsmarkt. Beide Systeme w a ren allerdings f ü r den Gelegenheitseinsatz (mal gerade eben ein
paar Seiten scannen) m i t Preisen
u m die 1 0 . 0 0 0 - D M z u teuer.
U m so interessanter ist, d a ß b e i de H i g h - E n d A n b i e t e r die gleiche Strategie f ü r den Massenmarkt verfolgen: K u r z w e i l m i t
dem Einstiegsprodukt "Textbridge" f ü r w e n i g e r als 500,- D M
Scannerpreise und
"Bundle"-OCR
Andreas Herberer ist geschäfts'ükrender Gesellhafter der Makrolog Gesellschaftfür Logikund Computeranwendungen
mbH in Wiesbaden.
D i e Scannerpreise sind schon
l ä n g e r auf dem Weg i n den K e l ler. M u ß t e m a n v o r 2 Jahren f ü r
den 300 d p i Einstiegs-Scanner
n o c h nahezu 2 0 0 0 , - D M auf die
Ladentheke legen - preiswerter
w a r allenfalls ein Handy-Scanner
f ü r r u n d 5 0 0 , - D M z u haben sind die Preise f ü r 300 d p i Scanner n u n m e h r i m Bereich u m
1000,- D M angelangt, u n d meist
b e k o m m t m a n sogar schon eine
Einstiegs-OCR-Software
dazu.
D a ß die g r o ß e n Handelsketten
ihre i m letzten Jahr begonnene
massive
Scannervermarktung
w i e d e r z u r ü c k g e n o m m e n haben,
mag n i c h t z u l e t z t daran liegen,
daß
eben
diese
"Einstiegs"O C R - S o f t w a r e i n den meist a l lenfalls z u m Erlernen des O C R Vorganges d u r c h den Benutzer
n i c h t aber z u m Erzielen brauchbarer O C R - E r g e b n i s s e geeignet
ist. N u r so ist es z u e r k l ä r e n , d a ß
t r o t z aller Massenbundlings s t ä n dig neue A n b i e t e r i n den O C R M a r k t d r ä n g e n , die gerade auf
den e n t t ä u s c h t e n B u n d l i n g - K u n den setzen u n d g e w i s s e r m a ß e n
als " Z w e i t - O C R " gekauft w e r den w o l l e n .
2818
jur-pc 9/94
J u r P C - A r c h i v : http://www.jurpc.de
OCR 1 9 9 4 - Q u o vadis?
u n d M a k r o l o g m i t der O P T O PUS-Economy-Edition f ü r u m
die 1000,- D M . Textbridge f ü h r t
die auf automatisches Lesen ohne
Training ausgerichtete K u r z w e i l strategie konsequent weiter. D e r
A n w e n d e r legt Seiten i n den Scanner, definiert i n k o m p l i z i e r t e n F ä l len ggf. einige Lesebereiche, u n d
das Umsetzen l ä u f t sodann vollautomatisch ab u n d liefert, je nach
Vorlagenart, ein mehr oder w e n i ger gutes Ergebnis. E i n g r i f f s m ö g lichkeiten oder besondere F ä h i g keiten f ü r g r o ß e Vorlagenmengen
bietet das P r o g r a m m k a u m , unters t ü t z t d a f ü r aber fast s ä m t l i c h e eur o p ä i s c h e n Sprachen. Demgegenü b e r setzt die O P T O P U S - E c o n o m y E d i t i o n nach w i e v o r auf I n teraktion m i t dem Benutzer, u n t e r s t ü t z t diesen aber durch ein automatisches Vortraining, das den
eigentlichen
Optimierungsaufw a n d auch bei geringen Vorlagenmengen k a u m ins Gewicht fallen
läßt. D u r c h die M ö g l i c h k e i t des
Upgrades auf die O P T O P U S B u siness E d i t i o n ist zudem sichergestellt, d a ß ohne Programmwechsel
u n d damit ohne zeitaufwendiges
Erlernen einer neuen Software
auch ein sich einstellender P r o duktionsbedarf abgedeckt werden
kann. D u r c h die I n t e r a k t i o n m i t
dem Benutzer w i r d d a r ü b e r hinaus
auch i n k o m p l i z i e r t e n Fällen eine
sichere E r k e n n u n g ohne Verwechslungen erreicht. Beide P r o gramme sind noch unter einem anderen
Aspekt
bemerkenswert:
W ä h r e n d bisher die k ä u f l i c h z u erwerbenden Programme s ä m t l i c h
n u r m i t einem auf die parallele
Schnittstelle
aufzusteckenden
Hardwarekopierschutz (Dongle)
betrieben werden konnten, verzichten s o w o h l Textbridge als
auch die O P T O P U S - E c o n o m y
E d i t i o n auf diesen f ü r den A n w e n der i n jedem Falle lästigen Zusatz.
A u ß e r K u r z w e i l ist n o c h kein leis t u n g s f ä h i g e s P r o g r a m m i n die
Preisklasse unter 1000,- D M eingebrochen. A u c h neue Anbieter
w i e z. B . der C u n e i f o r m Reader
v o n Cognitive Technology versuchen sich z u n ä c h s t i m h ö h e r e n
Preissegmenten zwischen 1.000¬
D M u n d 2.000 - D M ( v o n l i m i tierten Versionen f ü r Handy-Scan-
ner abgesehen). O b hier die gleiche Schere zwischen Listenpreis
u n d Straßenpreis wie bei der ü b r i gen
Standardsoftware
aufgehen
w i r d , bleibt abzuwarten.
Neue Entwicklungen der
Erkennungstechnik
N a c h d e m der jahrelange Streit,
o b n u n die feature-basierten
Systeme m i t W ö r t e r b u c h u n t e r s t ü t z u n g den trainierbaren
Patternmatching-Systemen
ü b e r l e g e n sind
(zu den beiden unterschiedlichen
A n s ä t z e n vgl. den A n h a n g " E r k e n nungsverfahren" auf der n ä c h sten Seite), nach w i e v o r auf E n t scheidung w a r t e t , hat m a n sich
bei den H e r s t e l l e r n an eine w e i tere Grundlagentechnologie e r i n nert, deren Einsatz eigentlich nahe liegt: Image
Enhancement.
Nachdem
die H P
Accupage
Technologie, ü b e r deren H i n t e r g r ü n d e v o n H P bisher n u r sehr
w e n i g z u erfahren war, allem A n schein nach das Image Enhancement v o r der A b l i e f e r u n g der
D a t e n an die O C R - S o f t w a r e betreibt, hat die F i r m a Caere w o h l
als erster Softwarehersteller i n i h rem neuen O m n i p a g e Professional
das
Image-Enhancement
scannerunabhängig
eingebaut.
D e r Gedanke ist einfach: N o r malerweise scannen O C R - P r o gramme
die
Vorlagen
als
S c h w a r z / W e i ß - B i l d e r , d. h . der
Scanner liefert f ü r jeden B i l d p u n k t entweder die I n f o r m a t i o n
Schwarz oder W e i ß . V o n Z w i schenstufen e r f ä h r t das O C R P r o g r a m m nichts. D i e Entscheid u n g w i r d alleine v o m Scanner
a u f g r u n d eines fest eingestellten
(Kontrast-)Schwellwertes g e t r o f f e n . O f t ist dieser
konstante
Schwellwert aber n i c h t f ü r die
gesamte gescannte Seite passend.
Es liegt also nahe, die Seite m i t
z. B . 16 G r a u s t u f e n z u scannen.
Das O C R - P r o g r a m m k a n n dann
in
Abhängigkeit
des
Erkennungsresultates eine K o n t r a s t a n passung d u r c h f ü h r e n . Technisch
betrachtet handelt es sich also u m
eine R ü c k k o p p e l u n g des E r k e n nungsergebnisses auf die K o n -
jur-pc 9/94
J u r P C - A r c h i v : http://www.jurpc.de
trastbestimmung. D a ß dies i n der
Vergangenheit k e i n e n E i n g a n g i n
die P r o g r a m m e gefunden hat,
w i r d einsichtig, w e n n m a n sich
vorstellt, d a ß eine S c h w a r z / W e i ß
A4-Seite nach dem Scannen ca.
1 M B an Pixeldaten b e n ö t i g t ,
dieselbe Seite m i t 16 G r a u s t u f e n
aber schon auf 4 M B a n w ä c h s t .
A u f einem ä l t e r e n Rechner m i t
vielleicht n u r 2 M B H a u p t s p e i cher w i r d sich eine solche D a t e n menge n u r schlecht verarbeiten
lassen. D a aber heute bereits jede
bessere Textverarbeitung unter
Windows f ü r produktiven Betrieb einen 80486 Rechner m i t
wenigstens 8 M B Hauptspeicher
erwartet, d ü r f e n auch O C R - P r o gramme j e t z t solche A n f o r d e r u n gen stellen. D a z u erwarten ist,
d a ß auch die anderen P r o g r a m m e
i n K ü r z e diese Standardtechnik
einsetzen w e r d e n , sollte b e i m
K a u f eines Scanners n i c h t m e h r
n u r auf die A u f l ö s u n g , sondern
auch auf die G r a u s t u f e n f ä h i g k e i ten geachtet w e r d e n .
Neue
Anwendungsgebiete
D i e Integration v o n O C R - S o f t ware i n Faxpakete ist mittlerweile
selbstverständlich, w e n n auch nach
einhelliger M e i n u n g hier noch
k a u m brauchbare Ergebhisse erzielt werden. Dies liegt w o h l ü b e r wiegend daran, d a ß Faxe i n
Deutschland zumeist noch aus
herkömmlichen Faxgeräten k o m men u n d somit m i t nur ca. 100 d p i
auf der Sendeseite gescannt w u r den. Zusammen m i t U b e r t r a gungsproblemen sind die a n k o m men " B i l d e r " auch f ü r den M e n schen manchmal n u r schwer lesbar. Besserung ist hier i n Sicht,
werden doch i n Z u k u n f t eine V i e l zahl v o n Faxen d i r e k t aus der
Textverarbeitung per Faxkarte versandt werden. Diese k o m m e n
dann i n perfekter Q u a l i t ä t b e i m
E m p f ä n g e r an u n d verwenden z u dem n u r eine sehr b e s c h r ä n k t e
A n z a h l v o n Schriften, so d a ß die
Erkennung nicht schwerfällt. Waru m allerdings dann nicht gleich ein
Versand per Email stattfindet (der
OCR 1 9 9 4 - Q u o vadis?
33!!!!
~"i
:::
jij!
lim
iiiiiiiiiiii;::
-:it:tt.
:a !=•=•=.
die A S C I I - P i x e l Transformation
beim Sender u n d die Pixel-ASC I I Transformation b e i m E m p fänger erübrigen würde)
wird
w o h l n o c h einige Jahre ein Rätsel
bleiben. T r o t z d e m oder gerade
deswegen sind die O C R - A n b i e ter auf der Suche nach neuen
M ä r k t e n . Eine clevere Idee, einen
neuen M a r k t z u erschließen, ist
der Einsatz v o n O C R - S o f t w a r e
z u m Einlesen v o n Visitenkarten.
Mehrere A n b i e t e r bieten hier
entweder S o f t w a r e l ö s u n g e n z u m
Einsatz m i t normalen Scannern
oder sogar spezielle Visitenkartenleser an, die i m Grunde nichts
anderes sind als ein Bildarchivierungssystem
f ü r Visitenkarten
mit
integrierter O C R - S o f w a r e .
D i e O C R - S o f t w a r e versucht auf
der Visitenkarte die verwertbaren
Informationen (wie Name und
Adresse) z u erkennen u n d z u sätzlich gleich den richtigen Feldern i n einer mitgelieferten D a -
tenbank zuzuordnen. D e r Schritt
z u m N e w t o n m i t eingebautem
Visitenkartenleser, den man, anstatt die Visitenkarte entgegenzunehmen, einfach k u r z d a r ü b e r zieht u n d nach der elektronischen A u f n a h m e sofort wieder
z u r ü c k g i b t , scheint also keine
Z u k u n f t s m u s i k mehr. O b dies
ein weiterer Schritt z u m papierlosen B ü r o ist?
Anhang:
Erkennungsverfahren
Feature
Recognition
U n t e r Feature R e c o g n i t i o n versteht m a n V e r f a h r e n , die versuchen, bei der E r k e n n u n g charakteristische
Eigenschaften
der
Buchstaben z u entdecken. E i n
" H " k ö n n t e z. B . als z w e i senkrechte L i n i e n v e r b u n d e n m i t einer h o r i z o n t a l e n Q u e r l i n i e beschrieben w e r d e n . G r e n z e n erreichen feature-basierte Technologien bei Buchstaben, zwischen
denen auf Featurebasis k a u m
Unterschiede bestehen, w i e z. B .
der Buchstabe " O " u n d die Z i f fer " 0 " . Fast alle feature-basierten Systeme greifen daher z u s ä t z l i c h auf Sprachtechnologie
oder W ö r t e r b ü c h e r z u r ü c k u n d
sind d a m i t k o n t e x t a b h ä n g i g . Feature-basierte Systeme sind m e i stens auf bestimmte A r t e n v o n
S c h r i f t e n (z. B . serifenlose Schriften) o p t i m i e r t u n d zeigen erstaundliche Fehlerkennungen bei
atypischen S c h r i f t e n .
Pattern
Matching
B e i m Pattern M a t c h i n g w e r d e n
i m System vorhandene ("gelernte") M u s t e r auf Pixelebene m i t
neuen M u s t e r n verglichen. V e r schiedene F i l t e r v e r f a h r e n stellen
sicher, d a ß n i c h t jedes v o m V e r gleichsmuster abweichende Pixel
s o f o r t als A b w e i c h u n g gewertet
wird.
2820
Flexibilität durch freie
Trainierbarkeit
Pattern M a t c h i n g Systeme zeichnen sich d u r c h hohe F l e x i b i l i t ä t
bei der E r k e n n u n g aus, da v o n
Seiten des
Softwareherstellers
k a u m Vorgaben i n B e z u g auf die
z u erkennenden S c h r i f t a r t e n v o r gegeben w e r d e n . O p t i m a l e E r gebnisse erzielen diese Systeme
allerdings i m m e r erst nach einer
m e h r oder w e n i g e r a u f w e n d i g e n
Lernphase, weswegen sich die
pattern-matching-basierten V e r fahren ü b e r w i e g e n d f ü r Produktionseinsatz m i t g r ö ß e r e n T e x t mengen u n d h o h e n A n f o r d e r u n gen an die Erkennungssicherheit
eignen.
jur-pc 9/94
J u r P C - A r c h i v : http://www.jurpc.de