Gewöhnlich werden Bilder mit einer Kamera aufgenommen; so wurden und werden
noch heute bei der Archivierung von Schriftstücken auf Mikrofilm Kameras
eingesetzt. Kameras können zwar in Sekundenschnelle gute Bilder liefern,
sie müssen aber auf das aufzunehmende Objekt ausgerichtet und eingestellt
werden. Die Technik ist teuer, sperrig und für Blinde nicht bedienbar.
Ein Scanner dagegen - der Name kommt von dem englischen Wort scan =
abtasten, abgreifen, überfliegen (im Sinne von flüchtig lesen) - tastet
eine Vorlage zeilenweise durch eine Glasscheibe hindurch ab. Handscanner
müssen mit der Hand über die Vorlage gezogen werden. Das macht sie von
vornherein für Blinde ungeeignet, und auch Sehende benutzen sie nur für
kleine Vorlagen wie zum Beispiel Strichcodes auf Waren in Geschäften. Zum
Lesen von Büchern werden Flachbettscanner verwendet. Diese haben ein
flaches, quaderförmiges Gehäuse. Hebt man den Deckel, so findet man
darunter eine Glasscheibe im Format A 4 oder etwas größer. Auf diese wird
die Vorlage gelegt, mit der zu lesenden Seite nach unten.
Die Einfassung der Glasscheibe hilft dabei, die Vorlage auszurichten. Das ist wichtig,
denn eine gerade ausgerichtete Vorlage kann später leichter zu Text verarbeitet werden.
Ob die Vorlage quer liegt oder auf dem Kopf steht, das spielt bei der heutigen Software
keine Rolle mehr; und das kann einem Blinden nur recht sein. Wichtig ist nur, daß sich
der zu lesende Text vollständig auf der Glasplatte befindet. Dabei können dicke
Bücher durchaus widerspenstig sein, wenn sie vollständig aufgeklappt auf den
Scanner gelegt werden müssen. Da ist es gut, wenn der Scanner eine Buchkante hat, so
daß das Buch mit einer Seite vollständig auf die Glasplatte gelegt werden kann,
während die Seite, die gerade nicht gescannt werden soll, seitlich aus dem Gerät
herausragt.
Beim Scannen sollte der Deckel möglichst geschlossen sein. Er verschließt nicht
nur das Gerät, er drückt auch die Vorlage leicht gegen die Glasscheibe und sichert
damit ein scharfes Bild. Außerdem verhindert er, daß sich die Vorlage
während des Scannens bewegen kann, denn dann entstünden recht eigenartige Bilder.
Dicke und widerspenstige Bücher müssen allerdings bei offenem Deckel mit der Hand
auf die Glasplatte gedrückt werden, wenn sie sich anders nicht dazu bequemen wollen,
flach liegenzubleiben.
Der eigentliche Scanner ist eine CCD-Zeile (CCD bedeutet charge coupled device = ladungsgekoppeltes Bauelement und bezeichnet den Aufbau der lichtempfindlichen Halbleiterelemente der Zeile), die auf einer Schiene unter der Glasplatte über die Vorlage bewegt wird. Auf dem Träger der CCD- Zeile befindet sich auch die Beleuchtungseinrichtung, welche den zu scannenden Bereich der Vorlage in voller Länge gleichmäßig ausleuchtet. Dabei handelt es sich um eine sehr schmale Zeile des Bildes. Die Bauweise der CCD-Zeile erlaubt auch, daß die Bildpunkte auf der Zeile sehr eng beieinander liegen können. Das Maß für den Punktabstand heißt dpi (dots per inch = Punkte pro Zoll; 1 Zoll (inch, Abkürzung ") entspricht 2,54 cm). Üblich sind Werte zwischen 75 und 1600 dpi. Üblicherweise werden Texte und Bilder mit 300 bis 600 dpi gescannt. Nach dem Scannen werden die gelesenen Daten sofort zur Verarbeitung weitergegeben, die CCD-Zeile wird zum Lesen der nächsten Zeile weitertransportiert, und diese wird gelesen. Das wiederholt sich, bis die gesamte Vorlage abgetastet ist. Dann wird die CCD-Zeile in ihre Ausgangsstellung zurückgefahren und die nächste Vorlage kann gescannt werden.
Wie schon gesagt, die OCR-Software durchsucht die gescannten Bilder nach
Zeichen. Sie vergleicht die Bilddaten mit gespeicherten Mustern und läßt dabei auch
Abweichungen zu. Ein großes T zum Beispiel ist gewöhnlich ein senkrechter Strich
mit einem waagerechten quer darüber. Bei einer kursiven Schrift steht der senkrechte
Strich aber etwas schräg, beinahe so, als hätte jemand von rechts dagegen getreten.
Die Software wird das T trotzdem meist richtig erkennen, auch dann, wenn Serifen, das
sind kleine Häkchen an den Enden der Striche, dran sein sollten.
Schwieriger wird es dagegen, wenn sich Buchstaben zum Verwechseln ähnlich sehen, wie zum
Beispiel Null und das große O. Da wäre es schon mal denkbar, daß der
MD-Recorder 180,OO Euro kostet. Das "OO" mag wohl der Schreckensruf aus dem Portemonaie sein.
Schlechter wird es schon, wenn ich einen Brief von meinem Nullpa bekomme, der ja eigentlich
mein Opa ist.
Um derartige Fehler gering zu halten, verfügt die Software meist über ein
Wörterbuch in der Sprache, für die sie vorgesehen ist. Zu unwahrscheinlich
erscheinende Worte werden damit manchmal in die richtigen Worte verwandelt, ohne daß
der Anwender viel davon merkt. Auf diese Weise bringt es die OCR-Software heutzutage auf mehr
als 95 % richtigen Text. Will man den Text als Datei weiterverwenden, dann sind allerdings
Korrekturen angesagt. Das folgende Bild ist die farbige Abbildung eines aufgeschlagenen
Buches:
Für die Texterkennung werden eigentlich nur zwei Farben benötigt, nämlich eine für den Text (in der Regel Schwarz) und für den Hintergrund (in der Regel die Papierfarbe, meist Weiß). Normalerweise wird deshalb schwarzweiß gescannt. Das ergibt wesentlich weniger Daten und die Software kann sich sogar eine Korrektur der Schräglage der Vorlage leisten. Das sieht dann so aus:
Ist der Text dann verarbeitet, so kann man etwa folgendes lesen (Text von der rechten Buchseite):
VOM FONFTEN TAG, UND WIE SICH SIR LAMORAK HIELT So begann der fünfte Tag. in der Morgenfrühe forderte Sir Palamides in der Nähe der Burg, in der König Artus weilte, zum Kampf heraus. Da trat ihm ein ruhmreicher Herzog entgegen, und Sir Palamides warf ihn vom Pferd. Dieser Herzog war ein Onkel des Königs Artus. Dann trat der Sohn von Sir Elis gegen Palamides an und wurde ebenfalls bezwungen. Da geriet Sir Iwein in Zorn und ritt gegen Sit Palamides, doch Palamides traf ihn mit solcher Wucht, daß er mitsamt dem Pferd zu Boden stürzte. Und so warf er drei Brüder Sir Gaweins, nämlich Mordred, Gaheris und Agrawein, zu Boden. 0 Jesus, rief Artus, es ist eine große Demütigung, daß ein Sarazene Männer meiner Sippe niederwirft. Da übermannte ihn der Zorn, und er wollte sich zum Kampf rüsten. Sir Lamorak bemerkte, daß Artus und seine Sippe in Bedrängnis waren. Sogleich wappnete er sich und fragte Palamides, ob er noch weiterkämpfen wolle. Warum nicht, antwortete Palamides. Da stießen sie zusammen und zersplitterten ihre Lanzen, daß die Burg von dem Lärm widerhallte. Nun nahmen sie jeder eine stärkere Lanze zur Hand und galoppierten wild gegeneinander, und Sir Palamides' Lanze brach, aber die Sir Lamoraks hielt. Dabei verlor 101
Probleme beim Scannen können auftreten, wenn die Vorlage einen schwachen Kontrast aufweist oder sehr vielfarbig ist. So lassen sich zum Beispiel Versandhauskataloge kaum scannen. Auch sehr dünnes, beidseitig bedrucktes Papier macht unter Umständen Schwierigkeiten. Dann empfiehlt es sich, hinter die zu scannende Seite ein dunkles, möglichst schwarzes Blatt zu legen. Das hat den selben Effekt, als wäre die Rückseite der Vorlage gleichmäßig schwarz. Damit ist die störende Schrift getilgt. Hinter dünnes, einseitig bedrucktes Papier legt man dagegen ein weißes Blatt, um die eventuell störende Papierstruktur auszublenden.
Handschrift kann von der OCR-Software nicht gelesen werden. Das sollte man ihr nicht als Nachteil anrechnen. Auch wir Menschen können nicht jede Handschrift lesen, und ich habe schon zu meiner Schulzeit gelegentlich Lehrer über die "Schmiere" "Klaue" oder gar "Sauklaue" ihrer Schüler schimpfen hören.
Beim Scannen spielen aber auch Probleme einer ganz anderen Art eine Rolle, die kaum von einer Software behoben werden können. Sie betreffen die Struktur des zu lesenden Dokuments. So ist es der Software kaum möglich zu entscheiden, ob die Zellen einer Tabelle zeilenweise oder spaltenweise gelesen werden sollen. Auch Textteile, die zum Zwecke der Hervorhebung oder zur Dekoration außerhalb des Textes liegen oder Texte innerhalb einer Grafik können für Verwirrung sorgen. Wenn Sie einen Screenreader benutzen müssen, um mit dem PC arbeiten zu können, haben Sie sicher mit solchen Problemen schon Bekanntschaft gemacht. Zwar scannen Screenreader keine Bücher, sondern den Inhalt des Bildschirmspeichers, aber der ist für sie auch so was wie ein Buch - mit sieben Siegeln.
© 2003 by Falk Webel, Graz
Erstellt am Do, 02.10.03, 17:30:19 Uhr.
URL: http://anderssehen.at/lesen/scanner.shtml