Dokumente für PDF mit Adobe Akrobat (Acrobat) scannen

ID: 181523
Dokumente für PDF mit Adobe Akrobat (Acrobat) scannen 
15.Jan.09 21:33
0

Martin Renz (D)
Ratsmitglied
Beiträge: 694
Anzahl Danke: 13
Martin Renz

Dokumente für PDF mit Adobe Acrobat scannen

In diesem Beitrag geht es darum, Beiträge aus Zeitschriften zu scannen und als PDF-Dokument zu speichern. Dabei sollen folgende Vorgaben erfüllt werden - siehe auch Mehrseiten-PDFs:

  • möglichst kleine Dateigröße
  • möglichst geringer Aufwand
  • kein Einsatz von Bildbearbeitungsprogrammen
  • OCR-Erkennung, damit das Dokument für den Nutzer und Suchmaschinen durchsuchbar wird
  • Beitrag wie mit Kopierschutz versehen

Es geht hier nicht darum, historische Dokumente, wie zum Beispiel die aufwendig bearbeiteten Funkschau-Hefte, in möglichst originalgetreuem Layout zu präsentieren, sondern darum, technische Beiträge zu Geräten ohne allzu viel Aufwand zu erstellen. Auf eine zeitaufwendige Korrektur der OCR-Erkennung soll verzichtet werden. Die Originalität des Textes soll erhalten bleiben.

Ausser einem Scanner mit dem beigefügten Interface wird nur (der leider teure) Adobe Acrobat in der Vollversion benötigt, der kostenlose Acrobat Reader geht nicht! Ich habe hier die Version 8 des Acrobat verwendet.

Das Ergebnis kann hier angeschaut und heruntergeladen werden. Die Zeitdauer zum Erstellen der 10 Seiten betrug etwa eine knappe Stunde.

Scannen

Im Acrobat wählen wir "PDF-Erzeugen/vom Scanner":

PDF Erzeugen

Es erscheint folgender Dialog:

Akrobat Scan-Dialog

Alles sollte wie gezeigt eingestellt sein, der Scanner ist natürlich das am Rechner installierte Modell.

Bei Texterkennung ("Text Recognition and Metadata") muss unter Optionen folgendes eingestellt werden:

OCR-Dialog

So werden nach der OCR-Erkennung aus den 1200 dpi 300 dpi und damit eine deutlich kleinere Datei erzeugt. Warum nicht gleich mit 300 dpi scannen? Dadurch würde die OCR-Erkennung sehr schlechte Ergebnisse bringen.

Ein Klick auf "Scan" fordert in einem Dialogfeld nun zum Speichern des späteren Dokumentes auf. Hier kann Speicherort und Name wie üblich vergeben werden.

Scandialog der Scansoftware

Anschliessend erscheint der Einstellungsdialog der Scannsoftware. Diese variiert, je nachdem welchen Scanner man besitzt. Vorteilhaft sind hier Scanner, die einen "Expertenmodus" zur Einstellung vorweisen können. Zumindest sollten die Einstellungen nicht vollautomatisch geschehen, sondern manuell beeinflusst werden können. Ich benutze gerne einen betagten Scanner von Agfa, der bei ebay gelegentlich für einen symbolischen Betrag erworben werden kann.

 Scan Wise Dialog

Die Dialoge sehen natürlich jeweils sehr unterschiedlich aus, die nachfolgenden Bilder sind daher nur Beispielhaft. Folgende Einstellungen sollten nun vorgenommen werden:

  • Scanmodus nicht farbig oder in Graustufen, sondern im Bitmapmodus (nur Schwarz/Weiss)
  • Auflösung 1200 dpi (Versuchen Sie dies nicht im Farb- oder Graustufenmodus, das gibt dann enorm große Dateien)
  • Wenn möglich sollte das Bild zur Vermeidung von Moiree-Mustern entrastert werden. Im Agfa Dialog reicht es, die Vorlagenart "Illustrierte" auszuwählen. Dies kann im Einzelfall aber auch anders gelöst sein. (Moiree entfernen)

Hier nun die Dialoge der Agfa Scansoftware mit den Einstellungen:

Agfa Dialog2

Der Bitmapmodus wird hier mit "Strich" bezeichnet:

Agfa Dialog 3

Jetzt noch die Auflösung auf 1200 dpi einstellen:

Agfa Dialog 4

Im Vorschaubild des Scanners werden nun noch die Ränder des Scannbereiches so justiert, dass das ganze Dokument erfasst wird und die Ränder so schmal wie möglich bleiben. Manche Scanner (auch der Agfa) erstellen zunächst mehrere Scannbereiche auf einmal, die sich auch überlappen können. Dies wollen wir aber nicht und löschen alle Bereiche bis auf einen, den wir gemäß den oberen Angaben einstellen.

Nun wird mit Klick auf "Scan" gescannt.

scan more

solange wir weitere Seiten hinzufügen möchten, stellen wir obigen Dialog ein, nach der letzten Seite auf die untere Auswahl "Scan beenden". Vorher sollten wir die nächste Seite der Vorlage einlegen und immer darauf achten, dass die Seiten schön gerade am Rand ausgerichtet sind.

Farb- und Graustufenbilder

Solange wir nur Text und Schwarzweisszeichnungen auf der Vorlage haben, kommen wir mit obigen Einstellungen aus. Sobald aber Bilder mit Grau- oder Farbabstufungen auf der Vorlage sind, ist das Ergebnis nicht sehr befriedigend. Hier müssen wir nacharbeiten. Um die Dateigröße klein zu halten, scannen wir nun nur die Bereiche der Graustufen-/Farbbilder mit anderen Einstellungen erneut ein. Wenn die Scannsoftware es erlaubt, mehrere Bereiche mit unterschiedlichen Einstellungen in einem Rutsch einzuscannen, ist dies der schnellste Weg. Jeder Bereich wird nachher im Dokument zunächst eine eigene Seite sein. Wir fügen dies dann wieder auf einer Seite zusammen.

Falls die Software nur jeweils einen Bereich pro Vorlage scannen kann, ist das auch nicht schlimm. Nach dem Scann der ganzen Seite im Bitmapmodus wir dann eben gleich anschliessend jedes Graustufenbild der Seite gescannt. Da die Bilder dann jeweils im Anschluss an die Seite im Dokument erscheinen, sind sie leicht zuzuordnen.

Zum Scannen der Bilder werden folgende Einstellungen vorgenommen:

  • Einstellung zur Moiree-Entfernung wie gehabt ("Illustrierte")
  • Modus jetzt auf "Graustufenbild"
  • Auflösung auf 300 dpi

Agfa Dialog 5



gescannt wird hier der Bereich des Bildes, ohne etwas von der Schrift zu verdecken:

Agfa Dialog 6

Nachdem die letzte Seite gescannt wurde, erscheint das Acrobatprogramm und bearbeitet das Dokument:

 

Acrobat:

 

 

 Acrobat1

Zwischen den Seiten sind nun noch die Graustufenbilder als eigene Seiten vorhanden. Um diese in die Seiten zu integrieren gehen wir folgendermassen vor (im Menü "Werkzeuge" (Tools):

Touch Object Tool

Mit dem "Touch Up Object Tool"wird auf die Seite mit dem Graustufenscan geklickt. Um die Seite erscheint ein Rahmen. Mit der rechten Maustaste wird "Kopieren" gewählt. Nun klicken wir auf einen Bereich neben den Seiten, um den Rahmen wieder zum Verschwinden zu bringen. Nun ein Klick mit der rechten Maustaste auf die Seite, in die wir das Bild integrieren wollen und "Einfügen" wählen. Das Bild erscheint nun irgendwo auf der Seite und kann nun mit der Maus und den Richtungspfeiltasten der Tastatur an die richtige Stelle auf der Seite geschoben werden. Nun muss nur noch die Seite mit dem Graustufenbild gelöscht werden, die wir nun nicht mehr brauchen. (Rechtsklick auf die Seite und "Seite löschen" auswählen) Fertig!

So verfahren wir mit allen Bildern, die noch integriert werden müssen.

Vor dem Speichern können wir noch unter "Datei/Eigenschaften" Titel, Author und Inhaltsangaben machen, sowie Copyrighthinweise eintragen. Hier lässt sich auch ein Dokumentschutz vergeben.

Ergebnis

Das Ergebnis ist ein ansehnliches Dokument mit 1,5 MB Größe für 10 Seiten. Mit dem Menüpunkt "Dokument / Dateigrösse reduzieren" kann je nach Einstellung und Anzahl der Graustufenbilder nochmals reduziert werden. Beim Beispieldokument auf etwa 1 MB. Allerdings ist die Qualität der Graustufenbilder dann schon deutlich schlechter. Ich habe daher darauf verzichtet. Das kann im Einzelfall unterschiedlich bewertet werden.

Die Qualität der OCR-Erkennung kann am abschliessenden Textauszug beurteilt werden. Es sind durchaus einige Fehler vorhanden. Diese sind aber nicht sichtbar und stören so die Originalität des Dokumentes nicht. Falsch erkannte Wörter werden bei der Suche im Dokument nicht gefunden, das ist alles. Auf eine zeitaufwendige Korrektur kann daher im Allgemeinen verzichtet werden.

Textbeispiel:

Das am Stereo-Decoder (Kontakt 10 a) eingespeiste Basissignal wird über den Trennkondensator C 151 einem Spannungsteiler
R 151, R 153 zugeführt. Dieser
SpannungsteHersetz't den Eingangspegel
des Decoders um ca. 25 % herab und soll den Lautstärkesprung, der bei der Umschaltung des Gerätes von Monoauf
Stereo-Empfang durch die zusätzliche
Stereoinformation entsteht,ausgleichen.
Das im Pegel reduzierle Basissignal
wird über einen weiteren Trennkondensator
C 152 dem Gitter des ers,ten Trio,densystems der ECC 81 I zugeführt.

Für diesen Post bedanken, weil hilfreich und/oder fachlich fundiert.

 2
Kopierschutz und Hinweis auf den Bearbeiter/Site 
15.Jan.09 22:16

Ernst Erb (CH)
Ratsmitglied
Beiträge: 5746
Anzahl Danke: 15
Ernst Erb

Hier hat Martin Renz die Bearbeitung für ein Mehrseiten-PDF im Detail vorgestellt. Das Dokument kann man in der Anlage im Link ganz oben einsehen.

Das Dokument wurde vor dem Herauskopieren von Textteilen geschützt - und erlaubt doch die Suche nach Begriffen - und das Indexieren durch Suchmaschinen auf Grund des Textinhaltes. Das ist vorbildlich gemacht.

Leider ist aber kein Hinweis - möglichst auf allen Seiten über die Urheberschaft vorhanden.
Im Fall hier würde ich vorschlagen, dass Martin wenn möglich noch z.B. unten auf den Seiten beifügt:
Erstellt durch Martin Renz für www.radiomuseum.org

Gut, nicht alle wissen wohl, dass im Internet gerne einfach so "geklaut" wird. Man denkt sich nichts dabei und gibt eine fremde Arbeit als die seine an - seien es nur Textauszüge (hier wirksam erschwert) oder ganze Dokumente. Leider musste ich vor einigen Jahren auch bei uns einen solchen Beitrag entdecken, der ausgesprochen als eigene Arbeit geschrieben war - total abkopiert aus einer anderen Site - das Mitglied ist nicht mehr unter uns ...

Es gilt aber auch den umgekehrten Fall zu vermeiden: Wer auf die Anlage klickt kann nicht feststellen, dass das eine Arbeit von uns und für uns ist. Man kann also annehmen, sie sei irgendwo "geholt" worden - nicht unbedingt in diesem Fall - aber generell. So ist es eindeutig, wenn wir den Ursprung festhalten.

Wäre das aus einer Publikation, dann gehört - z.B. wie bei der Funkschau - auf dem ersten Blatt entweder der Hinweis auf die Publikation (wenn im "Public Domain") oder auch das Copyright darauf.

Im Forum zu gross zum Laden? Dann kann jemand mit Berechtigung dazu unter "Texte" laden wo wir momentan bis zu 6 MB-Dokumente zulassen. Hier ein Beispiel - allerdings nicht sehr gross. Man kann dann das Dokument an beliebigen Orten verlinken indem man es aufruft und die Adresse (URL) übernimmt und diese als Link einsetzt.

Für diesen Post bedanken, weil hilfreich und/oder fachlich fundiert.

 3
Copyright 
15.Jan.09 22:48

Martin Renz (D)
Ratsmitglied
Beiträge: 694
Anzahl Danke: 24
Martin Renz

Ein Copyright Hinweis war auch schon in der ersten Version vorhanden, er ist allerdings nicht mit allen Readern sichtbar zu machen. Er steckt unter "Eigenschaften" oder "Properties" unter "erweiterte Eigenschaften" und weist auf Ersteller und das RM hin.

Ein sichtbarer Hinweis lässt sich leicht mit dem "Schreibmaschinen" oder "Typewriter" Tool von Acrobat einfügen, wie nun geschehen.

Für diesen Post bedanken, weil hilfreich und/oder fachlich fundiert.

 4
Danke, ist nun auch beim Modell verlinkt 
15.Jan.09 23:23

Ernst Erb (CH)
Ratsmitglied
Beiträge: 5746
Anzahl Danke: 13
Ernst Erb

Lieber Martin
Danke. Ich habe nun gerade auch noch den letzten Schritt getan und Dein Werk direkt auf dem Modell verlinkt. Der läuft natürlich ins Leere, falls man den Beitrag nochmals ladet und er dabei eine andere Adresse erhält. Darum lieber warten, bis man sicher ist mit diesem letzten Schritt.

Für diesen Post bedanken, weil hilfreich und/oder fachlich fundiert.