Benutzer:DelphiN/OCR: Unterschied zwischen den Versionen

← Zum vorherigen Versionsunterschied

Benutzer:DelphiN/OCR (Quelltext anzeigen)

Version vom 18. Januar 2026, 15:19 Uhr

1.377 Bytes hinzugefügt , Gestern um 15:19

K

Oberflächenadministratoren, SMW-Administratoren, SMW-Kuratoren, SMW-Editoren, Oversighter, Administratoren, Widget-Bearbeiter

1.656

Bearbeitungen

@@ Zeile 1: / Zeile 1: @@
 Ich sammle hier meine Erkenntnisse zur automatischen Schrifterkennung (OCR). ''(Diese Sammlung ist völlig unvollständig und sollte nur mit vorsicht genutzt werden!)''
+== Links ==
+* https://ocrmypdf.readthedocs.io/en/latest/cookbook.html#redo-existing-ocr
+* https://ub-mannheim.github.io/Tesseract_Dokumentation/Tesseract_Doku_Linux.html
+* https://github.com/tsmdt/docs4training-ocr/blob/main/Training-mit-Tesseract.md
+* https://opensource.archium.org/index.php/OCR-Workflow
+* https://www.vermessungs-bibliothek.de/buch-pdfs-mit-fraktur-ocr/
 == Tools ==
@@ Zeile 29: / Zeile 37: @@
    sudo wget https://github.com/tesseract-ocr/tessdata/raw/refs/heads/main/deu_frak.traineddata
    sudo wget https://github.com/tesseract-ocr/tessdata/raw/refs/heads/main/deu_latf.traineddata
+  sudo wget https://ub-backup.bib.uni-mannheim.de/\~stweil/ocrd-train/data/Fraktur_5000000/Fraktur_5000000_0.466.traineddata
+  sudo wget https://ub-backup.bib.uni-mannheim.de/~stweil/ocrd-train/data/Fraktur_5000000/tessdata_best/Fraktur_50000000.334_450937.traineddata
    tesseract --list-langs
+==== Tests ====
+Um eine Sprache zu finden die mit der deutschen Frakturschrift klar kommt habe ich folgenden Aufruf verwendet, der einen txt output erzeugt, den man gut vergleichen kann:
+  tesseract -l deu+deu_frak Scan_007.tif Scan_007.deu+deu_frak
+Getestet hab ich folgende Sprachen und Kombinationen:
+* deu+deu_frak
+* deu+deu_latf
+* deu_frak
+* deu_frak+deu
+* deu_frak+Fraktur
+* deu_frak+Fraktur+deu
+* deu+Fraktur
+* deu+Fraktur_5000000_0.466
+* deu+Fraktur_50000000.334_450937
+* Fraktur1+deu
+Die Ergebnisse waren leider ernüchterd. Beste Ergebnisse hatte ich mit '''deu_frak''', doch auch hier wurde alle "s" als "f" erkannt.
 === [https://github.com/ocrmypdf/OCRmyPDF OCRmyPDF] ===
@@ Zeile 49: / Zeile 79: @@
 Die Ergebnisse vom Project PERO OCR sind ziemlich beeindruckend. Leider ist beim Mehr-Spalten Layout recht viel Handarbeit nötig. Für Dokumente hilfreich, für ganze Bücher scheinbar nicht ideal!
+=== tools.pdf24.org ===
+https://tools.pdf24.org/en/ocr-pdf#s=1768668637502
+Ergebnis schlecht.