Benutzer:DelphiN/OCR: Unterschied zwischen den Versionen

K
 
(4 dazwischenliegende Versionen desselben Benutzers werden nicht angezeigt)
Zeile 1: Zeile 1:
Ich sammle hier meine Erkenntnisse zur automatischen Schrifterkennung (OCR). ''(Diese Sammlung ist völlig unvollständig und sollte nur mit vorsicht genutzt werden!)''
Ich sammle hier meine Erkenntnisse zur automatischen Schrifterkennung (OCR). ''(Diese Sammlung ist völlig unvollständig und sollte nur mit vorsicht genutzt werden!)''
== Links ==
* https://ocrmypdf.readthedocs.io/en/latest/cookbook.html#redo-existing-ocr
* https://ub-mannheim.github.io/Tesseract_Dokumentation/Tesseract_Doku_Linux.html
* https://github.com/tsmdt/docs4training-ocr/blob/main/Training-mit-Tesseract.md
* https://opensource.archium.org/index.php/OCR-Workflow
* https://www.vermessungs-bibliothek.de/buch-pdfs-mit-fraktur-ocr/


== Tools ==
== Tools ==
Zeile 29: Zeile 37:
   sudo wget https://github.com/tesseract-ocr/tessdata/raw/refs/heads/main/deu_frak.traineddata
   sudo wget https://github.com/tesseract-ocr/tessdata/raw/refs/heads/main/deu_frak.traineddata
   sudo wget https://github.com/tesseract-ocr/tessdata/raw/refs/heads/main/deu_latf.traineddata
   sudo wget https://github.com/tesseract-ocr/tessdata/raw/refs/heads/main/deu_latf.traineddata
  sudo wget https://ub-backup.bib.uni-mannheim.de/\~stweil/ocrd-train/data/Fraktur_5000000/Fraktur_5000000_0.466.traineddata
  sudo wget https://ub-backup.bib.uni-mannheim.de/~stweil/ocrd-train/data/Fraktur_5000000/tessdata_best/Fraktur_50000000.334_450937.traineddata
   tesseract --list-langs
   tesseract --list-langs
==== Tests ====
Um eine Sprache zu finden die mit der deutschen Frakturschrift klar kommt habe ich folgenden Aufruf verwendet, der einen txt output erzeugt, den man gut vergleichen kann:
  tesseract -l deu+deu_frak Scan_007.tif Scan_007.deu+deu_frak
Getestet hab ich folgende Sprachen und Kombinationen:
* deu+deu_frak
* deu+deu_latf
* deu_frak
* deu_frak+deu
* deu_frak+Fraktur
* deu_frak+Fraktur+deu
* deu+Fraktur
* deu+Fraktur_5000000_0.466
* deu+Fraktur_50000000.334_450937
* Fraktur1+deu
Die Ergebnisse waren leider ernüchterd. Beste Ergebnisse hatte ich mit '''deu_frak''', doch auch hier wurde alle "s" als "f" erkannt.


=== [https://github.com/ocrmypdf/OCRmyPDF OCRmyPDF] ===
=== [https://github.com/ocrmypdf/OCRmyPDF OCRmyPDF] ===
Zeile 49: Zeile 79:


Die Ergebnisse vom Project PERO OCR sind ziemlich beeindruckend. Leider ist beim Mehr-Spalten Layout recht viel Handarbeit nötig. Für Dokumente hilfreich, für ganze Bücher scheinbar nicht ideal!
Die Ergebnisse vom Project PERO OCR sind ziemlich beeindruckend. Leider ist beim Mehr-Spalten Layout recht viel Handarbeit nötig. Für Dokumente hilfreich, für ganze Bücher scheinbar nicht ideal!
=== tools.pdf24.org ===
https://tools.pdf24.org/en/ocr-pdf#s=1768668637502
Ergebnis schlecht.