Benutzer:DelphiN/OCR: Unterschied zwischen den Versionen
(Die Seite wurde neu angelegt: „Ich sammle hier meine Erkenntnisse zur automatischen Schrifterkennung (OCR). ''(Diese Sammlung ist völlig unvollständig und sollte nur mit vorsicht genutzt werden!)'' == Tools == === Tesseract === Als erstes müssen wir sicherstellen tesseract ist installiert: sudo apt-get install tesseract-ocr jbig2 Wir müssen noch mindestens die Sprache '''Deutsch''' nachinstallieren: sudo apt search tesseract- lang | grep deu sudo apt-get install tessera…“) |
(kein Unterschied)
|
Version vom 17. Januar 2026, 22:19 Uhr
Ich sammle hier meine Erkenntnisse zur automatischen Schrifterkennung (OCR). (Diese Sammlung ist völlig unvollständig und sollte nur mit vorsicht genutzt werden!)
Tools
Tesseract
Als erstes müssen wir sicherstellen tesseract ist installiert:
sudo apt-get install tesseract-ocr jbig2
Wir müssen noch mindestens die Sprache Deutsch nachinstallieren:
sudo apt search tesseract- lang | grep deu sudo apt-get install tesseract-ocr-deu
Unterstützung für Frakturschrift installieren:
sudo apt search tesseract- script | grep frak sudo apt-get install tesseract-ocr-script-frak
Ich hatte Probleme einzelne Sprachen und Schriften nachzuinstallieren und hab deshalb tesseract-ocr-all installiert:
sudo apt-get install tesseract-ocr-all
Außerdem hab ich noch zusätzliche unterstützdende Daten nachinstalliert:
cd /usr/share/tesseract-ocr/5/tessdata sudo wget https://github.com/tesseract-ocr/tessdata_best/raw/refs/heads/main/script/Fraktur.traineddata sudo wget https://github.com/tesseract-ocr/tessdata/raw/refs/heads/main/deu_frak.traineddata sudo wget https://github.com/tesseract-ocr/tessdata/raw/refs/heads/main/deu_latf.traineddata tesseract --list-langs
OCRmyPDF
Wenn tesseract installiert ist können wir versuchen PDFs zu transkribieren;
ocrmypdf --output-type pdf --redo-ocr -l deu+deu_frak Dokument-images.pdf Dokument-deu_frak.pdf ocrmypdf --redo-ocr -l deu+deu_frak+deu_latf Dokument-images.pdf Dokument-deu_frak.pdf
Die erbebnisse mit ocrmypdf und tesseract waren für Frakturschrift sehr schlecht und quasi unbrauchbar :-(
https://github.com/JaidedAI/EasyOCR (uses www.jaided.ai)
Einfache Tests mit jaided.ai waren sehr schlecht. Nicht zu gebrauchen für deutsche Frakturschrit.