Benutzer:DelphiN/OCR: Unterschied zwischen den Versionen

K
Zeile 34: Zeile 34:
   sudo wget https://github.com/tesseract-ocr/tessdata/raw/refs/heads/main/deu_frak.traineddata
   sudo wget https://github.com/tesseract-ocr/tessdata/raw/refs/heads/main/deu_frak.traineddata
   sudo wget https://github.com/tesseract-ocr/tessdata/raw/refs/heads/main/deu_latf.traineddata
   sudo wget https://github.com/tesseract-ocr/tessdata/raw/refs/heads/main/deu_latf.traineddata
  sudo wget https://ub-backup.bib.uni-mannheim.de/\~stweil/ocrd-train/data/Fraktur_5000000/Fraktur_5000000_0.466.traineddata
  sudo wget https://ub-backup.bib.uni-mannheim.de/~stweil/ocrd-train/data/Fraktur_5000000/tessdata_best/Fraktur_50000000.334_450937.traineddata
   tesseract --list-langs
   tesseract --list-langs
==== Tests ===
Um eine Sprache zu finden die mit der deutschen Frakturschrift klar kommt habe ich folgenden Aufruf verwendet, der einen txt output erzeugt, den man gut vergleichen kann:
  tesseract -l deu+deu_frak Scan_007.tif Scan_007.deu+deu_frak
Getestet hab ich folgende Sprachen und Kombinationen:
* deu+deu_frak
* deu+deu_latf
* deu_frak
* deu_frak+deu
* deu_frak+Fraktur
* deu_frak+Fraktur+deu
* deu+Fraktur
* deu+Fraktur_5000000_0.466
* deu+Fraktur_50000000.334_450937
* Fraktur1+deu
Die Ergebnisse waren leider ernüchterd. Beste Ergebnisse hatte ich mit '''deu_frak''', doch auch hier wurde alle "s" als "f" erkannt.


=== [https://github.com/ocrmypdf/OCRmyPDF OCRmyPDF] ===
=== [https://github.com/ocrmypdf/OCRmyPDF OCRmyPDF] ===