• Willkommen im Linux Club - dem deutschsprachigen Supportforum für GNU/Linux. Registriere dich kostenlos, um alle Inhalte zu sehen und Fragen zu stellen.

Erfahrungen gesucht im Trainieren von Tesseract

harley

Hacker
Hallo,

hat jemand von Euch Erfahrungen im Trainieren von Tesseract (mittels jTessBox) für eine neue Sprache? Insbesondere interessiert mich gerade, ob ich in der box-Datei fälschlich erkannte Buchstabengruppen in einzelne Buchstaben aufteilen muss, oder ob es besser ist, diesen die richtigen Buchstaben als Gruppe zuzuweisen. Bsp (kyrillisch):
Code:
рос wird falsch als щ erkannt
щ 1985 3628 2115 3695 4

soll ich nun die einzelnen Buchstaben auftrennen als
р 1985 3628 2032 3695 4
о 2033 3645 2075 3695 4
с 2075 3645 2115 3695 4

oder eine Buchstabengruppe
рос 1985 3628 2115 3695 4
zuweisen?

Bisher habe ich alles in Einzelbuchstaben aufgetrennt, aber nach vier bearbeiteten Seiten ist die Erkennungsleistung noch kaum besser geworden.

Michael :-D
 

spoensche

Moderator
Teammitglied
Tesseract kann Deutsch von Hause aus. :)

Evtl. hilft dir https://github.com/tesseract-ocr/tesseract/wiki/TrainingTesseract

Ein paar Infos mehr sind schon hilfreich
 
OP
harley

harley

Hacker
Hallo spoensche,

vielen Dank, die Seite kenne ich schon, bringt mich in meinem Problem aber nur bedingt weiter.

Meine Quelle ist ein Altkirchenslavischer Text ukrainischer Sprache, transliteriert in modernes Kyrillisch. Das moderne Ukrainisch hat schon mal einiges erkannt, aber eben nicht alles bzw. vieles mit Fehlern. Anfangs habe ich die Trainingsdaten nach der von Dir verlinkten Seite von Hand erstellt. Da dies doch etwas mühsam ist, bin ich auf jTessBoxEditor umgestiegen. Trotzdem ist das Training noch sehr zeitaufwendig und ich sehe gerade keinen wirklichen Fortschritt. Es mag sein, daß ich nach den empfohlenen zehn Seiten ein besseres Ergebnis bekomme, aber bin ich da wirklich auf dem richtigen Weg? Deshalb meine Frage, ob hier schon jemand Erfahrungen hat. Vor allem habe ich einige stetig wiederkehrenden Erkennungsfehler (die leider nicht systematisch genug sind, um diese automatisch zu erkennen) welche unterschiedliche Buchstabengruppen zu einzelnen Buchstaben zusammenziehen (ähnlich oben aufgeführtem Beispiel). Inzwischen habe ich mir eine Gruppe falscher Erkennungen aufgebaut, welche ich systematisch abarbeite und in Einzelbuchstaben auftrenne:
Code:
щ, ш, ѡ, н, М, ю, й, ж
Damit habe ich den größten Teil der Fehler aufgedeckt. Der Rest ist relativ unspezifisch.

Michael :-D
 
Oben