Diese Website existiert nur weil wir Werbung mit AdSense ausliefern.
Bitte den AdBlocker daher auf dieser Website ausschalten! Danke.

Erfahrungen gesucht im Trainieren von Tesseract

Alles rund um Büroanwendungen, Bildungsprogramme und Spiele unter Linux

Moderator: Moderatoren

Antworten
Benutzeravatar
harley
Hacker
Hacker
Beiträge: 397
Registriert: 4. Sep 2005, 20:11
Wohnort: Leipzig
Kontaktdaten:

Erfahrungen gesucht im Trainieren von Tesseract

Beitrag von harley » 28. Aug 2017, 13:44

Hallo,

hat jemand von Euch Erfahrungen im Trainieren von Tesseract (mittels jTessBox) für eine neue Sprache? Insbesondere interessiert mich gerade, ob ich in der box-Datei fälschlich erkannte Buchstabengruppen in einzelne Buchstaben aufteilen muss, oder ob es besser ist, diesen die richtigen Buchstaben als Gruppe zuzuweisen. Bsp (kyrillisch):

Code: Alles auswählen

рос wird falsch als щ erkannt
щ 1985 3628 2115 3695 4

soll ich nun die einzelnen Buchstaben auftrennen als
р 1985 3628 2032 3695 4
о 2033 3645 2075 3695 4
с 2075 3645 2115 3695 4

oder eine Buchstabengruppe
рос 1985 3628 2115 3695 4
zuweisen?
Bisher habe ich alles in Einzelbuchstaben aufgetrennt, aber nach vier bearbeiteten Seiten ist die Erkennungsleistung noch kaum besser geworden.

Michael :-D
++ aus der anleitung für die bedienung von electronicgehirnen + 12 c 3 merke: dein computer ist nicht allwissend + n. +++ (Prokop, G. "Wer stiehlt schon Unterschenkel",Berlin (1983), S. 231)

»Denken ist wie Googeln, nur eben viel krasser.«

Werbung:
spoensche
Moderator
Moderator
Beiträge: 7395
Registriert: 30. Okt 2004, 23:53
Wohnort: Siegen

Re: Erfahrungen gesucht im Trainieren von Tesseract

Beitrag von spoensche » 28. Aug 2017, 14:58

Tesseract kann Deutsch von Hause aus. :)

Evtl. hilft dir https://github.com/tesseract-ocr/tesser ... gTesseract

Ein paar Infos mehr sind schon hilfreich

Benutzeravatar
harley
Hacker
Hacker
Beiträge: 397
Registriert: 4. Sep 2005, 20:11
Wohnort: Leipzig
Kontaktdaten:

Re: Erfahrungen gesucht im Trainieren von Tesseract

Beitrag von harley » 28. Aug 2017, 15:23

Hallo spoensche,

vielen Dank, die Seite kenne ich schon, bringt mich in meinem Problem aber nur bedingt weiter.

Meine Quelle ist ein Altkirchenslavischer Text ukrainischer Sprache, transliteriert in modernes Kyrillisch. Das moderne Ukrainisch hat schon mal einiges erkannt, aber eben nicht alles bzw. vieles mit Fehlern. Anfangs habe ich die Trainingsdaten nach der von Dir verlinkten Seite von Hand erstellt. Da dies doch etwas mühsam ist, bin ich auf jTessBoxEditor umgestiegen. Trotzdem ist das Training noch sehr zeitaufwendig und ich sehe gerade keinen wirklichen Fortschritt. Es mag sein, daß ich nach den empfohlenen zehn Seiten ein besseres Ergebnis bekomme, aber bin ich da wirklich auf dem richtigen Weg? Deshalb meine Frage, ob hier schon jemand Erfahrungen hat. Vor allem habe ich einige stetig wiederkehrenden Erkennungsfehler (die leider nicht systematisch genug sind, um diese automatisch zu erkennen) welche unterschiedliche Buchstabengruppen zu einzelnen Buchstaben zusammenziehen (ähnlich oben aufgeführtem Beispiel). Inzwischen habe ich mir eine Gruppe falscher Erkennungen aufgebaut, welche ich systematisch abarbeite und in Einzelbuchstaben auftrenne:

Code: Alles auswählen

щ, ш, ѡ, н, М, ю, й, ж
Damit habe ich den größten Teil der Fehler aufgedeckt. Der Rest ist relativ unspezifisch.

Michael :-D
++ aus der anleitung für die bedienung von electronicgehirnen + 12 c 3 merke: dein computer ist nicht allwissend + n. +++ (Prokop, G. "Wer stiehlt schon Unterschenkel",Berlin (1983), S. 231)

»Denken ist wie Googeln, nur eben viel krasser.«

Antworten