Xsane mit ABBYY

klabog · 27 Nov. 2011

Hallo,

Vielleicht kann mir jemand einen Tip geben, wie man xsane zur Zusammenarbeit mit abbyy veranlassen kann. Spielwurm hat sich ja im thread http://www.linux-club.de/viewtopic.php?f=60&t=108536 offensichtlich viel Mühe gegeben ein Script zu schreiben um tesseract zu integrieren. [edit]Sorry - da der Moderator den Beitrag vom o.g. Thread getrennt hat ist der Bezug hier etwas fehl am Platz[/edit]
Ich habe festgestellt, dass die eindeutig leistungsfähigste OCR für Linux im Augenblick Abbyy ist. Ist kostenpflichtig, aber ich denke für die gebotene Leistung ist die Lizenz ihren Preis wert.
Jetzt zum Thema:
Xsane bietet die Möglichkeit pdf-Files auszugeben - Abbyy, bearbeitet z.B. pdf-files und gibt sie in diversen Formaten, u.a. auch als durchsuchbare pdf-files aus (gescanntes Bild überlagert den erkannten Text).
Es müsste doch möglich sein, abbyy als OCR-engine in xsane einzubinden wie das auch mit tesseract funktioniert?
Oder vielleicht abbyy in der Form eines virtuellen Druckers oder über eine pipe einzubinden?

Ich würde mich freuen einen Tipp zu bekommen und bin sicher, dass das ein interessantes Projekt wäre. Leider bin ich kein Crack und kann das mit meinen rudimentären Kenntnissen nicht umsetzen.

Übrigens abby bietet eine Testversion (http://www.ocr4linux.com/) mit vollem Leistungsumfang. Die einzige Beschränkung besteht darin, dass nur 100 Seiten bearbeitet werden können. Das müsste aber reichen die Funktionen zu testen und 149.-€ für 12000 Seiten im Jahr (wird jährlich zurückgestellt) für die Lizenz ist meiner Ansicht nach ein fairer Preis.

Klaus

PS: Ich hänge hier noch die Ausgabe meiner Test-Lizenz an

Code:

ABBYY FineReader Engine 9.0 License Viewer Utility
-------------------------------------------------------------------------
Professional Runtime License
Serial number: nnnnnnnnnnnn

MSG_AW_PERFOMANCE_UNLIMITED
100 pages pure count  available to process
Current: 46 pages

No working time limitation.

CPU Core limit: MSG_LM_PROCESS_UNLIMITED

Text types available to recognize:
    Normal
    Typewriter
    Matrix
    OCR-A
    OCR-B
    MICR (E13B)
    CMC-7

Export to:
    RTF
    HTML
    XLS
    DBF
    Text
    PPT
    XML
    PDF
    PDF/A

Modules available:
    1D Barcode
    2D Barcode (PDF 417)
    DA for Full-Text Indexing
    Open PDF
    Barcode Autolocation
    Automatic Document Analysis
    Language Database
    User Patterns
    Fast Mode
    Extended character info
    Balanced Mode
    MSG_AW_AZTEC
    MSG_AW_DATAMATRIX
    MSG_AW_QRCODE

MSG_AW_NO_VISUAL_COMPONENTS

Recognition languages available:
    All.

ModEd: Abgetrennt von http://www.linux-club.de/viewtopic.php?f=60&t=108536.

Spielwurm · 29 Nov. 2011

Sorry, aber ich werde mich damit nicht beschäftigen. Meine Bemühungen werde ich weiterhin in Opensource-Software verschwenden. Außerdem: wenn ich aus einem PDF-Dokument was rauskopieren möchte, dann greife ich zu Okular und hole mir das damit.

Hartmut

Xsane mit ABBYY

klabog

Newbie

Spielwurm

Advanced Hacker