Diese Website existiert nur weil wir Werbung mit AdSense ausliefern.
Bitte den AdBlocker daher auf dieser Website ausschalten! Danke.

Okular scheitert bei Suche

Alles rund um Büroanwendungen, Bildungsprogramme und Spiele unter Linux

Moderator: Moderatoren

Antworten
Benutzeravatar
gm2601
Advanced Hacker
Advanced Hacker
Beiträge: 915
Registriert: 4. Dez 2005, 11:53

Okular scheitert bei Suche

Beitrag von gm2601 » 25. Apr 2017, 14:21

Hallo Gurus,

was mache ich falsch, bzw. wie kann ich Okular dazu bringen in einer "unwilligen" Datei erfolgreich zu suchen?

Code: Alles auswählen

pdfinfo Jan.pdf 
Title:          Untitled
Author:         Unknown
Creator:        Unknown
Producer:       XEP 4.19 build 20110414
CreationDate:   Wed Jan  6 10:56:57 2016
ModDate:        Wed Jan  6 10:56:57 2016
Tagged:         no
UserProperties: no
Suspects:       no
Form:           none
JavaScript:     no
Pages:          3
Encrypted:      no
Page size:      595.276 x 841.89 pts (A4)
Page rot:       0
File size:      25348 bytes
Optimized:      no
PDF version:    1.4
Hat das etwas mit dem Producer "XEP" zu tun, denn ich habe genügend PDFs bei denen die Suche funktioniert.?
Viele Grüße
gm2601
:wink: Die Mehrheit der Menschheit versteht von Linux noch weniger als ich :wink:

Werbung:
Benutzeravatar
gm2601
Advanced Hacker
Advanced Hacker
Beiträge: 915
Registriert: 4. Dez 2005, 11:53

Re: Okular scheitert bei Suche

Beitrag von gm2601 » 29. Apr 2017, 11:45

Keine Idee?

Darf das nicht gehen, wenn die Datei so vorgegeben ist, oder gehört diese Frage zu den "Pfuis", nach denen man nicht öffentlich fragt?
Viele Grüße
gm2601
:wink: Die Mehrheit der Menschheit versteht von Linux noch weniger als ich :wink:

Gräfin Klara
Hacker
Hacker
Beiträge: 330
Registriert: 23. Jun 2008, 20:51

Re: Okular scheitert bei Suche

Beitrag von Gräfin Klara » 29. Apr 2017, 14:44

gm2601 hat geschrieben:
29. Apr 2017, 11:45
Keine Idee?

Darf das nicht gehen, wenn die Datei so vorgegeben ist, oder gehört diese Frage zu den "Pfuis", nach denen man nicht öffentlich fragt?
Ich glaube eher, dass das niemand wirklich beantworten kann.
PDF ist in den Jahren zu einem Mysterium herangewachsen und man deshalb nicht sagen kann, ob Tags von Adobe
1. vom erzeugenden Programm nicht oder falsch angewandt wurden
2. von Okular falsch interpretiert werden oder
3. deine Datei gar nur ein jpg ist und gar keinen Text enthält.

Schwer zu sagen ...
Du kannst das nur ergründen, in dem du unter Windows mit dem original Adobe reader deine Datei öffnest und nach Text suchst.

Gruß
Gräfin Klara

Benutzeravatar
gm2601
Advanced Hacker
Advanced Hacker
Beiträge: 915
Registriert: 4. Dez 2005, 11:53

Re: Okular scheitert bei Suche

Beitrag von gm2601 » 1. Mai 2017, 13:43

Hallo Gräfin,

es ist eine mit pdftk zusammengefasste Datei, die alle meine Kontoauszüge für 2016 enthält, das Phänomen tritt aber auch bei jeder Einzeldatei auf. Die Frage ob Text oder nicht, ist gar nicht so einfach. Markiere ich zB das Wort "SDD Lastschr", das regelmäßig auftaucht, dann wird mir Text wie auch Bild zum Kopieren in die Zwischenablage angeboten. Der Text, danach in eine Konsole, kwrite, oowriter, browser-plugin kopiert, zeigt sich dann als "paa iastschr". :???:
WIN habe ich schon lange nicht mehr und 42.2 scheint mit acroread keine glückliche Ehe mehr zu führen.

Danke für etwas Licht in der Angelegenheit, andere Hinweise weiterhin willkommen.
Klar, ich habe die gesuchten Begriffe mittlerweile durch intensives "Beäugen" gefunden, aber "state of the art" ist das nicht.
Viele Grüße
gm2601
:wink: Die Mehrheit der Menschheit versteht von Linux noch weniger als ich :wink:

Gräfin Klara
Hacker
Hacker
Beiträge: 330
Registriert: 23. Jun 2008, 20:51

Re: Okular scheitert bei Suche

Beitrag von Gräfin Klara » 1. Mai 2017, 15:58

gm2601 hat geschrieben:
1. Mai 2017, 13:43

... das Phänomen tritt aber auch bei jeder Einzeldatei auf
... zeigt sich dann als "paa iastschr"
Aha, nun wissen wir, dass das pdftk richtig zusammengefügt hat UND ein Text vorhanden ist.
Dass Okular Text und Bild zum Kopieren anbietet, ist positiv.

Ich würde folgendes probieren:
Der beste pdf reader unter Linux ist im Firefox eingebaut.
Öffne deine pdf mit firefox und versuche den Text mit Ctrl/F zu finden.
Wenn das funktioniert, dann können wir das Problem lösen

Gruß
Gräfin Klara

Benutzeravatar
gm2601
Advanced Hacker
Advanced Hacker
Beiträge: 915
Registriert: 4. Dez 2005, 11:53

Re: Okular scheitert bei Suche

Beitrag von gm2601 » 3. Mai 2017, 11:00

Hallo Gräfin,

DANN können wir das Problem vermutlich nicht lösen, denn Firefox (52.1.0-57.6.1), den meinte ich unten mit "browser-plugin", zeigt(e) sich so "unfähig" wie die anderen Programme auch.
Viele Grüße
gm2601
:wink: Die Mehrheit der Menschheit versteht von Linux noch weniger als ich :wink:

Benutzeravatar
harley
Hacker
Hacker
Beiträge: 397
Registriert: 4. Sep 2005, 20:11
Wohnort: Leipzig
Kontaktdaten:

Re: Okular scheitert bei Suche

Beitrag von harley » 26. Jun 2017, 16:49

gm2601 hat geschrieben:
1. Mai 2017, 13:43
Markiere ich zB das Wort "SDD Lastschr", das regelmäßig auftaucht, dann wird mir Text wie auch Bild zum Kopieren in die Zwischenablage angeboten. Der Text, danach in eine Konsole, kwrite, oowriter, browser-plugin kopiert, zeigt sich dann als "paa iastschr". :???:
Das klingt für mich nach einem Bild-PDF mit unsichtbarem Text als Overlay. Der Text scheint dabei nicht mit dem Bild übereinzustimmen – sei es, dass dieser nicht 1:1 übereinander liegt, sei es, dass der Text vollkommen vom Bildinhalt abweicht. Wenn Du im PDF alles markierst [Strg+A] solltest Du abschätzen können, ob der markierte Text mit dem Bild im Format harmonisiert. Wenn Du einen größeren Abschnitt (am besten am Anfang der Seite als Text kopierst und Dir diesen Inhalt anschaust (kwrite, LibreOffice etc.) solltest Du überprüfen können, ob das PDF sinnvollen Text enthält.

Wenn Du soweit bist, können wir weiter prüfen.
Michael :-D

P.S: Hast Du das PDF per OCR-Erkennung mit Text angereichert? (»Lastschr« vs. »iastschr«)
++ aus der anleitung für die bedienung von electronicgehirnen + 12 c 3 merke: dein computer ist nicht allwissend + n. +++ (Prokop, G. "Wer stiehlt schon Unterschenkel",Berlin (1983), S. 231)

»Denken ist wie Googeln, nur eben viel krasser.«

Benutzeravatar
gm2601
Advanced Hacker
Advanced Hacker
Beiträge: 915
Registriert: 4. Dez 2005, 11:53

Re: Okular scheitert bei Suche

Beitrag von gm2601 » 30. Jun 2017, 10:18

Hallo Michael,
harley hat geschrieben: Das klingt für mich nach einem Bild-PDF mit unsichtbarem Text als Overlay. Der Text scheint dabei nicht mit dem Bild übereinzustimmen – sei es, dass dieser nicht 1:1 übereinander liegt, sei es, dass der Text vollkommen vom Bildinhalt abweicht. Wenn ....
[...]

Wenn Du soweit bist, können wir weiter prüfen.
Michael :-D
P.S: Hast Du das PDF per OCR-Erkennung mit Text angereichert? (»Lastschr« vs. »iastschr«)
Dunkel bleibt mir das meiste, das Du geschrieben hast, denn so tief habe ich mich mit PDF noch nie befasst, OCR habe ich in Wiki nachgelesen, bin nun aber nicht viel schlauer.

Deine Vermutung mit dem Bild scheint zuzutreffen, denn kopiere ich es als Bild in alles was mir bei LibreOffice sinnvoll erscheint, dann kann ich den Kontoauszug zwar lesen, aber nicht darin suchen. Alles was ich als Text kopiere erscheint in LibreOffice als kryptischer Schrott.

Zu Deinem P.S kann ich nur nein vermuten, denn ich wüsste nicht wie ich das mit Okular machen sollte, wüsste auch nicht, wozu das bei einem Kontoauszug gut sein könnte.
Viele Grüße
gm2601
:wink: Die Mehrheit der Menschheit versteht von Linux noch weniger als ich :wink:

Benutzeravatar
harley
Hacker
Hacker
Beiträge: 397
Registriert: 4. Sep 2005, 20:11
Wohnort: Leipzig
Kontaktdaten:

Re: Okular scheitert bei Suche

Beitrag von harley » 30. Jun 2017, 12:16

Hallo,

ich muss meine Aussage auch etwas zurücknehmen: Die Option ausgewähltes als Bild zu kopieren bietet Okular auch bei einfachen Text-PDF. Da ich momentan viel mit OCR und PDF-Layern zu tun habe, war ich hier vielleicht etwas vorbelastet.

ich will trotzdem versuchen, Dir meine Worte darzustellen. Ein PDF kann man (wie auch eine HTML-Seit, Zeitungslayout etc.) in Schichten aufbauen, wobei unterschiedliche Schichten sichtbar/unsichtbar übereinander liegen können. Hinzu kommt, daß die Inhalte der Schichten wiederum als Daten an einer anderen Stelle im PDF gespeichert sein können und nur als Verweis auf diese Daten angelegt sind. Schönes Beispiel: Ein PDF wurde mit einem sichtbaren Wasserzeichen versehen in dem z.B. Name und Datum des Benutzers angegeben sind. Wenn man nun nur diese angezeigte Schicht entfernt, sind die Daten trotzdem – wenn nun auch unsichtbar – noch an anderer Stelle gespeichert, da diese innerhalb des PDFs verlinkt waren. Ich hoffe dieser Exkurs war jetzt nicht zu verwirrend oder ablenkend.

Jetzt wieder zu Deinem Problem: Ich habe mit der XEP-Rendering-Engine noch nicht gearbeitet. Kann also nichts zum ausgegebenen Ergebnis sagen. Falls Du dem Geheimnis weiter auf den Grund gehen möchtest, kannst Du Dir aber mal mit inkscape (einem Programm zur Bearbeitung von Vektordaten) die Struktur anschauen. Vielleicht findest Du damit etwas.

Michael :-D
++ aus der anleitung für die bedienung von electronicgehirnen + 12 c 3 merke: dein computer ist nicht allwissend + n. +++ (Prokop, G. "Wer stiehlt schon Unterschenkel",Berlin (1983), S. 231)

»Denken ist wie Googeln, nur eben viel krasser.«

Benutzeravatar
gm2601
Advanced Hacker
Advanced Hacker
Beiträge: 915
Registriert: 4. Dez 2005, 11:53

Re: Okular scheitert bei Suche

Beitrag von gm2601 » 3. Jul 2017, 09:38

harley hat geschrieben: [....]
Ein PDF kann man ... in Schichten aufbauen, wobei unterschiedliche Schichten sichtbar/unsichtbar übereinander liegen können. .... Ich hoffe dieser Exkurs war jetzt nicht zu verwirrend oder ablenkend.
Danke für Deine Ausführungen, sie dienen der Veranschaulichung, aber so weit will ich nicht eintauchen, das überlasse ich gerne jüngeren Generationen. Den Begriff "Schichten" habe ich schon bei Gimp mitbekommen, aber nie Honig daraus saugen können.
[...]XEP-Rendering-Engine .... auf den Grund gehen möchtest, kannst Du Dir aber mal mit inkscape (einem Programm zur Bearbeitung von Vektordaten) die Struktur anschauen.
Nein danke, "inkscape" ist sicher mächtig, aber mit meiner nicht vorhandenen Basis zu Vektordaten ist das bestimmt vergebliche Liebesmüh. Ich habe mich damit abgefunden, dass ich in XEP eben nicht suchen kann.

Dennoch danke für den Tipp, vielleicht hilft er anderen Lesern weiter.
Viele Grüße
gm2601
:wink: Die Mehrheit der Menschheit versteht von Linux noch weniger als ich :wink:

Antworten