Μέγεθος pdf-Επαύξηση μετά από επεξεργασία με tesseract & gs

...office, φωτογραφία, CAD, spss, latex, κλπ

Συντονιστής: adem1

Μέγεθος pdf-Επαύξηση μετά από επεξεργασία με tesseract & gs

Δημοσίευσηαπό advocate » 07 Νοέμ 2020, 12:32

Γεια σας,
Αντιμετωπίζω το εξής θέμα με την επεξεργασία ορισμένων pdf αρχείων - βιβλίων τα οποία έχουν περαστεί με ocr από τον uploader.
Π.χ. στην έκδοση Λυσία του Loeb, που το κατεβάζω από το https://archive.org/details/L244LysiasC ... 7/mode/2up (νομίζω ότι πρέπει να γραφτεί κάποιος στο σάιτ για να δει το βιβλίο) το αρχείο έχει μέγεθος 24.1 ΜΒ, και έχει περαστεί με ocr στα αγγλικά αλλά όχι και στα (αρχαία) ελληνικά, δηλαδή τα ελληνικά φαίνονται ως ασυνάρτητοι αγγλικοί χαρακτήρες. Η σελίδα μας πληροφορεί ότι το ocr περάστηκε με ABBYY FineReader 9.0.

Αφού κατεβάσω το αρχείο το περνάω ξανά από ocrmypdf (στηρίζεται στο tesseract) για να βλέπει και τα ελληνικά αλλά μου ανεβάζει το μέγεθος στα 67 ΜΒ.
Κώδικας: Επιλογή όλων
ocrmypdf -l eng+Greek -f lysias-lamb-loeb-03.pdf lysias-lamb-loeb-04.pdf

Στη συνέχεια, μειώνω το μέγεθος με το GhostScript:
Κώδικας: Επιλογή όλων
gs -dNOPAUSE -dBATCH -sDEVICE=pdfwrite -dCompatibilityLevel=1.4 -dPDFSETTINGS=/ebook -sOutputFile=lysias-lamb-loeb-05.pdf lysias-lamb-loeb-04.pdf

αλλά στην ποιότητα ebook (150 dpi) μου το βγάζει χάλια και κατεβάζει το μέγεθος στα 38 ΜΒ. Ναι μεν δεν χάνονται οι χαρακτήρες αλλά δεν φαίνονται καλά, π.χ. αφαιρούνται οι τελίτσες πάνω από το i --> ı, το e φαίνεται ως c, τα δύο nn φαίνονται ως m κλπ. Ιδίως η ποιότητα της εκτύπωσης είναι πολύ κακή μετά την επεξεργασία ενώ αν τυπώσω από το αρχικό pdf που κατέβασα η εκτύπωση είναι μια χαρά. Αν αντί για ebook δώσω ποιότητα printer μου το ανεβάζει επίσης στα 67 ΜΒ.

Υπάρχει κάποια λύση για να ρίξω το μέγεθος του επεξεργασμένου pdf στο αρχικό μέγεθος του ανεπεξέργαστου (στο παράδειγμά μας από 67 σε 24 ΜΒ ή εκεί γύρω) χωρίς να χαθεί η ποιότητα του εγγράφου?
Γνώσεις⇛Linux:Χαμηλό┃Προγραμματισμός:Όχι┃Αγγλικά:Καλά
laptop:Ubuntu 14.04.02 acer aspire Ε17
Προδιαγραφές⇛Intel® Celeron(R) CPU N2940 @ 1.83GHz × 4 │RAM 4.0GB DDR3│δε βρίσκω πληροφορίες GML│Wireless rtl8723be | Audio: Analog stereo duplex│Οθόνη: 1600x900
advocate
babeTUX
babeTUX
 
Δημοσιεύσεις: 141
Εγγραφή: 27 Φεβ 2010, 19:13
Εκτύπωση

Re: Μέγεθος pdf-Επαύξηση μετά από επεξεργασία με tesseract &

Δημοσίευσηαπό Th P » 08 Νοέμ 2020, 09:40

Καλημέρα
Μήπως είναι πρόβλημα γραμματοσειράς;
Εγώ διαβάζω το αρχικό αρχείο χωρίς πρόβλημα:
Σταθερή είναι η διανομή που προσπαθείς ανεπιτυχώς να κρασσάρεις
Linux: Low┃Προγραμματισμός: No┃Αγγλικά: Good
Είμαι αναλφάβητος, ανιστόρητος και άξιος της μοίρας μου
Άβαταρ μέλους
Th P
powerTUX
powerTUX
 
Δημοσιεύσεις: 1912
Εγγραφή: 02 Μάιος 2009, 10:46
Τοποθεσία: Θεσσαλονίκη
IRC: ThP1
Εκτύπωση

Re: Μέγεθος pdf-Επαύξηση μετά από επεξεργασία με tesseract &

Δημοσίευσηαπό advocate » 12 Δεκ 2020, 14:45

Th P έγραψε:γραμματοσειράς


Το αρχείο διαβάζεται. Το πρόβλημα είναι όταν πας να κάνει αντιγραφή του κειμένου από το αρχαίο κείμενο για να τη μεταφέρεις κάπου αλλού ή κυρίως για να κάνεις εύρεση λέξης, δεν την αναγνωρίζει. Για τη μελέτη τέτοιων κειμένων είναι ουσιώδης η λειτουργία της εύρεσης.
π.χ. τη λέξη "πατρίδος" μου τη βγάζει "TTOLTpiSoS". Αυτό συμβαίνει διότι έχουν δώσει μόνο αγγλική γλώσσα κατά την εκτέλεση του ocr και δεν αναγνωρίζει τα ελληνικά. Όταν δίνω την εντολή να ξαναπεράσει το βιβλίο με ocr και στα ελληνικά και στα αγγλικά, μου το ανεβάζει από τα 25 στην ποιότητα ebook (νομίζω είναι 150 dpi), ενώ στο πρωτότυπο οι χαρακτήρες είναι πιο ευκρινείς.

Βέβαια, το πρόβλημα είναι μόνο χώρου. Δηλαδή με το tesseract γίνεται η μετατροπή του κειμένου και στα ελληνικά αλλά όταν μετατρέπεται το αρχικό αρχείο από τα 25 στα 250 ΜΒ, αυτό είναι ασύμφορο αποθηκευτικά: Όταν στο gs δίνω εντολή για ποιότητα printer, μου δεκαπλασιάζει το μέγεθος.
Γνώσεις⇛Linux:Χαμηλό┃Προγραμματισμός:Όχι┃Αγγλικά:Καλά
laptop:Ubuntu 14.04.02 acer aspire Ε17
Προδιαγραφές⇛Intel® Celeron(R) CPU N2940 @ 1.83GHz × 4 │RAM 4.0GB DDR3│δε βρίσκω πληροφορίες GML│Wireless rtl8723be | Audio: Analog stereo duplex│Οθόνη: 1600x900
advocate
babeTUX
babeTUX
 
Δημοσιεύσεις: 141
Εγγραφή: 27 Φεβ 2010, 19:13
Εκτύπωση

Re: Μέγεθος pdf-Επαύξηση μετά από επεξεργασία με tesseract &

Δημοσίευσηαπό advocate » 30 Ιαν 2021, 19:34

advocate έγραψε:
Th P έγραψε:γραμματοσειράς


Το αρχείο διαβάζεται. Το πρόβλημα είναι όταν πας να κάνει αντιγραφή του κειμένου από το αρχαίο κείμενο για να τη μεταφέρεις κάπου αλλού ή κυρίως για να κάνεις εύρεση λέξης, δεν την αναγνωρίζει. Για τη μελέτη τέτοιων κειμένων είναι ουσιώδης η λειτουργία της εύρεσης.
π.χ. τη λέξη "πατρίδος" μου τη βγάζει "TTOLTpiSoS". Αυτό συμβαίνει διότι έχουν δώσει μόνο αγγλική γλώσσα κατά την εκτέλεση του ocr και δεν αναγνωρίζει τα ελληνικά. Όταν δίνω την εντολή να ξαναπεράσει το βιβλίο με ocr και στα ελληνικά και στα αγγλικά, μου το ανεβάζει από τα 25 στην ποιότητα ebook (νομίζω είναι 150 dpi), ενώ στο πρωτότυπο οι χαρακτήρες είναι πιο ευκρινείς.

Βέβαια, το πρόβλημα είναι μόνο χώρου. Δηλαδή με το tesseract γίνεται η μετατροπή του κειμένου και στα ελληνικά αλλά όταν μετατρέπεται το αρχικό αρχείο από τα 25 στα 250 ΜΒ, αυτό είναι ασύμφορο αποθηκευτικά: Όταν στο gs δίνω εντολή για ποιότητα printer, μου δεκαπλασιάζει το μέγεθος.


To πρόβλημα εντοπίζεται στο ότι απουσιάζει o JBIG2 encoder. Υποτίθεται ότι ο JBIG2 encoder λειτουργεί στο ocrmypdf αν δώσουμε την παράμετρο
Κώδικας: Επιλογή όλων
--jbig2-lossy

Έτσι συνολικά η εντολή διαμορφώνεται:
Κώδικας: Επιλογή όλων
ocrmypdf -l eng+Greek -f --jbig2-lossy input.pdf output.pdf

αλλά δεν κάνει καμιά δουλειά. Το pdf ξανακωδικοποιείται με 15 φορές μεγαλύτερο μέγεθος, όπως και χωρίς αυτή την παράμετρο.
Τα αποτελέσματα είναι τα εξής:
Κώδικας: Επιλογή όλων
JPEGs: 0image [00:00, ?image/s]
JBIG2: 0item [00:00, ?item/s]
   INFO - Optimize ratio: 1.00 savings: -0.0%
   INFO - Image optimization did not improve the file - discarded
   INFO - Output file is a PDF/A-2B (as expected)
WARNING - The output file size is 20.31× larger than the input file.
Possible reasons for this include:
The argument --force-ocr was issued, causing transcoding.
The optional dependency 'jbig2' was not found, so some image optimizations could not be attempted

Χωρίς το --force-ocr (ή -f) δεν προχωρά καθόλου, διότι το βιβλίο το κατέβασα ήδη με αγγλικό ocr όχι όμως αναγνώριση ελληνικού πολυτονικού.
Προσπάθησα να εγκαταστήσω τον JBIG2 encoder από το https://ocrmypdf.readthedocs.io/en/latest/jbig2.html αλλά χωρίς επιτυχία. Το τελευταίο βήμα
Κώδικας: Επιλογή όλων
[sudo] make install

δεν κατάλαβα τι θέλει να πει. Έδωσα την εντολή σε όλες τις δυνατές εκδοχές της
Κώδικας: Επιλογή όλων
sudo make install

Κώδικας: Επιλογή όλων
make install

Κώδικας: Επιλογή όλων
make
κλπ. αλλά δεν δούλεψε τίποτα
στην
Κώδικας: Επιλογή όλων
install
μου ζητούσε να προσθέσω μία ακόμη παράμετρο, την οποία αγνοούσα.
Επομένως θα χρειαστώ βοήθεια για την ολοκλήρωση των εντολών της πιο πάνω ιστοσελίδας, μήπως και δω φως.

Παρεμπιπτόντως, αφού απέτυχα στην εγκατάσταση με βάση τις ανωτέρω οδηγίες, προχώρησα με το το synaptic, το οποίο έδειξε ότι την έκανε (χωρίς αποτέλεσμα) και στη συνέχεια με οδηγίες από https:/ /www.devmanuals.net/install/ubuntu/ubuntu-12-04-lts-precise-pangolin/install-libjpedal-jbig2-java.html το αποτέλεσμα της οποίας ήταν να μου αναφέρει ότι το jbig2 είναι ήδη εγκατεστημένο.
Γνώσεις⇛Linux:Χαμηλό┃Προγραμματισμός:Όχι┃Αγγλικά:Καλά
laptop:Ubuntu 14.04.02 acer aspire Ε17
Προδιαγραφές⇛Intel® Celeron(R) CPU N2940 @ 1.83GHz × 4 │RAM 4.0GB DDR3│δε βρίσκω πληροφορίες GML│Wireless rtl8723be | Audio: Analog stereo duplex│Οθόνη: 1600x900
advocate
babeTUX
babeTUX
 
Δημοσιεύσεις: 141
Εγγραφή: 27 Φεβ 2010, 19:13
Εκτύπωση


  • ΣΧΕΤΙΚΑ ΘΕΜΑΤΑ
    ΑΠΑΝΤΗΣΕΙΣ
    ΠΡΟΒΟΛΕΣ
    ΣΥΓΓΡΑΦΕΑΣ

Επιστροφή στο Εφαρμογές για Γραφείο / Γραφιστική / Επιστήμες

cron