Δημοσιεύτηκε: 30 Ιαν 2021, 19:34
από advocate
advocate έγραψε:
Th P έγραψε:γραμματοσειράς


Το αρχείο διαβάζεται. Το πρόβλημα είναι όταν πας να κάνει αντιγραφή του κειμένου από το αρχαίο κείμενο για να τη μεταφέρεις κάπου αλλού ή κυρίως για να κάνεις εύρεση λέξης, δεν την αναγνωρίζει. Για τη μελέτη τέτοιων κειμένων είναι ουσιώδης η λειτουργία της εύρεσης.
π.χ. τη λέξη "πατρίδος" μου τη βγάζει "TTOLTpiSoS". Αυτό συμβαίνει διότι έχουν δώσει μόνο αγγλική γλώσσα κατά την εκτέλεση του ocr και δεν αναγνωρίζει τα ελληνικά. Όταν δίνω την εντολή να ξαναπεράσει το βιβλίο με ocr και στα ελληνικά και στα αγγλικά, μου το ανεβάζει από τα 25 στην ποιότητα ebook (νομίζω είναι 150 dpi), ενώ στο πρωτότυπο οι χαρακτήρες είναι πιο ευκρινείς.

Βέβαια, το πρόβλημα είναι μόνο χώρου. Δηλαδή με το tesseract γίνεται η μετατροπή του κειμένου και στα ελληνικά αλλά όταν μετατρέπεται το αρχικό αρχείο από τα 25 στα 250 ΜΒ, αυτό είναι ασύμφορο αποθηκευτικά: Όταν στο gs δίνω εντολή για ποιότητα printer, μου δεκαπλασιάζει το μέγεθος.


To πρόβλημα εντοπίζεται στο ότι απουσιάζει o JBIG2 encoder. Υποτίθεται ότι ο JBIG2 encoder λειτουργεί στο ocrmypdf αν δώσουμε την παράμετρο
Κώδικας: Επιλογή όλων
--jbig2-lossy

Έτσι συνολικά η εντολή διαμορφώνεται:
Κώδικας: Επιλογή όλων
ocrmypdf -l eng+Greek -f --jbig2-lossy input.pdf output.pdf

αλλά δεν κάνει καμιά δουλειά. Το pdf ξανακωδικοποιείται με 15 φορές μεγαλύτερο μέγεθος, όπως και χωρίς αυτή την παράμετρο.
Τα αποτελέσματα είναι τα εξής:
Κώδικας: Επιλογή όλων
JPEGs: 0image [00:00, ?image/s]
JBIG2: 0item [00:00, ?item/s]
   INFO - Optimize ratio: 1.00 savings: -0.0%
   INFO - Image optimization did not improve the file - discarded
   INFO - Output file is a PDF/A-2B (as expected)
WARNING - The output file size is 20.31× larger than the input file.
Possible reasons for this include:
The argument --force-ocr was issued, causing transcoding.
The optional dependency 'jbig2' was not found, so some image optimizations could not be attempted

Χωρίς το --force-ocr (ή -f) δεν προχωρά καθόλου, διότι το βιβλίο το κατέβασα ήδη με αγγλικό ocr όχι όμως αναγνώριση ελληνικού πολυτονικού.
Προσπάθησα να εγκαταστήσω τον JBIG2 encoder από το https://ocrmypdf.readthedocs.io/en/latest/jbig2.html αλλά χωρίς επιτυχία. Το τελευταίο βήμα
Κώδικας: Επιλογή όλων
[sudo] make install

δεν κατάλαβα τι θέλει να πει. Έδωσα την εντολή σε όλες τις δυνατές εκδοχές της
Κώδικας: Επιλογή όλων
sudo make install

Κώδικας: Επιλογή όλων
make install

Κώδικας: Επιλογή όλων
make
κλπ. αλλά δεν δούλεψε τίποτα
στην
Κώδικας: Επιλογή όλων
install
μου ζητούσε να προσθέσω μία ακόμη παράμετρο, την οποία αγνοούσα.
Επομένως θα χρειαστώ βοήθεια για την ολοκλήρωση των εντολών της πιο πάνω ιστοσελίδας, μήπως και δω φως.

Παρεμπιπτόντως, αφού απέτυχα στην εγκατάσταση με βάση τις ανωτέρω οδηγίες, προχώρησα με το το synaptic, το οποίο έδειξε ότι την έκανε (χωρίς αποτέλεσμα) και στη συνέχεια με οδηγίες από https:/ /www.devmanuals.net/install/ubuntu/ubuntu-12-04-lts-precise-pangolin/install-libjpedal-jbig2-java.html το αποτέλεσμα της οποίας ήταν να μου αναφέρει ότι το jbig2 είναι ήδη εγκατεστημένο.