Μέγεθος pdf-Επαύξηση μετά από επεξεργασία με tesseract & gs

...office, φωτογραφία, CAD, spss, latex, κλπ

Συντονιστής: adem1

Μέγεθος pdf-Επαύξηση μετά από επεξεργασία με tesseract & gs

Δημοσίευσηαπό advocate » 07 Νοέμ 2020, 12:32

Γεια σας,
Αντιμετωπίζω το εξής θέμα με την επεξεργασία ορισμένων pdf αρχείων - βιβλίων τα οποία έχουν περαστεί με ocr από τον uploader.
Π.χ. στην έκδοση Λυσία του Loeb, που το κατεβάζω από το https://archive.org/details/L244LysiasC ... 7/mode/2up (νομίζω ότι πρέπει να γραφτεί κάποιος στο σάιτ για να δει το βιβλίο) το αρχείο έχει μέγεθος 24.1 ΜΒ, και έχει περαστεί με ocr στα αγγλικά αλλά όχι και στα (αρχαία) ελληνικά, δηλαδή τα ελληνικά φαίνονται ως ασυνάρτητοι αγγλικοί χαρακτήρες. Η σελίδα μας πληροφορεί ότι το ocr περάστηκε με ABBYY FineReader 9.0.

Αφού κατεβάσω το αρχείο το περνάω ξανά από ocrmypdf (στηρίζεται στο tesseract) για να βλέπει και τα ελληνικά αλλά μου ανεβάζει το μέγεθος στα 67 ΜΒ.
Κώδικας: Επιλογή όλων
ocrmypdf -l eng+Greek -f lysias-lamb-loeb-03.pdf lysias-lamb-loeb-04.pdf

Στη συνέχεια, μειώνω το μέγεθος με το GhostScript:
Κώδικας: Επιλογή όλων
gs -dNOPAUSE -dBATCH -sDEVICE=pdfwrite -dCompatibilityLevel=1.4 -dPDFSETTINGS=/ebook -sOutputFile=lysias-lamb-loeb-05.pdf lysias-lamb-loeb-04.pdf

αλλά στην ποιότητα ebook (150 dpi) μου το βγάζει χάλια και κατεβάζει το μέγεθος στα 38 ΜΒ. Ναι μεν δεν χάνονται οι χαρακτήρες αλλά δεν φαίνονται καλά, π.χ. αφαιρούνται οι τελίτσες πάνω από το i --> ı, το e φαίνεται ως c, τα δύο nn φαίνονται ως m κλπ. Ιδίως η ποιότητα της εκτύπωσης είναι πολύ κακή μετά την επεξεργασία ενώ αν τυπώσω από το αρχικό pdf που κατέβασα η εκτύπωση είναι μια χαρά. Αν αντί για ebook δώσω ποιότητα printer μου το ανεβάζει επίσης στα 67 ΜΒ.

Υπάρχει κάποια λύση για να ρίξω το μέγεθος του επεξεργασμένου pdf στο αρχικό μέγεθος του ανεπεξέργαστου (στο παράδειγμά μας από 67 σε 24 ΜΒ ή εκεί γύρω) χωρίς να χαθεί η ποιότητα του εγγράφου?
Γνώσεις⇛Linux:Χαμηλό┃Προγραμματισμός:Όχι┃Αγγλικά:Καλά
laptop:Ubuntu 14.04.02 acer aspire Ε17
Προδιαγραφές⇛Intel® Celeron(R) CPU N2940 @ 1.83GHz × 4 │RAM 4.0GB DDR3│δε βρίσκω πληροφορίες GML│Wireless rtl8723be | Audio: Analog stereo duplex│Οθόνη: 1600x900
advocate
babeTUX
babeTUX
 
Δημοσιεύσεις: 134
Εγγραφή: 27 Φεβ 2010, 19:13
Εκτύπωση

Re: Μέγεθος pdf-Επαύξηση μετά από επεξεργασία με tesseract &

Δημοσίευσηαπό Th P » 08 Νοέμ 2020, 09:40

Καλημέρα
Μήπως είναι πρόβλημα γραμματοσειράς;
Εγώ διαβάζω το αρχικό αρχείο χωρίς πρόβλημα:
Σταθερή είναι η διανομή που προσπαθείς ανεπιτυχώς να κρασσάρεις
Linux: Low┃Προγραμματισμός: No┃Αγγλικά: Good
Είμαι αναλφάβητος, ανιστόρητος και άξιος της μοίρας μου
Άβαταρ μέλους
Th P
powerTUX
powerTUX
 
Δημοσιεύσεις: 1902
Εγγραφή: 02 Μάιος 2009, 10:46
Τοποθεσία: Θεσσαλονίκη
IRC: ThP1
Εκτύπωση


  • ΣΧΕΤΙΚΑ ΘΕΜΑΤΑ
    ΑΠΑΝΤΗΣΕΙΣ
    ΠΡΟΒΟΛΕΣ
    ΣΥΓΓΡΑΦΕΑΣ

Επιστροφή στο Εφαρμογές για Γραφείο / Γραφιστική / Επιστήμες