Δημοσιεύτηκε: 07 Νοέμ 2020, 12:32
από advocate
Γεια σας,
Αντιμετωπίζω το εξής θέμα με την επεξεργασία ορισμένων pdf αρχείων - βιβλίων τα οποία έχουν περαστεί με ocr από τον uploader.
Π.χ. στην έκδοση Λυσία του Loeb, που το κατεβάζω από το https://archive.org/details/L244LysiasC ... 7/mode/2up (νομίζω ότι πρέπει να γραφτεί κάποιος στο σάιτ για να δει το βιβλίο) το αρχείο έχει μέγεθος 24.1 ΜΒ, και έχει περαστεί με ocr στα αγγλικά αλλά όχι και στα (αρχαία) ελληνικά, δηλαδή τα ελληνικά φαίνονται ως ασυνάρτητοι αγγλικοί χαρακτήρες. Η σελίδα μας πληροφορεί ότι το ocr περάστηκε με ABBYY FineReader 9.0.

Αφού κατεβάσω το αρχείο το περνάω ξανά από ocrmypdf (στηρίζεται στο tesseract) για να βλέπει και τα ελληνικά αλλά μου ανεβάζει το μέγεθος στα 67 ΜΒ.
Κώδικας: Επιλογή όλων
ocrmypdf -l eng+Greek -f lysias-lamb-loeb-03.pdf lysias-lamb-loeb-04.pdf

Στη συνέχεια, μειώνω το μέγεθος με το GhostScript:
Κώδικας: Επιλογή όλων
gs -dNOPAUSE -dBATCH -sDEVICE=pdfwrite -dCompatibilityLevel=1.4 -dPDFSETTINGS=/ebook -sOutputFile=lysias-lamb-loeb-05.pdf lysias-lamb-loeb-04.pdf

αλλά στην ποιότητα ebook (150 dpi) μου το βγάζει χάλια και κατεβάζει το μέγεθος στα 38 ΜΒ. Ναι μεν δεν χάνονται οι χαρακτήρες αλλά δεν φαίνονται καλά, π.χ. αφαιρούνται οι τελίτσες πάνω από το i --> ı, το e φαίνεται ως c, τα δύο nn φαίνονται ως m κλπ. Ιδίως η ποιότητα της εκτύπωσης είναι πολύ κακή μετά την επεξεργασία ενώ αν τυπώσω από το αρχικό pdf που κατέβασα η εκτύπωση είναι μια χαρά. Αν αντί για ebook δώσω ποιότητα printer μου το ανεβάζει επίσης στα 67 ΜΒ.

Υπάρχει κάποια λύση για να ρίξω το μέγεθος του επεξεργασμένου pdf στο αρχικό μέγεθος του ανεπεξέργαστου (στο παράδειγμά μας από 67 σε 24 ΜΒ ή εκεί γύρω) χωρίς να χαθεί η ποιότητα του εγγράφου?