Δημοσιεύτηκε: 12 Δεκ 2020, 14:45
από advocate
Th P έγραψε:γραμματοσειράς


Το αρχείο διαβάζεται. Το πρόβλημα είναι όταν πας να κάνει αντιγραφή του κειμένου από το αρχαίο κείμενο για να τη μεταφέρεις κάπου αλλού ή κυρίως για να κάνεις εύρεση λέξης, δεν την αναγνωρίζει. Για τη μελέτη τέτοιων κειμένων είναι ουσιώδης η λειτουργία της εύρεσης.
π.χ. τη λέξη "πατρίδος" μου τη βγάζει "TTOLTpiSoS". Αυτό συμβαίνει διότι έχουν δώσει μόνο αγγλική γλώσσα κατά την εκτέλεση του ocr και δεν αναγνωρίζει τα ελληνικά. Όταν δίνω την εντολή να ξαναπεράσει το βιβλίο με ocr και στα ελληνικά και στα αγγλικά, μου το ανεβάζει από τα 25 στην ποιότητα ebook (νομίζω είναι 150 dpi), ενώ στο πρωτότυπο οι χαρακτήρες είναι πιο ευκρινείς.

Βέβαια, το πρόβλημα είναι μόνο χώρου. Δηλαδή με το tesseract γίνεται η μετατροπή του κειμένου και στα ελληνικά αλλά όταν μετατρέπεται το αρχικό αρχείο από τα 25 στα 250 ΜΒ, αυτό είναι ασύμφορο αποθηκευτικά: Όταν στο gs δίνω εντολή για ποιότητα printer, μου δεκαπλασιάζει το μέγεθος.