Δημοσιεύτηκε: 08 Αύγ 2019, 21:55
από advocate
Σήμερα μετέτρεψα ένα μονοτονικό κείμενο με OCR σε pdf κειμένου με την εντολή
Κώδικας: Επιλογή όλων
ocrmypdf -l ell+eng --tesseract-timeout 600 text_to_convert.pdf text_converted-ocr.pdf

και μου εμφάνισε και πολυτονικούς χαρακτήρες, δηλαδή με ψιλή και οξεία και με βαρεία

Αυτό σημαίνει ότι οι developers έχουν ενσωματώσει στο ell πολυτονικό και μονοτονικό, γι' αυτό και δεν το εύρηκα αυτοτελώς.
Τούτο είναι καλό και κακό, δηλ. εξυπηρετεί με την ίδια εντολή μονοτονικά και πολυτονικά κείμενα αλλά ερμηνεύει εσφαλμένα αμιγώς μονοτονικά κείμενα ως πολυτονικά.