Ubuntu-gr Forum

Σήμερα μετέτρεψα ένα μονοτονικό κείμενο με OCR σε pdf κειμένου με την εντολή

Κώδικας: Επιλογή όλων: ocrmypdf -l ell+eng --tesseract-timeout 600 text_to_convert.pdf text_converted-ocr.pdf

και μου εμφάνισε και πολυτονικούς χαρακτήρες, δηλαδή ἄ με ψιλή και οξεία και ὶ με βαρεία

Αυτό σημαίνει ότι οι developers έχουν ενσωματώσει στο ell πολυτονικό και μονοτονικό, γι' αυτό και δεν το εύρηκα αυτοτελώς.
Τούτο είναι καλό και κακό, δηλ. εξυπηρετεί με την ίδια εντολή μονοτονικά και πολυτονικά κείμενα αλλά ερμηνεύει εσφαλμένα αμιγώς μονοτονικά κείμενα ως πολυτονικά.

Ubuntu-gr Forum

Tesseract - πολυτονικό