Δημοσιεύτηκε: 08 Αύγ 2019, 21:55
Σήμερα μετέτρεψα ένα μονοτονικό κείμενο με OCR σε pdf κειμένου με την εντολή
και μου εμφάνισε και πολυτονικούς χαρακτήρες, δηλαδή ἄ με ψιλή και οξεία και ὶ με βαρεία
Αυτό σημαίνει ότι οι developers έχουν ενσωματώσει στο ell πολυτονικό και μονοτονικό, γι' αυτό και δεν το εύρηκα αυτοτελώς.
Τούτο είναι καλό και κακό, δηλ. εξυπηρετεί με την ίδια εντολή μονοτονικά και πολυτονικά κείμενα αλλά ερμηνεύει εσφαλμένα αμιγώς μονοτονικά κείμενα ως πολυτονικά.
- Κώδικας: Επιλογή όλων
ocrmypdf -l ell+eng --tesseract-timeout 600 text_to_convert.pdf text_converted-ocr.pdf
και μου εμφάνισε και πολυτονικούς χαρακτήρες, δηλαδή ἄ με ψιλή και οξεία και ὶ με βαρεία
Αυτό σημαίνει ότι οι developers έχουν ενσωματώσει στο ell πολυτονικό και μονοτονικό, γι' αυτό και δεν το εύρηκα αυτοτελώς.
Τούτο είναι καλό και κακό, δηλ. εξυπηρετεί με την ίδια εντολή μονοτονικά και πολυτονικά κείμενα αλλά ερμηνεύει εσφαλμένα αμιγώς μονοτονικά κείμενα ως πολυτονικά.