Δημοσιεύτηκε: 22 Ιουν 2008, 03:55
Για το θέμα των γραμματοσειρών: κάθε διανομή έχει κατάλληλες γραμματοσειρές για ελληνικά. Όταν ένα κείμενο με ελληνικά δεν εμφανίζεται σωστά, τότε αυτό έχει να κάνει με εσφαλμένη κωδικοποίηση του κειμένου.
Τι είναι αυτή η κωδικοποίηση; Πριν από αρκετά χρόνια, τα κείμενα αποθηκεύονταν σε 1 byte ανά χαρακτήρα. Έτσι είχαμε κωδικοποιήσεις όπως iso-8859-7 και windows-1253 (σχεδόν ίδια). Δυστυχώς, σε Windows XP, το κείμενο που είναι στα ελληνικά σώζεται τις πιο πολλές φορές στην κωδικοποίηση windows-1253. Τίτλοι τραγουδιών είναι συχνά στην κωδικοποίηση αυτή, καθώς και οι υπότιτλοι. Το σύγχρονο λογισμικό χρησιμοποιεί την κωδικοποίηση UTF-8 που είναι κωδικοποίηση μεταβλητού μήκους (από 1 byte μέχρι 4). Για τα ελληνικά (μονοτονικό) χρειάζονται 2 byte. Ο τελικός χρήστης δεν βλέπει τα byte διότι το σύστημα κάνει μια σωστή δουλειά με το να εμφανίζει χαρακτήρες.
Το Linux, όταν λάβει κείμενο που δεν είναι σωστό UTF-8, τότε το θεωρεί ότι είναι iso-8859-1. Έτσι, το κείμενο φαίνεται να μοιάζει με εκτεταμένους λατινικούς χαρακτήρες, με ένα σωρό παράξενους τόνους και περισπωμένες. Αρκετοί τα μπερδεύουν αυτά με «κινέζικα» (ρε γμτ, είναι ξεφτίλα να λέμε κινέζικα, είναι λατινικοί χαρακτήρες του iso-8859-1).
Οπότε, αυτό που χρειάζεται να κάνουμε είναι να ρυθμίζουμε κατάλληλα τέτοια παρωχημένα κείμενα που δεν είναι σε κωδικοποίηση utf-8 πριν εισέλθουν στο σύστημά μας.
Δηλαδή, το όλο ζήτημα δεν έχει να κάνει με γραμματοσειρές.
Τι είναι αυτή η κωδικοποίηση; Πριν από αρκετά χρόνια, τα κείμενα αποθηκεύονταν σε 1 byte ανά χαρακτήρα. Έτσι είχαμε κωδικοποιήσεις όπως iso-8859-7 και windows-1253 (σχεδόν ίδια). Δυστυχώς, σε Windows XP, το κείμενο που είναι στα ελληνικά σώζεται τις πιο πολλές φορές στην κωδικοποίηση windows-1253. Τίτλοι τραγουδιών είναι συχνά στην κωδικοποίηση αυτή, καθώς και οι υπότιτλοι. Το σύγχρονο λογισμικό χρησιμοποιεί την κωδικοποίηση UTF-8 που είναι κωδικοποίηση μεταβλητού μήκους (από 1 byte μέχρι 4). Για τα ελληνικά (μονοτονικό) χρειάζονται 2 byte. Ο τελικός χρήστης δεν βλέπει τα byte διότι το σύστημα κάνει μια σωστή δουλειά με το να εμφανίζει χαρακτήρες.
Το Linux, όταν λάβει κείμενο που δεν είναι σωστό UTF-8, τότε το θεωρεί ότι είναι iso-8859-1. Έτσι, το κείμενο φαίνεται να μοιάζει με εκτεταμένους λατινικούς χαρακτήρες, με ένα σωρό παράξενους τόνους και περισπωμένες. Αρκετοί τα μπερδεύουν αυτά με «κινέζικα» (ρε γμτ, είναι ξεφτίλα να λέμε κινέζικα, είναι λατινικοί χαρακτήρες του iso-8859-1).
Οπότε, αυτό που χρειάζεται να κάνουμε είναι να ρυθμίζουμε κατάλληλα τέτοια παρωχημένα κείμενα που δεν είναι σε κωδικοποίηση utf-8 πριν εισέλθουν στο σύστημά μας.
Δηλαδή, το όλο ζήτημα δεν έχει να κάνει με γραμματοσειρές.