joe iwannou έγραψε:
α β γ δ ε ζ η θ ι κ λ μ ν ξ ο π ρ σ ς τ υ φ χ ψ ω ( ..... UTF-8 ..... )
á â ã ä å æ ç è é ê ë ì í î ï ð ñ ó ò ô õ ö ÷ ø ù (..... windows-1253.....)
Το UTF-8 είναι μια κωδικοποίηση χαρακτήρων μεταβλητού μεγέθους.
Για να αναπαραστήσει αγγλικά, απαιτεί ένα byte και είναι συμβατό με ASCII. Για να απεικονίσει ελληνικά, τυχαίνει απαιτεί δύο byte.
Αυτό που περιγράφεις ως «windows-1253» και συγκεκριμένα το «á â ã ä å æ» είναι απλά το αποτέλεσμα της αυτόματης μετατροπής προς UTF-8 που κάνει το λειτουργικό σύστημα (εδώ Ubuntu), ΌΤΑΝ συναντήσει συμβολοσειρές κειμένου που ΔΕΝ είναι UTF-8. Διότι από προεπιλογή το Ubuntu (το GNOME και η βιβλιοθήκη glib/gtk+) θεωρούν ότι αν συναντήσουν μια ακατανόητη κωδικοποίηση χαρακτήρων (που δεν είναι έγκυρη UTF-8), τότε αυτή είναι windows-1251 και τη μετατρέπουν αυτόματα σε UTF-8.
Κάτι που θα ήταν εξαιρετικό είναι να αλλάξουμε σε ένα μικρό κομμάτι του κώδικα του glib/gtk+ ώστε αντί να μετατρέπει αυτόματα από windows-1251 σε UTF-8, να μετατρέπει από windows-1253 σε UTF-8. Και μετά θα δούλευαν όλα καλά. Θα μπορούσε να μαντεύει το σύστημα την παρωχημένη κωδικοποίηση windows-1253 από το LANG=el_GR.UTF-8, κτλ.