Δημοσιεύτηκε: 10 Φεβ 2010, 19:30
από cyberpython
DarkLord έγραψε:Ευχαριστώ πολύ για τις απαντήσεις σας, έκανα αυτό που μου πρότεινε ο xqtr και δούλεψε μια χαρά

xqtr έγραψε:Κατεβασε την σελιδα που επεξεργαζεσε με τον browser σου... και ανοιξε την με το gedit. Δοκιμασε διαφορες κωδικοσελιδες, μεχρι να βρεις αυτη που χρησιμοποιει το αρχειο .html. Η οποια κατα 99% θα ειναι η windows-1253/7


αλλά στη python τα πράγματα είναι διαφορετικά
θα ήθελα να δοκιμάσετε ή να με διορθώσετε στο παρακάτω παράδειγμα κώδικα σε python και να μου πείτε πως
σας β γάζει την Ελληνική γλώσσα
Κώδικας: Επιλογή όλων

# -*- coding: windows-1253/7 -*-

import urllib
sock = urllib.urlopen("http://www.in.gr")
htmlSource = sock.read()
sock.close()
print (htmlSource)


Αν δεις τον κώδικα της σελίδας, αναφέρει οτι η κωδικοποίηση είναι ISO-8859-7, οπότε:
Κώδικας: Επιλογή όλων
import urllib
sock = urllib.urlopen("http://www.in.gr")
htmlSource = sock.read()
sock.close()
print (htmlSource.decode('iso-8859-7'))