Δημοσιεύτηκε: 10 Φεβ 2010, 19:30
DarkLord έγραψε:Ευχαριστώ πολύ για τις απαντήσεις σας, έκανα αυτό που μου πρότεινε ο xqtr και δούλεψε μια χαρά
xqtr έγραψε:Κατεβασε την σελιδα που επεξεργαζεσε με τον browser σου... και ανοιξε την με το gedit. Δοκιμασε διαφορες κωδικοσελιδες, μεχρι να βρεις αυτη που χρησιμοποιει το αρχειο .html. Η οποια κατα 99% θα ειναι η windows-1253/7
αλλά στη python τα πράγματα είναι διαφορετικά
θα ήθελα να δοκιμάσετε ή να με διορθώσετε στο παρακάτω παράδειγμα κώδικα σε python και να μου πείτε πως
σας β γάζει την Ελληνική γλώσσα
- Κώδικας: Επιλογή όλων
# -*- coding: windows-1253/7 -*-
import urllib
sock = urllib.urlopen("http://www.in.gr")
htmlSource = sock.read()
sock.close()
print (htmlSource)
Αν δεις τον κώδικα της σελίδας, αναφέρει οτι η κωδικοποίηση είναι ISO-8859-7, οπότε:
- Κώδικας: Επιλογή όλων
import urllib
sock = urllib.urlopen("http://www.in.gr")
htmlSource = sock.read()
sock.close()
print (htmlSource.decode('iso-8859-7'))