Δημοσιεύτηκε: 19 Δεκ 2013, 01:54
Καλησπέρα.Κατ'αρχάς είμαι άσχετος όσο αφορά Python.Θα ήθελα αν μπορείτε, να με βοηθήσετε με το εξής πρόβλημα: όταν ζητάω να μου εμφανίσει ελληνικές λέξεις στύλ τοκενς, τα εμφανίζει αλαρμπουνέζικά. Το έψαξα πολύ και δοκίμασα αρκετά αλλά δεν βρήκα κάποια λύση... Έχω δοκιμάσει διάφορα encoding και κάποια άλλα πράγματα με decode αλλά δεν έβγαλα άκρη. Μάλλον δεν τα είχα εφαρμόσει σωστά. Αν έχετε καμία ιδέα στο πως να μου εμφανίζει σωστά τις λέξεις, παρακαλώ πείτε μου ή καλύτερα αν είναι εύκολο κάντε τις αλλαγές στον παρακάτω κώδικα, πραγματικά θα μου ήταν μεγάλη βοήθεια...
βασικά εμφανίζει σωστά το κείμενο αλλά όταν ζητάω να εμφανίσει συγκεκριμένα τις λέξεις μου τα βγάζει ακαταλαβίστικα.
- Κώδικας: Επιλογή όλων
import nltk, codecs
f_win = codecs.open('as.txt','rU',encoding='windows-1253')
#as.txt has ANSI encoding
raw_win = f_win.read()
raw_win = raw_win.encode('windows-1253')
tokens_win = nltk.WhitespaceTokenizer().tokenize(raw_win)
text_win = nltk.Text(tokens_win)
print text_win
<Text: Το καλοκαίρι είναι η εποχή του και ακόμη...>
print text_win[0:4]
['\xd4\xef', '\xea\xe1\xeb\xef\xea\xe1\xdf\xf1\xe9', '\xe5\xdf\xed\xe1\xe9', '\xe7']
βασικά εμφανίζει σωστά το κείμενο αλλά όταν ζητάω να εμφανίσει συγκεκριμένα τις λέξεις μου τα βγάζει ακαταλαβίστικα.