OCR ελληνικών (και όχι μόνο) χαρακτήρων στο linux

από **the_eye** » 31 Ιαν 2011, 02:49

Η ελληνική υποστήριξη OCR στο linux υλοποιείτε εύκολα με την μηχανή OCR tesseract 3 που έχει έτοιμη βιβλιοθήκη ελληνικών αλλά έχει και μηχανή εκμάθησης χαρακτήρων.
Ακόμα μαζί με τα ελληνικά μπορούμε να εγκαταστήσουμε και άλλες γλώσσες όπως γαλλικά, γερμανικά, ρώσικα κτλ
Σαν γραφικό περιβάλλων θα χρησιμοποιήσουμε την εφαρμογή που υπάρχει στο κέντρο λογισμικού OCRFeeder

Την διαφορά για την υποστήριξη των ελληνικών την κάνει το tesseract στην έκδοση 3.

Στο Ubuntu 12.04 υπάρχει στα αποθετήρια μαζί και τα αρχεία αναγνώρισης γλώσας, οπότε εγκαθιστούμε :
OCRFeeder, tesseract, αρχεία γλώσσας (πχ tesseract-ocr-ell)

Για να έχουμε καλά αποτελέσματα πρέπει τα σαρωμένα κείμενα να είναι σε 300dpi και να έχουν καλό κοντράστ.

Αν σας βγάζει αρκετά λάθη να είστε επιεικής είναι το πρώτο βήμα OCR ελληνικών σε linux. Ακόμα στην σελίδα του project υπάρχει και ειδικό πρόγραμμα για "εκπαίδευση" του OCR για καλύτερη αναγνώριση.
http://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3

Στο πρόγραμμα OCRFeeder πάμε Εργαλεία -> Μηχανές OCR

Πατάμε Tesseract, Επεξεργασία

Αλλάζουμε την εντολή

Κώδικας: Επιλογή όλων: $IMAGE $FILE > /dev/null 2> /dev/null; cat $FILE.txt; rm $FILE $FILE.txt

σε

Κώδικας: Επιλογή όλων: $IMAGE $FILE -l ell > /dev/null 2> /dev/null; cat $FILE.txt; rm $FILE $FILE.txt

Αν θέλουμε άλλη γλώσσα βάζουμε το αντίστοιχο πρόθεμα πχ -l rus (είναι L μικρό όχι ένα)

Αν θέλουμε να αναγνωρίσει ένα κείμενο με 2 ή περισσότερες γλώσσες βάζουμε

Κώδικας: Επιλογή όλων: $IMAGE $FILE -l ell+eng > /dev/null 2> /dev/null; cat $FILE.txt; rm $FILE $FILE.txt

Υπάρχει η πιθανότητα να αυξηθούν τα σφάλματα αναγνώρισης με αυτή την επιλογή :!:

Και είμαστε έτοιμοι !

Για εκπαίδευση του προγράμματος σε μια νέα γλώσσα ή σε πολυτονικό δείτε εδώ
http://code.google.com/p/tesseract-ocr/ ... Tesseract3

Παλαιό κείμενο οδηγού

Spoiler: show

Η εργασία υπάγεται στην άδεια Creative Commons Αναφορά-Μη εμπορική χρήση-Παρόμοια διανομή 3.0 Ελλάδα

από **ftso** » 31 Ιαν 2011, 03:42

nice

από **ecatodarcus** » 31 Ιαν 2011, 04:11

Μπράβo the_eye!!!
εγώ είχα απεγκαταστήσει το OCRfeeder, μετά κατέβασα τα deb πακέτα, τα έκανα εγκατάσταση, έκανα πάλι εγκατάσταση τον OCRfeeder με τις ρυθμίσεις που υπέδειξες αλλά δεν διαβάζει καθόλου το κείμενο.

Uploaded with ImageShack.us
ορίστε και το screenshot. όση ώρα και να το αφήσω δεν κάνει κάτι. ακόμα και αν πατήσω το πάνω κουμπάκι και από image το κάνω text δεν κάνει κάτι. και φόρτωσα τόσο tif όσο και jpg.
τι μπορεί να έκανα λάθος?
ευχαριστώ

από **the_eye** » 31 Ιαν 2011, 04:14

Δοκίμασε από κονσόλα

Κώδικας: Επιλογή όλων: tesseract eikona.tif text -l ell

αν σου βγάλει κάτι γράψτο εδώ.

από **ecatodarcus** » 31 Ιαν 2011, 04:16

Κώδικας: Επιλογή όλων: tesseract: error while loading shared libraries: liblept.so.0: cannot open shared object file: No such file or directory

αυτό έβγαλε. είναι βιβλιοθήκη που πρέπει να εγκαταστήσω?

από **the_eye** » 31 Ιαν 2011, 04:21

Για κάνε

Κώδικας: Επιλογή όλων: sudo apt-get install libleptonica

και ξαναδοκίμασε στο τερματικό

από **ecatodarcus** » 31 Ιαν 2011, 04:29

Κώδικας: Επιλογή όλων: tesseract: error while loading shared libraries: liblept.so.0: cannot open shared object file: No such file or directory

πάλι το ίδιο έβγαλε.
την βιβλιοθήκη την είχε ήδη εγκατεστημένη.

από **the_eye** » 31 Ιαν 2011, 04:45

Τότε τρέξτε

Κώδικας: Επιλογή όλων: cd /usr/lib/ sudo ln -s liblept.so.1 liblept.so.0

από **ecatodarcus** » 31 Ιαν 2011, 05:05

σωστός!!!τώρα λειτουργει. όπως είπες κάνει αρκετά λαθάκια αλλα είναι η πρώτη προσπάθεια!!!

2 ερωτήσεις:
1)αν θέλω να βάλω και τα αγγλικά μέσα στις γλώσσες κατεβάζω το πακέτο, το κάνω install και μετά προσθέτω άλλη μια φορά την tesseract αλλα αυτή τη φορά με την αγγλική γλώσσα οπότε όταν θα φορτώνω την εικόνα μου θα του λέω και με ποιά από τις 2 θα το διαβάσει?
2)η τελευταία εντολή τi έκανε? αν κατάλαβα καλά είτε καλέσει το μια βιβλιοθήκη το πρόγραμμα είτε την άλλη θα χρησιμοποιηθούν και οι 2?
και πάλι σε ευχαριστώ

από **the_eye** » 31 Ιαν 2011, 05:09

1) Για αγγλικά την παράμετρο θα την κάνεις -l eng
2) Ζητούσε μια ποιο παλιά έκδοση της βιβλιοθήκης. Εμείς κάναμε μια συντόμευση με το όνομα της παλιάς να οδηγεί στην καινούρια.

Για καλή ποιότητα αναγνώρισης να scanάρεις στα 300dpi

Ενημέρωσα και τον οδηγό έτσι ώστε να καλύπτει και αυτό το πρόβλημα.

OCR ελληνικών (και όχι μόνο) χαρακτήρων στο linux

OCR ελληνικών (και όχι μόνο) χαρακτήρων στο linux

Re: OCR ελληνικών (και όχι μόνο) χαρακτήρων στο linux

Re: OCR ελληνικών (και όχι μόνο) χαρακτήρων στο linux

Re: OCR ελληνικών (και όχι μόνο) χαρακτήρων στο linux

Re: OCR ελληνικών (και όχι μόνο) χαρακτήρων στο linux

Re: OCR ελληνικών (και όχι μόνο) χαρακτήρων στο linux

Re: OCR ελληνικών (και όχι μόνο) χαρακτήρων στο linux

Re: OCR ελληνικών (και όχι μόνο) χαρακτήρων στο linux

Re: OCR ελληνικών (και όχι μόνο) χαρακτήρων στο linux

Re: OCR ελληνικών (και όχι μόνο) χαρακτήρων στο linux