OCR ελληνικών (και όχι μόνο) χαρακτήρων στο linux

...το μέρος για να ξεκινήσετε!

Συντονιστής: adem1

Κανόνες Δ. Συζήτησης
Παρακαλώ να επιλέξετε, με προσοχή, την άδεια που θέλετε να έχουν οι οδηγοί που συγγράφετε.
Πληροφορίες για τις άδειες μπορείτε να βρείτε εδώ.
Άμα επιθυμείτε κάποια άλλη άδεια επικοινωνήστε με κάποιο Διαχειριστή είτε Συντονιστή.

Σημαντικό είναι να χρησιμοποιήσετε την υπηρεσία http://imagebin.ubuntu-gr.org για τις εικόνες.

Re: OCR ελληνικών (και όχι μόνο) χαρακτήρων στο linux

Δημοσίευσηαπό the_eye » 24 Ιουν 2013, 17:50

Έχεις εγκαταστήσει το πακέτο για τα ελληνικά tesseract-ocr-ell ;

Αναλυτικές οδηγίες υπάρχουν εδώ
viewtopic.php?f=9&t=16669
Όσο λιγότερο κλειστό λογισμικό έχεις, τόσα λιγότερα προβλήματα.
1 Γνώσεις ⇛ Linux: Καλό ┃ Προγραμματισμός: Ναι PHP, MySQL ┃ Αγγλικά: Καλά
2 Ubuntu 22.04 Jammy Jellyfish 5.15.0-58-generic 64bit (el_GR.UTF-8, ubuntu:GNOME ubuntu)
3 Intel Core i3-6100 CPU @ 3.70GHz ‖ RAM 7836 MiB ‖ Gigabyte B150M-HD3 DDR3-CF - Gigabyte B150M-HD3 DDR3
4 Intel HD Graphics 530 [8086:1912] {i915}
5 enp1s0: Realtek RTL8111/8168/8411 PCI Express Gigabit Ethernet Controller [10ec:8168] (rev 15)
Οδηγοί Ubuntu Βίντεο Οδηγοί
Άβαταρ μέλους
the_eye
Διαχειριστής
Διαχειριστής
 
Δημοσιεύσεις: 11673
Εγγραφή: 16 Μαρ 2010, 17:19
Launchpad: ntoulasd
IRC: the_eye_
Εκτύπωση

Re: OCR ελληνικών (και όχι μόνο) χαρακτήρων στο linux

Δημοσίευσηαπό nsiklafidis » 24 Ιουν 2013, 18:31

Έβγαλα άκρη. Βασικά μετά την αναγνώριση πρέπει να πατήσω επάνω στο κείμενο για να μου εμφανίσει δεξιά και κάτω τα αποτελέσματα. Μόλις εγκατέστησα και το Tesseract-ocr language files for ancient Greek. Τι πρέπει να αλλάξω στην επεξεργασία για να τρέχει αυτό?
Ευχαριστώ για όλα...
Διαπίστωσα αρκετά λαθάκια καθώς έχω κείμενα με αρχαία ελληνικά και αγγλικά μαζί... (έκανα αυτά που λέτε για τις δύο γλώσσες, καλύτερα όμως ξεχωριστά για να βγάλω και μια άκρη...)
1 Γνώσεις Linux: Ικανοποιητικό ┃ Προγραμματισμού: Ικανοποιητικό ┃ Αγγλικών: Ικανοποιητικό
2 Ubuntu 13.04 raring 3.8.0-26-generic 32bit (el_GR.UTF-8, Unity ubuntu)
3 Intel Core i5-3230M CPU @ 2.60GHz ‖ RAM 3868 MiB ‖ Acer Aspire V3-571G
4 Intel 3rd Gen Core processor Graphics Controller [8086:0166] {i915} ⋮ nVidia GF117M [GeForce 710M] [10de:1140] {}
5 eth0: Broadcom NetLink BCM57785 Gigabit Ethernet PCIe [14e4:16b5] (rev 10) ⋮ wlan0: Atheros Inc. AR9462 Wireless Network Adapter [168c:0034] (rev 01)
nsiklafidis
babeTUX
babeTUX
 
Δημοσιεύσεις: 40
Εγγραφή: 15 Φεβ 2013, 18:24
Εκτύπωση

Re: OCR ελληνικών (και όχι μόνο) χαρακτήρων στο linux

Δημοσίευσηαπό the_eye » 24 Ιουν 2013, 19:18

Δοκίμασε για το πολυτονικό αφού έβαλες το πακέτο με
Κώδικας: Επιλογή όλων
$IMAGE $FILE -l grc  > /dev/null 2> /dev/null; cat $FILE.txt; rm $FILE $FILE.txt
Όσο λιγότερο κλειστό λογισμικό έχεις, τόσα λιγότερα προβλήματα.
1 Γνώσεις ⇛ Linux: Καλό ┃ Προγραμματισμός: Ναι PHP, MySQL ┃ Αγγλικά: Καλά
2 Ubuntu 22.04 Jammy Jellyfish 5.15.0-58-generic 64bit (el_GR.UTF-8, ubuntu:GNOME ubuntu)
3 Intel Core i3-6100 CPU @ 3.70GHz ‖ RAM 7836 MiB ‖ Gigabyte B150M-HD3 DDR3-CF - Gigabyte B150M-HD3 DDR3
4 Intel HD Graphics 530 [8086:1912] {i915}
5 enp1s0: Realtek RTL8111/8168/8411 PCI Express Gigabit Ethernet Controller [10ec:8168] (rev 15)
Οδηγοί Ubuntu Βίντεο Οδηγοί
Άβαταρ μέλους
the_eye
Διαχειριστής
Διαχειριστής
 
Δημοσιεύσεις: 11673
Εγγραφή: 16 Μαρ 2010, 17:19
Launchpad: ntoulasd
IRC: the_eye_
Εκτύπωση

Re: OCR ελληνικών (και όχι μόνο) χαρακτήρων στο linux

Δημοσίευσηαπό nsiklafidis » 25 Ιουν 2013, 09:15

Το δοκίμασα αλλά κολλάει και μου βγάζει σφάλμα. Για τα καλύτερα αποτελέσματα η εικόνα πρέπει να είναι jpg tif ή png?
1 Γνώσεις Linux: Ικανοποιητικό ┃ Προγραμματισμού: Ικανοποιητικό ┃ Αγγλικών: Ικανοποιητικό
2 Ubuntu 13.04 raring 3.8.0-26-generic 32bit (el_GR.UTF-8, Unity ubuntu)
3 Intel Core i5-3230M CPU @ 2.60GHz ‖ RAM 3868 MiB ‖ Acer Aspire V3-571G
4 Intel 3rd Gen Core processor Graphics Controller [8086:0166] {i915} ⋮ nVidia GF117M [GeForce 710M] [10de:1140] {}
5 eth0: Broadcom NetLink BCM57785 Gigabit Ethernet PCIe [14e4:16b5] (rev 10) ⋮ wlan0: Atheros Inc. AR9462 Wireless Network Adapter [168c:0034] (rev 01)
nsiklafidis
babeTUX
babeTUX
 
Δημοσιεύσεις: 40
Εγγραφή: 15 Φεβ 2013, 18:24
Εκτύπωση

Re: OCR ελληνικών (και όχι μόνο) χαρακτήρων στο linux

Δημοσίευσηαπό the_eye » 25 Ιουν 2013, 20:31

Η εικόνα πρέπει να είναι σαρωμένη σε 300dpi τουλάχιστο, δεν έχει τόσο σημασία η μορφή, αρκεί να μην έχει γίνει μεγάλη συμπίεση.
Όσο λιγότερο κλειστό λογισμικό έχεις, τόσα λιγότερα προβλήματα.
1 Γνώσεις ⇛ Linux: Καλό ┃ Προγραμματισμός: Ναι PHP, MySQL ┃ Αγγλικά: Καλά
2 Ubuntu 22.04 Jammy Jellyfish 5.15.0-58-generic 64bit (el_GR.UTF-8, ubuntu:GNOME ubuntu)
3 Intel Core i3-6100 CPU @ 3.70GHz ‖ RAM 7836 MiB ‖ Gigabyte B150M-HD3 DDR3-CF - Gigabyte B150M-HD3 DDR3
4 Intel HD Graphics 530 [8086:1912] {i915}
5 enp1s0: Realtek RTL8111/8168/8411 PCI Express Gigabit Ethernet Controller [10ec:8168] (rev 15)
Οδηγοί Ubuntu Βίντεο Οδηγοί
Άβαταρ μέλους
the_eye
Διαχειριστής
Διαχειριστής
 
Δημοσιεύσεις: 11673
Εγγραφή: 16 Μαρ 2010, 17:19
Launchpad: ntoulasd
IRC: the_eye_
Εκτύπωση

Re: OCR ελληνικών (και όχι μόνο) χαρακτήρων στο linux

Δημοσίευσηαπό nsiklafidis » 26 Ιουν 2013, 08:53

Ευχαριστώ για την υποστήριξη!
1 Γνώσεις Linux: Ικανοποιητικό ┃ Προγραμματισμού: Ικανοποιητικό ┃ Αγγλικών: Ικανοποιητικό
2 Ubuntu 13.04 raring 3.8.0-26-generic 32bit (el_GR.UTF-8, Unity ubuntu)
3 Intel Core i5-3230M CPU @ 2.60GHz ‖ RAM 3868 MiB ‖ Acer Aspire V3-571G
4 Intel 3rd Gen Core processor Graphics Controller [8086:0166] {i915} ⋮ nVidia GF117M [GeForce 710M] [10de:1140] {}
5 eth0: Broadcom NetLink BCM57785 Gigabit Ethernet PCIe [14e4:16b5] (rev 10) ⋮ wlan0: Atheros Inc. AR9462 Wireless Network Adapter [168c:0034] (rev 01)
nsiklafidis
babeTUX
babeTUX
 
Δημοσιεύσεις: 40
Εγγραφή: 15 Φεβ 2013, 18:24
Εκτύπωση

Re: OCR ελληνικών (και όχι μόνο) χαρακτήρων στο linux

Δημοσίευσηαπό Reinach » 06 Οκτ 2013, 20:27

Έχω εγκαταστήσει σε παλιότερο υπολογιστή που φέρει Lubuntu 13.04 το tesseract και το OCRFeeder με τα ελληνικά όπως το προτείνει ο the_eye σε αυτόν εδώ τον οδηγό. Όλα καλά όσον αφορά τη λειτουργία. Έχω τα εξής ερωτήματα όσον αφορά τη χρήση:

1. Λειτουργώ την αναγνώριση μέσα από το OCRFeeder ή μέσα από το "Σάρωση" που είναι το default στα μενού;

2. Στο OCRFeeder δεν έχω δει επιλογή για ρύθμιση σάρωσης (π.χ. ασπρόμαυρη+300 dpi). Πώς το διαλέγω αυτό;

3. Το αναγνωρισμένο κείμενο είδα ότι το εμφανίζει (μέσα στο OCRFeeder) σε παραθυράκι κάτω δεξιά από όπου πρέπει με copy+paste να το στείλω σε έγγραφο odt. Μπορώ αυτόματα να το έχω στο clipboard;
1 Γνώσεις Linux: Ικανοποιητικό ┃ Προγραμματισμού: Καθόλου ┃ Αγγλικών: Πολύ καλό
2 Ubuntu 22.04 Jammy Jellyfish 5.15.0-58-generic 64bit (el_GR.UTF-8, MATE mate)
3 Intel Core i5-1035G1 CPU @ 1.00GHz ‖ RAM 19566 MiB ‖ LENOVO LNVNB161216 - LENOVO 81WE
4 Intel Iris Plus Graphics G1 (Ice Lake) [8086:8a56] {i915}
5 wlp0s20f3: Intel Ice Lake-LP PCH CNVi WiFi [8086:34f0] (rev 30) ⋮ enx7cc2c61085a5: 2357:0601 TP-Link UE300 10/100/1000 LAN (ethernet mode) [Realtek RTL8153]
Άβαταρ μέλους
Reinach
seniorTUX
seniorTUX
 
Δημοσιεύσεις: 692
Εγγραφή: 09 Νοέμ 2008, 20:48
Εκτύπωση

Re: OCR ελληνικών (και όχι μόνο) χαρακτήρων στο linux

Δημοσίευσηαπό the_eye » 07 Οκτ 2013, 16:06

1. Την αναγνώριση την κάνεις με το OCRFeeder

2. Την σάρωση και της επιλογές της, την κάνεις από την εφαρμογή "Σάρωση" ή xsane ή οποία άλλη προτιμάς.

3. Σου επιτρέπει να το κάνεις αποθήκευση από το Μενού. Αρχείο -> Αποθήκευση
Όσο λιγότερο κλειστό λογισμικό έχεις, τόσα λιγότερα προβλήματα.
1 Γνώσεις ⇛ Linux: Καλό ┃ Προγραμματισμός: Ναι PHP, MySQL ┃ Αγγλικά: Καλά
2 Ubuntu 22.04 Jammy Jellyfish 5.15.0-58-generic 64bit (el_GR.UTF-8, ubuntu:GNOME ubuntu)
3 Intel Core i3-6100 CPU @ 3.70GHz ‖ RAM 7836 MiB ‖ Gigabyte B150M-HD3 DDR3-CF - Gigabyte B150M-HD3 DDR3
4 Intel HD Graphics 530 [8086:1912] {i915}
5 enp1s0: Realtek RTL8111/8168/8411 PCI Express Gigabit Ethernet Controller [10ec:8168] (rev 15)
Οδηγοί Ubuntu Βίντεο Οδηγοί
Άβαταρ μέλους
the_eye
Διαχειριστής
Διαχειριστής
 
Δημοσιεύσεις: 11673
Εγγραφή: 16 Μαρ 2010, 17:19
Launchpad: ntoulasd
IRC: the_eye_
Εκτύπωση

Re: OCR ελληνικών (και όχι μόνο) χαρακτήρων στο linux

Δημοσίευσηαπό Reinach » 07 Οκτ 2013, 22:27

the_eye έγραψε:2. Την σάρωση και της επιλογές της, την κάνεις από την εφαρμογή "Σάρωση" ή xsane ή οποία άλλη προτιμάς.

Δηλαδή...πρώτα κάνω σάρωση με την εφαρμογή "Σάρωση" (και με τις επιλογές ανάλυσης που θέλω), και στη συνέχεια με κάποιο τρόπο στέλνω (ή τη βλέπει αυτόματα;) τη σαρωμένη εικόνα στο OCRFeeder από όπου συνεχίζω με Αναγνώριση; Έτσι δεν είναι η σωστή σειρά;
1 Γνώσεις Linux: Ικανοποιητικό ┃ Προγραμματισμού: Καθόλου ┃ Αγγλικών: Πολύ καλό
2 Ubuntu 22.04 Jammy Jellyfish 5.15.0-58-generic 64bit (el_GR.UTF-8, MATE mate)
3 Intel Core i5-1035G1 CPU @ 1.00GHz ‖ RAM 19566 MiB ‖ LENOVO LNVNB161216 - LENOVO 81WE
4 Intel Iris Plus Graphics G1 (Ice Lake) [8086:8a56] {i915}
5 wlp0s20f3: Intel Ice Lake-LP PCH CNVi WiFi [8086:34f0] (rev 30) ⋮ enx7cc2c61085a5: 2357:0601 TP-Link UE300 10/100/1000 LAN (ethernet mode) [Realtek RTL8153]
Άβαταρ μέλους
Reinach
seniorTUX
seniorTUX
 
Δημοσιεύσεις: 692
Εγγραφή: 09 Νοέμ 2008, 20:48
Εκτύπωση

Re: OCR ελληνικών (και όχι μόνο) χαρακτήρων στο linux

Δημοσίευσηαπό the_eye » 08 Οκτ 2013, 09:21

Reinach έγραψε:με κάποιο τρόπο στέλνω (ή τη βλέπει αυτόματα;) τη σαρωμένη εικόνα στο OCRFeeder

Ανοίγεις τις σαρωμένες εικόνες με το OCRFeeder.
Όσο λιγότερο κλειστό λογισμικό έχεις, τόσα λιγότερα προβλήματα.
1 Γνώσεις ⇛ Linux: Καλό ┃ Προγραμματισμός: Ναι PHP, MySQL ┃ Αγγλικά: Καλά
2 Ubuntu 22.04 Jammy Jellyfish 5.15.0-58-generic 64bit (el_GR.UTF-8, ubuntu:GNOME ubuntu)
3 Intel Core i3-6100 CPU @ 3.70GHz ‖ RAM 7836 MiB ‖ Gigabyte B150M-HD3 DDR3-CF - Gigabyte B150M-HD3 DDR3
4 Intel HD Graphics 530 [8086:1912] {i915}
5 enp1s0: Realtek RTL8111/8168/8411 PCI Express Gigabit Ethernet Controller [10ec:8168] (rev 15)
Οδηγοί Ubuntu Βίντεο Οδηγοί
Άβαταρ μέλους
the_eye
Διαχειριστής
Διαχειριστής
 
Δημοσιεύσεις: 11673
Εγγραφή: 16 Μαρ 2010, 17:19
Launchpad: ntoulasd
IRC: the_eye_
Εκτύπωση

ΠροηγούμενηΕπόμενο

  • ΣΧΕΤΙΚΑ ΘΕΜΑΤΑ
    ΑΠΑΝΤΗΣΕΙΣ
    ΠΡΟΒΟΛΕΣ
    ΣΥΓΓΡΑΦΕΑΣ

Επιστροφή στο Οδηγοί - How to - Tutorials