Tesseract - πολυτονικό  Το θέμα επιλύθηκε

...office, φωτογραφία, CAD, spss, latex, κλπ

Συντονιστής: adem1

Tesseract - πολυτονικό

Δημοσίευσηαπό advocate » 27 Ιούλ 2019, 16:41

Αναγκάστηκα να εγκαταστήσω εκ νέου το Kubuntu 18.04 στα 64 βιτ και κατά την επανεγκατάσταση του tesseract διαπίστωσα ότι δεν είναι δυνατή η εγκατάσταση αναγνώρισης πολυτονικού, δηλ. Αρχαίων Ελληνικών & Καθαρεύουσας.
Εγκατέστησα ξανά τα ελληνικά, γερμανικά, γαλλικά με την εντολή:
Κώδικας: Επιλογή όλων
$ sudo apt-get install tesseract-ocr-ell

δεν βρήκα όμως τα αρχαία ελληνικά που στο προηγούμενο σύστημα δεν θυμάμαι πώς τα είχα εγκαταστήσει
αλλά η συντόμευση στις παλιές εντολές ήταν Greek, δηλαδή δουλεύοντας γενικά το tesseract via ocrmypdf και η εντολή ήταν
Κώδικας: Επιλογή όλων
$ ocrmypdf -l Greek+eng the_file_i_want_to_OCR.pdf the_file_i_want_to_be_OCRed.pdf

καθώς στο επιστημονικό μου πεδίο τα αρχ. ελληνικά είναι ανακατεμένα με τα αγγλικά.

Για να εγκαταστήσω το πολυτονικό αρχικά έδωσα
Κώδικας: Επιλογή όλων
$ sudo apt-get install tesseract-ocr-Greek

αλλά αγνοούσε τη γλώσσα και κατόπιν έψαξα το internet που με οδήγησε στο https://ancientgreekocr.org/linux.html και μου υπέδειξε ως εντολής εγκατάστασης την
Κώδικας: Επιλογή όλων
$ sudo apt-get install tesseract-ocr-grc

η οποία όμως μου έδωσε το εξής αποτέλεσμα:
Κώδικας: Επιλογή όλων
$ sudo apt-get install tesseract-ocr-grc
[sudo] password for andreas:
Ανάγνωση Λιστών Πακέτων... Ολοκληρώθηκε
Κατασκευή Δένδρου Εξαρτήσεων
Ανάγνωση περιγραφής της τρέχουσας κατάσταση... Ολοκληρώθηκε
Το πακέτο tesseract-ocr-grc δεν είναι διαθέσιμο, αλλά υπάρχει αναφορά για αυτό από άλλο πακέτο.
Αυτό σημαίνει ότι το πακέτο αυτό λείπει, είναι παλαιωμένο, ή είναι διαθέσιμο από άλλη πηγή

E: Το πακέτο tesseract-ocr-grc δεν έχει υποψήφια εγκατάσταση


Γενικά είδα ότι τα αρχαία ελληνικά συντομεύονται ως grc και δεν βρήκα κάτι άλλο.
Έχετε καμιά ιδέα πώς μπορώ να κάνω την εγκατάσταση, πού ν' αναζητήσω αποθετήριο και τι εντολή να δώσω?

Επισημαίνω ότι στις σελίδες που έψαξα, τα αρχαία ελληνικά τα έχουν ως
Κώδικας: Επιλογή όλων
grc


Ευχαριστώ εκ των προτέρων
Γνώσεις⇛Linux:Χαμηλό┃Προγραμματισμός:Όχι┃Αγγλικά:Καλά
laptop:Ubuntu 14.04.02 acer aspire Ε17
Προδιαγραφές⇛Intel® Celeron(R) CPU N2940 @ 1.83GHz × 4 │RAM 4.0GB DDR3│δε βρίσκω πληροφορίες GML│Wireless rtl8723be | Audio: Analog stereo duplex│Οθόνη: 1600x900
advocate
babeTUX
babeTUX
 
Δημοσιεύσεις: 142
Εγγραφή: 27 Φεβ 2010, 19:13
Εκτύπωση

Re: Tesseract - πολυτονικό

Δημοσίευσηαπό advocate » 28 Ιούλ 2019, 10:52

To πρόβλημα το έλυσα με έναν τρόπο που δεν ήθελα, αν και τον σκεφτόμουν εκ των προτέρων:
Κώδικας: Επιλογή όλων
$ sudo apt-get install tesseract-ocr-all


Εγκαθιστά όλες τις διαθέσιμες γλώσσες, μαζί και το ελληνικό πολυτονικό, το οποίο περιλαμβάνεται στη λίστα ως Greek αλλά αν δώσεις
Κώδικας: Επιλογή όλων
$ sudo apt-get install tesseract-ocr-Greek

δεν εγκαθίσταται.
Το δύσκολο τώρα είναι ότι πρέπει να απεγκαταστήσω τις γλώσσες που δεν χρειάζονται γιατί τρώνε 250 ΜΒ στο δίσκο
Φαντάζομαι ότι θα δουλέψει
Κώδικας: Επιλογή όλων
$ sudo apt purge tesseract-ocr-Gurmukhi+Khmer+mkd+lit+....+div+fao+hun
για να φύγουν με μια εντολή και κόπι πέιστ.

Πείτε μου σας παρακαλώ αν αυτή η τελευταία εντολή είναι σωστή για να κλείσω το θέμα.
Γνώσεις⇛Linux:Χαμηλό┃Προγραμματισμός:Όχι┃Αγγλικά:Καλά
laptop:Ubuntu 14.04.02 acer aspire Ε17
Προδιαγραφές⇛Intel® Celeron(R) CPU N2940 @ 1.83GHz × 4 │RAM 4.0GB DDR3│δε βρίσκω πληροφορίες GML│Wireless rtl8723be | Audio: Analog stereo duplex│Οθόνη: 1600x900
advocate
babeTUX
babeTUX
 
Δημοσιεύσεις: 142
Εγγραφή: 27 Φεβ 2010, 19:13
Εκτύπωση

Re: Tesseract - πολυτονικό

Δημοσίευσηαπό the_eye » 28 Ιούλ 2019, 19:11

Δεν νομίζω ότι το + κάνει κάτι.

Αυτά είναι όλα τα πακέτα
Κώδικας: Επιλογή όλων
sudo apt-get install tesseract-ocr
Display all 162 possibilities? (y or n)
tesseract-ocr tesseract-ocr-fry tesseract-ocr-nep tesseract-ocr-script-mymr
tesseract-ocr-afr tesseract-ocr-gla tesseract-ocr-nld tesseract-ocr-script-orya
tesseract-ocr-all tesseract-ocr-gle tesseract-ocr-nor tesseract-ocr-script-sinh
tesseract-ocr-amh tesseract-ocr-glg tesseract-ocr-oci tesseract-ocr-script-syrc
tesseract-ocr-ara tesseract-ocr-guj tesseract-ocr-ori tesseract-ocr-script-taml
tesseract-ocr-asm tesseract-ocr-hat tesseract-ocr-osd tesseract-ocr-script-telu
tesseract-ocr-aze tesseract-ocr-heb tesseract-ocr-pan tesseract-ocr-script-thaa
tesseract-ocr-aze-cyrl tesseract-ocr-hin tesseract-ocr-pol tesseract-ocr-script-thai
tesseract-ocr-bel tesseract-ocr-hrv tesseract-ocr-por tesseract-ocr-script-tibt
tesseract-ocr-ben tesseract-ocr-hun tesseract-ocr-pus tesseract-ocr-script-viet
tesseract-ocr-bod tesseract-ocr-hye tesseract-ocr-que tesseract-ocr-sin
tesseract-ocr-bos tesseract-ocr-iku tesseract-ocr-ron tesseract-ocr-slk
tesseract-ocr-bre tesseract-ocr-ind tesseract-ocr-rus tesseract-ocr-slv
tesseract-ocr-bul tesseract-ocr-isl tesseract-ocr-san tesseract-ocr-snd
tesseract-ocr-cat tesseract-ocr-ita tesseract-ocr-script-arab tesseract-ocr-spa
tesseract-ocr-ceb tesseract-ocr-ita-old tesseract-ocr-script-armn tesseract-ocr-spa-old
tesseract-ocr-ces tesseract-ocr-jav tesseract-ocr-script-beng tesseract-ocr-sqi
tesseract-ocr-chi-sim tesseract-ocr-jpn tesseract-ocr-script-cans tesseract-ocr-srp
tesseract-ocr-chi-sim-vert tesseract-ocr-jpn-vert tesseract-ocr-script-cher tesseract-ocr-srp-latn
tesseract-ocr-chi-tra tesseract-ocr-kan tesseract-ocr-script-cyrl tesseract-ocr-sun
tesseract-ocr-chi-tra-vert tesseract-ocr-kat tesseract-ocr-script-deva tesseract-ocr-swa
tesseract-ocr-chr tesseract-ocr-kat-old tesseract-ocr-script-ethi tesseract-ocr-swe
tesseract-ocr-cos tesseract-ocr-kaz tesseract-ocr-script-frak tesseract-ocr-syr
tesseract-ocr-cym tesseract-ocr-khm tesseract-ocr-script-geor tesseract-ocr-tam
tesseract-ocr-dan tesseract-ocr-kir tesseract-ocr-script-grek tesseract-ocr-tat
tesseract-ocr-deu tesseract-ocr-kor tesseract-ocr-script-gujr tesseract-ocr-tel
tesseract-ocr-div tesseract-ocr-kor-vert tesseract-ocr-script-guru tesseract-ocr-tgk
tesseract-ocr-dzo tesseract-ocr-kur-ara tesseract-ocr-script-hang tesseract-ocr-tha
tesseract-ocr-ell tesseract-ocr-lao tesseract-ocr-script-hang-vert tesseract-ocr-tir
tesseract-ocr-eng tesseract-ocr-lat tesseract-ocr-script-hans tesseract-ocr-ton
tesseract-ocr-enm tesseract-ocr-lav tesseract-ocr-script-hans-vert tesseract-ocr-tur
tesseract-ocr-epo tesseract-ocr-lit tesseract-ocr-script-hant tesseract-ocr-uig
tesseract-ocr-est tesseract-ocr-ltz tesseract-ocr-script-hant-vert tesseract-ocr-ukr
tesseract-ocr-eus tesseract-ocr-mal tesseract-ocr-script-hebr tesseract-ocr-urd
tesseract-ocr-fao tesseract-ocr-mar tesseract-ocr-script-jpan tesseract-ocr-uzb
tesseract-ocr-fas tesseract-ocr-mkd tesseract-ocr-script-jpan-vert tesseract-ocr-uzb-cyrl
tesseract-ocr-fil tesseract-ocr-mlt tesseract-ocr-script-khmr tesseract-ocr-vie
tesseract-ocr-fin tesseract-ocr-mon tesseract-ocr-script-knda tesseract-ocr-yid
tesseract-ocr-fra tesseract-ocr-mri tesseract-ocr-script-laoo tesseract-ocr-yor
tesseract-ocr-frk tesseract-ocr-msa tesseract-ocr-script-latn
tesseract-ocr-frm tesseract-ocr-mya tesseract-ocr-script-mlym


Κάποιο από αυτά είναι το πολυτονικό.
Όσο λιγότερο κλειστό λογισμικό έχεις, τόσα λιγότερα προβλήματα.
1 Γνώσεις ⇛ Linux: Καλό ┃ Προγραμματισμός: Ναι PHP, MySQL ┃ Αγγλικά: Καλά
2 Ubuntu 24.04.2
3 Intel Core i5-6500 CPU @ 3.20GHz ‖ RAM 7836 MiB ‖ Gigabyte B150M-HD3 DDR3-CF - Gigabyte B150M-HD3 DDR3
4 Intel HD Graphics 530 [8086:1912] {i915}
5 enp1s0: Realtek RTL8111/8168/8411 PCI Express Gigabit Ethernet Controller [10ec:8168] (rev 15)
Άβαταρ μέλους
the_eye
Διαχειριστής
Διαχειριστής
 
Δημοσιεύσεις: 11717
Εγγραφή: 16 Μαρ 2010, 17:19
Launchpad: ntoulasd
IRC: the_eye_
Εκτύπωση

Re: Tesseract - πολυτονικό  Το θέμα επιλύθηκε

Δημοσίευσηαπό advocate » 29 Ιούλ 2019, 18:14

Εγκατέστησα το πολυτονικό με την επιλογή
Κώδικας: Επιλογή όλων
sudo apt-get install tesseract-ocr-all

Τώρα χρειάζομαι μια εντολή για ν' αφαιρέσω τις γλώσσες που δε χρειάζομαι χωρίς να δίνω μία προς μία
Γιαυτό αναρωτιόμουν μήπως με το + λειτουργεί, δηλ. να κάνω ένα κόπι - πέιστ σε όλες και να τις δώσω σε μία εντολή, αντί να τη δώσω 160 φορές.
Γνώσεις⇛Linux:Χαμηλό┃Προγραμματισμός:Όχι┃Αγγλικά:Καλά
laptop:Ubuntu 14.04.02 acer aspire Ε17
Προδιαγραφές⇛Intel® Celeron(R) CPU N2940 @ 1.83GHz × 4 │RAM 4.0GB DDR3│δε βρίσκω πληροφορίες GML│Wireless rtl8723be | Audio: Analog stereo duplex│Οθόνη: 1600x900
advocate
babeTUX
babeTUX
 
Δημοσιεύσεις: 142
Εγγραφή: 27 Φεβ 2010, 19:13
Εκτύπωση

Re: Tesseract - πολυτονικό

Δημοσίευσηαπό advocate » 08 Αύγ 2019, 21:55

Σήμερα μετέτρεψα ένα μονοτονικό κείμενο με OCR σε pdf κειμένου με την εντολή
Κώδικας: Επιλογή όλων
ocrmypdf -l ell+eng --tesseract-timeout 600 text_to_convert.pdf text_converted-ocr.pdf

και μου εμφάνισε και πολυτονικούς χαρακτήρες, δηλαδή με ψιλή και οξεία και με βαρεία

Αυτό σημαίνει ότι οι developers έχουν ενσωματώσει στο ell πολυτονικό και μονοτονικό, γι' αυτό και δεν το εύρηκα αυτοτελώς.
Τούτο είναι καλό και κακό, δηλ. εξυπηρετεί με την ίδια εντολή μονοτονικά και πολυτονικά κείμενα αλλά ερμηνεύει εσφαλμένα αμιγώς μονοτονικά κείμενα ως πολυτονικά.
Γνώσεις⇛Linux:Χαμηλό┃Προγραμματισμός:Όχι┃Αγγλικά:Καλά
laptop:Ubuntu 14.04.02 acer aspire Ε17
Προδιαγραφές⇛Intel® Celeron(R) CPU N2940 @ 1.83GHz × 4 │RAM 4.0GB DDR3│δε βρίσκω πληροφορίες GML│Wireless rtl8723be | Audio: Analog stereo duplex│Οθόνη: 1600x900
advocate
babeTUX
babeTUX
 
Δημοσιεύσεις: 142
Εγγραφή: 27 Φεβ 2010, 19:13
Εκτύπωση


Επιστροφή στο Εφαρμογές για Γραφείο / Γραφιστική / Επιστήμες