Tesseract - πολυτονικό  Το θέμα επιλύθηκε

...office, φωτογραφία, CAD, spss, latex, κλπ

Συντονιστής: adem1

Tesseract - πολυτονικό

Δημοσίευσηαπό advocate » 27 Ιούλ 2019, 16:41

Αναγκάστηκα να εγκαταστήσω εκ νέου το Kubuntu 18.04 στα 64 βιτ και κατά την επανεγκατάσταση του tesseract διαπίστωσα ότι δεν είναι δυνατή η εγκατάσταση αναγνώρισης πολυτονικού, δηλ. Αρχαίων Ελληνικών & Καθαρεύουσας.
Εγκατέστησα ξανά τα ελληνικά, γερμανικά, γαλλικά με την εντολή:
Κώδικας: Επιλογή όλων
$ sudo apt-get install tesseract-ocr-ell

δεν βρήκα όμως τα αρχαία ελληνικά που στο προηγούμενο σύστημα δεν θυμάμαι πώς τα είχα εγκαταστήσει
αλλά η συντόμευση στις παλιές εντολές ήταν Greek, δηλαδή δουλεύοντας γενικά το tesseract via ocrmypdf και η εντολή ήταν
Κώδικας: Επιλογή όλων
$ ocrmypdf -l Greek+eng the_file_i_want_to_OCR.pdf the_file_i_want_to_be_OCRed.pdf

καθώς στο επιστημονικό μου πεδίο τα αρχ. ελληνικά είναι ανακατεμένα με τα αγγλικά.

Για να εγκαταστήσω το πολυτονικό αρχικά έδωσα
Κώδικας: Επιλογή όλων
$ sudo apt-get install tesseract-ocr-Greek

αλλά αγνοούσε τη γλώσσα και κατόπιν έψαξα το internet που με οδήγησε στο https://ancientgreekocr.org/linux.html και μου υπέδειξε ως εντολής εγκατάστασης την
Κώδικας: Επιλογή όλων
$ sudo apt-get install tesseract-ocr-grc

η οποία όμως μου έδωσε το εξής αποτέλεσμα:
Κώδικας: Επιλογή όλων
$ sudo apt-get install tesseract-ocr-grc
[sudo] password for andreas:
Ανάγνωση Λιστών Πακέτων... Ολοκληρώθηκε
Κατασκευή Δένδρου Εξαρτήσεων                 
Ανάγνωση περιγραφής της τρέχουσας κατάσταση... Ολοκληρώθηκε
Το πακέτο tesseract-ocr-grc δεν είναι διαθέσιμο, αλλά υπάρχει αναφορά για αυτό από άλλο πακέτο.
Αυτό σημαίνει ότι το πακέτο αυτό λείπει, είναι παλαιωμένο, ή είναι διαθέσιμο από άλλη πηγή

E: Το πακέτο tesseract-ocr-grc δεν έχει υποψήφια εγκατάσταση


Γενικά είδα ότι τα αρχαία ελληνικά συντομεύονται ως grc και δεν βρήκα κάτι άλλο.
Έχετε καμιά ιδέα πώς μπορώ να κάνω την εγκατάσταση, πού ν' αναζητήσω αποθετήριο και τι εντολή να δώσω?

Επισημαίνω ότι στις σελίδες που έψαξα, τα αρχαία ελληνικά τα έχουν ως
Κώδικας: Επιλογή όλων
grc


Ευχαριστώ εκ των προτέρων
Γνώσεις⇛Linux:Χαμηλό┃Προγραμματισμός:Όχι┃Αγγλικά:Καλά
laptop:Ubuntu 14.04.02 acer aspire Ε17
Προδιαγραφές⇛Intel® Celeron(R) CPU N2940 @ 1.83GHz × 4 │RAM 4.0GB DDR3│δε βρίσκω πληροφορίες GML│Wireless rtl8723be | Audio: Analog stereo duplex│Οθόνη: 1600x900
advocate
babeTUX
babeTUX
 
Δημοσιεύσεις: 142
Εγγραφή: 27 Φεβ 2010, 19:13
Εκτύπωση

Re: Tesseract - πολυτονικό

Δημοσίευσηαπό advocate » 28 Ιούλ 2019, 10:52

To πρόβλημα το έλυσα με έναν τρόπο που δεν ήθελα, αν και τον σκεφτόμουν εκ των προτέρων:
Κώδικας: Επιλογή όλων
$ sudo apt-get install tesseract-ocr-all


Εγκαθιστά όλες τις διαθέσιμες γλώσσες, μαζί και το ελληνικό πολυτονικό, το οποίο περιλαμβάνεται στη λίστα ως Greek αλλά αν δώσεις
Κώδικας: Επιλογή όλων
$ sudo apt-get install tesseract-ocr-Greek

δεν εγκαθίσταται.
Το δύσκολο τώρα είναι ότι πρέπει να απεγκαταστήσω τις γλώσσες που δεν χρειάζονται γιατί τρώνε 250 ΜΒ στο δίσκο
Φαντάζομαι ότι θα δουλέψει
Κώδικας: Επιλογή όλων
$ sudo apt purge tesseract-ocr-Gurmukhi+Khmer+mkd+lit+....+div+fao+hun
για να φύγουν με μια εντολή και κόπι πέιστ.

Πείτε μου σας παρακαλώ αν αυτή η τελευταία εντολή είναι σωστή για να κλείσω το θέμα.
Γνώσεις⇛Linux:Χαμηλό┃Προγραμματισμός:Όχι┃Αγγλικά:Καλά
laptop:Ubuntu 14.04.02 acer aspire Ε17
Προδιαγραφές⇛Intel® Celeron(R) CPU N2940 @ 1.83GHz × 4 │RAM 4.0GB DDR3│δε βρίσκω πληροφορίες GML│Wireless rtl8723be | Audio: Analog stereo duplex│Οθόνη: 1600x900
advocate
babeTUX
babeTUX
 
Δημοσιεύσεις: 142
Εγγραφή: 27 Φεβ 2010, 19:13
Εκτύπωση

Re: Tesseract - πολυτονικό

Δημοσίευσηαπό the_eye » 28 Ιούλ 2019, 19:11

Δεν νομίζω ότι το + κάνει κάτι.

Αυτά είναι όλα τα πακέτα
Κώδικας: Επιλογή όλων
sudo apt-get install tesseract-ocr
Display all 162 possibilities? (y or n)
tesseract-ocr                   tesseract-ocr-fry               tesseract-ocr-nep               tesseract-ocr-script-mymr
tesseract-ocr-afr               tesseract-ocr-gla               tesseract-ocr-nld               tesseract-ocr-script-orya
tesseract-ocr-all               tesseract-ocr-gle               tesseract-ocr-nor               tesseract-ocr-script-sinh
tesseract-ocr-amh               tesseract-ocr-glg               tesseract-ocr-oci               tesseract-ocr-script-syrc
tesseract-ocr-ara               tesseract-ocr-guj               tesseract-ocr-ori               tesseract-ocr-script-taml
tesseract-ocr-asm               tesseract-ocr-hat               tesseract-ocr-osd               tesseract-ocr-script-telu
tesseract-ocr-aze               tesseract-ocr-heb               tesseract-ocr-pan               tesseract-ocr-script-thaa
tesseract-ocr-aze-cyrl          tesseract-ocr-hin               tesseract-ocr-pol               tesseract-ocr-script-thai
tesseract-ocr-bel               tesseract-ocr-hrv               tesseract-ocr-por               tesseract-ocr-script-tibt
tesseract-ocr-ben               tesseract-ocr-hun               tesseract-ocr-pus               tesseract-ocr-script-viet
tesseract-ocr-bod               tesseract-ocr-hye               tesseract-ocr-que               tesseract-ocr-sin
tesseract-ocr-bos               tesseract-ocr-iku               tesseract-ocr-ron               tesseract-ocr-slk
tesseract-ocr-bre               tesseract-ocr-ind               tesseract-ocr-rus               tesseract-ocr-slv
tesseract-ocr-bul               tesseract-ocr-isl               tesseract-ocr-san               tesseract-ocr-snd
tesseract-ocr-cat               tesseract-ocr-ita               tesseract-ocr-script-arab       tesseract-ocr-spa
tesseract-ocr-ceb               tesseract-ocr-ita-old           tesseract-ocr-script-armn       tesseract-ocr-spa-old
tesseract-ocr-ces               tesseract-ocr-jav               tesseract-ocr-script-beng       tesseract-ocr-sqi
tesseract-ocr-chi-sim           tesseract-ocr-jpn               tesseract-ocr-script-cans       tesseract-ocr-srp
tesseract-ocr-chi-sim-vert      tesseract-ocr-jpn-vert          tesseract-ocr-script-cher       tesseract-ocr-srp-latn
tesseract-ocr-chi-tra           tesseract-ocr-kan               tesseract-ocr-script-cyrl       tesseract-ocr-sun
tesseract-ocr-chi-tra-vert      tesseract-ocr-kat               tesseract-ocr-script-deva       tesseract-ocr-swa
tesseract-ocr-chr               tesseract-ocr-kat-old           tesseract-ocr-script-ethi       tesseract-ocr-swe
tesseract-ocr-cos               tesseract-ocr-kaz               tesseract-ocr-script-frak       tesseract-ocr-syr
tesseract-ocr-cym               tesseract-ocr-khm               tesseract-ocr-script-geor       tesseract-ocr-tam
tesseract-ocr-dan               tesseract-ocr-kir               tesseract-ocr-script-grek       tesseract-ocr-tat
tesseract-ocr-deu               tesseract-ocr-kor               tesseract-ocr-script-gujr       tesseract-ocr-tel
tesseract-ocr-div               tesseract-ocr-kor-vert          tesseract-ocr-script-guru       tesseract-ocr-tgk
tesseract-ocr-dzo               tesseract-ocr-kur-ara           tesseract-ocr-script-hang       tesseract-ocr-tha
tesseract-ocr-ell               tesseract-ocr-lao               tesseract-ocr-script-hang-vert  tesseract-ocr-tir
tesseract-ocr-eng               tesseract-ocr-lat               tesseract-ocr-script-hans       tesseract-ocr-ton
tesseract-ocr-enm               tesseract-ocr-lav               tesseract-ocr-script-hans-vert  tesseract-ocr-tur
tesseract-ocr-epo               tesseract-ocr-lit               tesseract-ocr-script-hant       tesseract-ocr-uig
tesseract-ocr-est               tesseract-ocr-ltz               tesseract-ocr-script-hant-vert  tesseract-ocr-ukr
tesseract-ocr-eus               tesseract-ocr-mal               tesseract-ocr-script-hebr       tesseract-ocr-urd
tesseract-ocr-fao               tesseract-ocr-mar               tesseract-ocr-script-jpan       tesseract-ocr-uzb
tesseract-ocr-fas               tesseract-ocr-mkd               tesseract-ocr-script-jpan-vert  tesseract-ocr-uzb-cyrl
tesseract-ocr-fil               tesseract-ocr-mlt               tesseract-ocr-script-khmr       tesseract-ocr-vie
tesseract-ocr-fin               tesseract-ocr-mon               tesseract-ocr-script-knda       tesseract-ocr-yid
tesseract-ocr-fra               tesseract-ocr-mri               tesseract-ocr-script-laoo       tesseract-ocr-yor
tesseract-ocr-frk               tesseract-ocr-msa               tesseract-ocr-script-latn       
tesseract-ocr-frm               tesseract-ocr-mya               tesseract-ocr-script-mlym


Κάποιο από αυτά είναι το πολυτονικό.
Όσο λιγότερο κλειστό λογισμικό έχεις, τόσα λιγότερα προβλήματα.
1 Γνώσεις ⇛ Linux: Καλό ┃ Προγραμματισμός: Ναι PHP, MySQL ┃ Αγγλικά: Καλά
2 Ubuntu 22.04 Jammy Jellyfish 5.15.0-58-generic 64bit (el_GR.UTF-8, ubuntu:GNOME ubuntu)
3 Intel Core i3-6100 CPU @ 3.70GHz ‖ RAM 7836 MiB ‖ Gigabyte B150M-HD3 DDR3-CF - Gigabyte B150M-HD3 DDR3
4 Intel HD Graphics 530 [8086:1912] {i915}
5 enp1s0: Realtek RTL8111/8168/8411 PCI Express Gigabit Ethernet Controller [10ec:8168] (rev 15)
Οδηγοί Ubuntu Βίντεο Οδηγοί
Άβαταρ μέλους
the_eye
Διαχειριστής
Διαχειριστής
 
Δημοσιεύσεις: 11671
Εγγραφή: 16 Μαρ 2010, 17:19
Launchpad: ntoulasd
IRC: the_eye_
Εκτύπωση

Re: Tesseract - πολυτονικό  Το θέμα επιλύθηκε

Δημοσίευσηαπό advocate » 29 Ιούλ 2019, 18:14

Εγκατέστησα το πολυτονικό με την επιλογή
Κώδικας: Επιλογή όλων
sudo apt-get install tesseract-ocr-all

Τώρα χρειάζομαι μια εντολή για ν' αφαιρέσω τις γλώσσες που δε χρειάζομαι χωρίς να δίνω μία προς μία
Γιαυτό αναρωτιόμουν μήπως με το + λειτουργεί, δηλ. να κάνω ένα κόπι - πέιστ σε όλες και να τις δώσω σε μία εντολή, αντί να τη δώσω 160 φορές.
Γνώσεις⇛Linux:Χαμηλό┃Προγραμματισμός:Όχι┃Αγγλικά:Καλά
laptop:Ubuntu 14.04.02 acer aspire Ε17
Προδιαγραφές⇛Intel® Celeron(R) CPU N2940 @ 1.83GHz × 4 │RAM 4.0GB DDR3│δε βρίσκω πληροφορίες GML│Wireless rtl8723be | Audio: Analog stereo duplex│Οθόνη: 1600x900
advocate
babeTUX
babeTUX
 
Δημοσιεύσεις: 142
Εγγραφή: 27 Φεβ 2010, 19:13
Εκτύπωση

Re: Tesseract - πολυτονικό

Δημοσίευσηαπό advocate » 08 Αύγ 2019, 21:55

Σήμερα μετέτρεψα ένα μονοτονικό κείμενο με OCR σε pdf κειμένου με την εντολή
Κώδικας: Επιλογή όλων
ocrmypdf -l ell+eng --tesseract-timeout 600 text_to_convert.pdf text_converted-ocr.pdf

και μου εμφάνισε και πολυτονικούς χαρακτήρες, δηλαδή με ψιλή και οξεία και με βαρεία

Αυτό σημαίνει ότι οι developers έχουν ενσωματώσει στο ell πολυτονικό και μονοτονικό, γι' αυτό και δεν το εύρηκα αυτοτελώς.
Τούτο είναι καλό και κακό, δηλ. εξυπηρετεί με την ίδια εντολή μονοτονικά και πολυτονικά κείμενα αλλά ερμηνεύει εσφαλμένα αμιγώς μονοτονικά κείμενα ως πολυτονικά.
Γνώσεις⇛Linux:Χαμηλό┃Προγραμματισμός:Όχι┃Αγγλικά:Καλά
laptop:Ubuntu 14.04.02 acer aspire Ε17
Προδιαγραφές⇛Intel® Celeron(R) CPU N2940 @ 1.83GHz × 4 │RAM 4.0GB DDR3│δε βρίσκω πληροφορίες GML│Wireless rtl8723be | Audio: Analog stereo duplex│Οθόνη: 1600x900
advocate
babeTUX
babeTUX
 
Δημοσιεύσεις: 142
Εγγραφή: 27 Φεβ 2010, 19:13
Εκτύπωση


Επιστροφή στο Εφαρμογές για Γραφείο / Γραφιστική / Επιστήμες

cron