Πρόβλημα με PDF στα Ελληνικά  Το θέμα επιλύθηκε

...εφαρμογές για οτιδήποτε άλλο

Συντονιστής: konnn

Πρόβλημα με PDF στα Ελληνικά

Δημοσίευσηαπό Icarus » 01 Αύγ 2009, 10:43

(δεν είμαι σίγουρος αν αυτή είναι η σωστή κατηγορία)

Λοιπόν,

έχω ένα αρχείο pdf στα Ελληνικά, από το οποίο θέλω να αντιγράψω τα περιεχόμενα για να τα χρησιμοποιήσω ως βάση ενός νέου document. Το θέμα είναι ότι από χθες που μου έδωσαν το αρχείο έχω δοκιμάσει ένα σωρό web υπηρεσίες και εφαρμογές σε windows και linux για να πάρω το Ελληνικό κείμενο χωρίς αποτέλεσμα. Είτε το κάνω copy, είτε export π.χ. σε rtf ή doc ή το κάνω upload π.χ. στο Google Docs, τα Ελληνικά εμφανίζονται ως ... κινέζικα. Να ένα δείγμα:


Óôçí ÁèÞíá óÞìåñá ôçí ......../..../ 2008 ïé õðïãñÜöïíôåò ôçí ðáñïýóá, áöåíüò ç áíþíõìç åôáéñßá ìå ôçí åðùíõìßá «ÅëëçíéêÞ Åôáéñåßá Ôçëåðéêïéíùíéþí êáé Ôçëåìáôéêþí Åöáñìïãþí Áíþíõìç Åôáéñåßá» êáé ôï äéáêñéôéêü ôßôëï «ÖÏÑÔíåô Á.Å.», ðïõ åäñåýåé óôá ÂáóéëéêÜ Âïõôþí Çñáêëåßïõ ÊñÞôçò (óôo Åðéóôçìïíéêü êáé Ôå÷íïëïãéêü ÐÜñêï - Ãñáöåßá ÁèÞíáò: Áôèßäùí 4, Ô.Ê. 176 71 ÊáëëéèÝá), Á.Ö.Ì., Ä.Ï.Õ. Á’ Çñáêëåßïõ êáé åêðñïóùðåßôáé íüìéìá ãéá ôçí õðïãñáöÞ ôçò ðáñïýóáò áðü ôïí ê.
....................................................., êáëïýìåíç óôï ðáñüí ÷Üñéí åõêïëßáò ç “Åôáéñßá”,

(όχι πολύ βοηθητικό).

Γνωρίζει κανείς κάποια εφαρμογή στην οποία όταν κάνω paste το κείμενο να μπορώ να της δηλώσω ότι αυτό το κείμενο είναι στα Ελληνικα; Ή γενικότερα κάποια άλλη λύση;

Με την ευκαιρία να γράψω ότι μία από τις δοκιμές που έκανα ήταν με την χρήση αυτού του εξαιρετικού extension για το Open Office (must have για κάθε χρήστη): http://extensions.services.openoffice.o ... /pdfimport

Άντε, βοηθήστε γιατί τελειώνω αυτό και παίρνω άδεια από την δουλειά :D
Γνώσεις ⇛ Linux: αρχάριος ┃ Προγραμματισμός: Όχι┃ Αγγλικά: Πολύ καλά
Λειτουργικό ⇛ Ubuntu 10.04 32bit σε Desktop H/Y με intel core 2 quad 9600 επεξεργαστή, 3GB DDR2 μνήμη, 750 GB σκληρό και 512 ΜΒ κάρτα γραφικών της nvidia.
Icarus
babeTUX
babeTUX
 
Δημοσιεύσεις: 32
Εγγραφή: 24 Μάιος 2009, 14:52
Εκτύπωση

Re: Πρόβλημα με PDF στα Ελληνικά  Το θέμα επιλύθηκε

Δημοσίευσηαπό linuxman » 01 Αύγ 2009, 12:42

Ναι είχα δοκιμάσει και εγώ κάτι τέτοια διάφορα , το κάνει αυτό κάπως καλά http://extensions.services.openoffice.o ... /pdfimport αν και κάθε γραμμή την βάσει σε περίγραμμα λες και είναι κείμενο στην παρουσίαση .
Κάποτε είχα δοκιμάσει δοκιμαστική έκδοση του FineReader 7.0 πρέπει να ήτανε και αυτό πολύ καλά το έβγαζε με λιγότερο πονοκέφαλο , μόνο το πρόγραμμα είναι μόνο για winblows :twisted:
Οδηγίες προς Νεοεισερχόμενους
1 Γνώσεις Linux: Πολύ καλό ┃ Προγραμματισμού: Ικανοποιητικό ┃ Αγγλικών: Ικανοποιητικό
2 Linux Mint 17.1 Rebecca 3.13.0-37-generic 64bit (el_GR.UTF-8, X-Cinnamon cinnamon)
3 Intel Core i5-2310M CPU @ 2.10GHz ‖ RAM 3866 MiB ‖ Dell Inc. 0D7C51 - Dell Inc. Dell System Vostro 3750
4 Intel 2nd Generation Core Processor Family Integrated Graphics [8086:0116] {i915}
5 wlan0: Intel Centrino Wireless-N 1030 [Rainbow Peak] [8086:008a] (rev 34) ⋮ eth0: Realtek RTL8111/8168/8411 PCI Express Gigabit Ethernet Controller [10ec:8168] (rev 06)
http://www.greeklug.gr
Άβαταρ μέλους
linuxman
Επίτιμο μέλος
Επίτιμο μέλος
 
Δημοσιεύσεις: 10378
Εγγραφή: 10 Μάιος 2008, 20:41
Τοποθεσία: Thessaloniki / Macedonia / Greece
Εκτύπωση

Re: Πρόβλημα με PDF στα Ελληνικά

Δημοσίευσηαπό Icarus » 01 Αύγ 2009, 14:11

Με έσωσες! Δοκίμασα ότι βρήκα στην Google και δεν μου έκοψε για OCR. To Read Iris έκανε ήδη ότι έπρεπε 8-)

Με την ευκαιρία, υπάρχει OCR εφαρμογή στο Linux, η οποία να αναγνωρίζει και Ελληνικούς χαρακτήρες;

Και πάλι ευχαριστώ.

:thumbup:
Γνώσεις ⇛ Linux: αρχάριος ┃ Προγραμματισμός: Όχι┃ Αγγλικά: Πολύ καλά
Λειτουργικό ⇛ Ubuntu 10.04 32bit σε Desktop H/Y με intel core 2 quad 9600 επεξεργαστή, 3GB DDR2 μνήμη, 750 GB σκληρό και 512 ΜΒ κάρτα γραφικών της nvidia.
Icarus
babeTUX
babeTUX
 
Δημοσιεύσεις: 32
Εγγραφή: 24 Μάιος 2009, 14:52
Εκτύπωση

Re: Πρόβλημα με PDF στα Ελληνικά

Δημοσίευσηαπό linuxman » 01 Αύγ 2009, 16:19

Icarus έγραψε:Με έσωσες! Δοκίμασα ότι βρήκα στην Google και δεν μου έκοψε για OCR. To Read Iris έκανε ήδη ότι έπρεπε 8-)

Με την ευκαιρία, υπάρχει OCR εφαρμογή στο Linux, η οποία να αναγνωρίζει και Ελληνικούς χαρακτήρες;

Και πάλι ευχαριστώ.

:thumbup:

Finereader είναι ότι καλύτερο υπάρχει .
Για Λίνουξ , υπάρχουν κάποια άλλα ακόμα δεν είναι και ότι καλύτερο .
Δεν έχω δοκιμάσει κιόλας οπότε δεν μπορώ να σου πω σίγουρα .
Οδηγίες προς Νεοεισερχόμενους
1 Γνώσεις Linux: Πολύ καλό ┃ Προγραμματισμού: Ικανοποιητικό ┃ Αγγλικών: Ικανοποιητικό
2 Linux Mint 17.1 Rebecca 3.13.0-37-generic 64bit (el_GR.UTF-8, X-Cinnamon cinnamon)
3 Intel Core i5-2310M CPU @ 2.10GHz ‖ RAM 3866 MiB ‖ Dell Inc. 0D7C51 - Dell Inc. Dell System Vostro 3750
4 Intel 2nd Generation Core Processor Family Integrated Graphics [8086:0116] {i915}
5 wlan0: Intel Centrino Wireless-N 1030 [Rainbow Peak] [8086:008a] (rev 34) ⋮ eth0: Realtek RTL8111/8168/8411 PCI Express Gigabit Ethernet Controller [10ec:8168] (rev 06)
http://www.greeklug.gr
Άβαταρ μέλους
linuxman
Επίτιμο μέλος
Επίτιμο μέλος
 
Δημοσιεύσεις: 10378
Εγγραφή: 10 Μάιος 2008, 20:41
Τοποθεσία: Thessaloniki / Macedonia / Greece
Εκτύπωση

Re: Πρόβλημα με PDF στα Ελληνικά

Δημοσίευσηαπό matthew » 27 Οκτ 2014, 16:47

Καλησπέρα! Αντιμετωπίζω το ίδιο θέμα με ένα pdf που κατέβασα από εδώ http://www.eugenfound.edu.gr/frontoffic ... c2c9df81db
Το μισό pdf μέχρι & τη σελίδα 217 δεν διαβάζεται :problem: & το υπόλοιπο είναι εντάξει. Το πρόβλημα είναι πως να αλλάξω την κωδικοποίηση από ansi σε utf-8. Στην αρχή έκανα αυτό εδώ viewtopic.php?f=9&t=24466 γιατί όταν πήγα να το ανοίξω με το pdf mod ζητούσε κωδικό. Το pdf mod δεν μπορεί να αλλάξει κωδικοποίηση. Από εδώ & πέρα δεν ξέρω τι να κάνω. :? Διάβασα κάποια πράγματα στο ίντερνετ σχετικά με κάποια προγράμματα (dos2unix, recode, iconv κλπ) αλλά δεν ξέρω πως δουλεύουν στο τερματικό & αν κάνουν δουλειά. Όποια ιδέα ευπρόσδεκτη παιδιά!
Γνώσεις Linux: Βασικές ┃ Προγραμματισμός: Όχι ┃ Αγγλικά: Καλά
Ubuntu Mate 20.04 64-bit σε Fujitsu Amilo Xi3670 & HP Compaq 6910p
Άβαταρ μέλους
matthew
saintTUX
saintTUX
 
Δημοσιεύσεις: 1319
Εγγραφή: 25 Αύγ 2008, 01:35
Εκτύπωση

Re: Πρόβλημα με PDF στα Ελληνικά

Δημοσίευσηαπό sotos21 » 27 Οκτ 2014, 18:58

matthew έγραψε:γιατί όταν πήγα να το ανοίξω με το pdf mod ζητούσε κωδικό.

Πάτα απλά "Εντάξει"
1 Γνώσεις Linux: Πρώτα βήματα ┃ Προγραμματισμού: Καθόλου ┃ Αγγλικών: Καθόλου
2 Ubuntu 23.10 Mantic Minotaur 6.3.0-7-generic 64bit (el_GR.UTF-8, Unity:Unity7:ubuntu unity)
3 AMD Ryzen 7 7730U with Radeon Graphics ‖ RAM 15368 MiB ‖ASUS TN3604YA - ASUS Vivobook_S_Flip TN3604YA_TN3604YA
4 Advanced Micro Devices, Inc. [AMD/ATI] Barcelo [1002:15e7] {amdgpu}
5 wlp1s0: MEDIATEK Corp. Device [14c3:7922]
Άβαταρ μέλους
sotos21
Freedom
Freedom
 
Δημοσιεύσεις: 6302
Εγγραφή: 21 Φεβ 2011, 21:28
Τοποθεσία: Αθήνα
Εκτύπωση

Re: Πρόβλημα με PDF στα Ελληνικά

Δημοσίευσηαπό matthew » 28 Οκτ 2014, 01:05

Μετά από αυτό που έκανα που γράφει στο link ο MaR1oC το άνοιξα με το pdf mod αλλά όπως είπα δεν μπορεί να αλλάξει την κωδικοποίηση. Χρειάζεται πιο εξειδικευμένα προγράμματα γι' αυτό. Το μόνο που κατάφερα ήταν να ανοίξω καταλάθος το pdf με το imagemagick & να γεμίσει σχεδόν η ram & το μισό swap στο σύστημα! Δεν πειράζει, θα το παλέψω άλλη φορά αν βρεθεί κάποιος τρόπος. Απλά ήταν το πρώτο pdf που μου έτυχε να δείχνει ιερογλυφικά σε gnu/linux.
Γνώσεις Linux: Βασικές ┃ Προγραμματισμός: Όχι ┃ Αγγλικά: Καλά
Ubuntu Mate 20.04 64-bit σε Fujitsu Amilo Xi3670 & HP Compaq 6910p
Άβαταρ μέλους
matthew
saintTUX
saintTUX
 
Δημοσιεύσεις: 1319
Εγγραφή: 25 Αύγ 2008, 01:35
Εκτύπωση

Re: Πρόβλημα με PDF στα Ελληνικά

Δημοσίευσηαπό stavrosLinux » 29 Οκτ 2014, 22:51

Ο κωδικός δεν αποτελεί σοβαρό πρόβλημα

Spoiler: show
gs -q -dNOPAUSE -dBATCH -sDEVICE=pdfwrite -sOutputFile=unencrypted.pdf -c .setpdfwrite -f encrypted.pdf
Επ. Γνώσεων: Linux, Μέτριο┃ Προγρ/σμός, Όχι ┃ Αγγλικά, Kαλά
PC's: i) Lubuntu 13.10 @ Lenovo G550 "Droopy" broadcom BCM4312 {PCI-ID 14e4:4315} Intel GMA 4500MHD
ii) CentOS 6.4 @ "Speedy Gonzales" Core2duo E6400 2.13 Gz, ATI Radeon X1950 (free driver)
iii) Lubuntu 13.10 @ "monkey" Pentium D 3.40 GHZ, NV44 [GeForce 6200 LE](rev a1)
Άβαταρ μέλους
stavrosLinux
saintTUX
saintTUX
 
Δημοσιεύσεις: 1319
Εγγραφή: 26 Νοέμ 2008, 19:20
Τοποθεσία: Μυτιλήνη
Εκτύπωση

Re: Πρόβλημα με PDF στα Ελληνικά

Δημοσίευσηαπό stavrosLinux » 29 Οκτ 2014, 23:47

το επόμενο βήμα είναι να βρεις ένα μηχάνημα με micro$oft "κάτι παλιό όπως XP ή 98" και να το ανοίξεις με το http://portableapps.com/apps/office/pdf ... e-portable
Από εκεί θα κάνεις export to image όλες τις σελίδες και θα έχεις ένα κάρο εικόνες. Το καλό είναι ότι μπορείς να τις μετατρέψεις σε pdf και μετά να τις ενώσεις σε ένα pdf το οποίο πλέον θα έχει μόνο εικόνες και θα διαβάζεται παντού. Το μέγεθος του τελικού pdf θα είναι της τάξης των εκατοντάδων MB..
Επ. Γνώσεων: Linux, Μέτριο┃ Προγρ/σμός, Όχι ┃ Αγγλικά, Kαλά
PC's: i) Lubuntu 13.10 @ Lenovo G550 "Droopy" broadcom BCM4312 {PCI-ID 14e4:4315} Intel GMA 4500MHD
ii) CentOS 6.4 @ "Speedy Gonzales" Core2duo E6400 2.13 Gz, ATI Radeon X1950 (free driver)
iii) Lubuntu 13.10 @ "monkey" Pentium D 3.40 GHZ, NV44 [GeForce 6200 LE](rev a1)
Άβαταρ μέλους
stavrosLinux
saintTUX
saintTUX
 
Δημοσιεύσεις: 1319
Εγγραφή: 26 Νοέμ 2008, 19:20
Τοποθεσία: Μυτιλήνη
Εκτύπωση

Re: Πρόβλημα με PDF στα Ελληνικά

Δημοσίευσηαπό matthew » 30 Οκτ 2014, 04:57

Αν είναι έτσι δεν αξίζει μετά τον κόπο Σταύρο. & να πεις ότι είναι 5-10 σελίδες, άντε εντάξει. Αλλά μιλάμε για πάνω από 200 σελίδες που είναι σε winansi από τις 480 στο σύνολο. :think: Το πιο πιθανό είναι το pdf να είναι συνένωση 2 άλλων pdf με διαφορετική κωδικοποίηση χαρακτήρων (character encoding) το καθένα. Όπως & να έχει, δεν επείγει το θέμα μιας & περισσότερο τα μαζεύω αυτά τα pdf για αρχειοθήκη. Οπότε δεν τρέχει κάτι σοβαρό. Πάντως όταν το φόρτωσα καταλάθος στο imagemagick το σύστημα συνέχισε να τρέχει κανονικά χωρίς κολλήματα & αν δεν έτρεχα παρακολούθηση συστήματος & htop δεν θα καταλάβαινα τη μεγάλη κατανάλωση σε μνήμη & swap.

Γνώσεις Linux: Βασικές ┃ Προγραμματισμός: Όχι ┃ Αγγλικά: Καλά
Ubuntu Mate 20.04 64-bit σε Fujitsu Amilo Xi3670 & HP Compaq 6910p
Άβαταρ μέλους
matthew
saintTUX
saintTUX
 
Δημοσιεύσεις: 1319
Εγγραφή: 25 Αύγ 2008, 01:35
Εκτύπωση


  • ΣΧΕΤΙΚΑ ΘΕΜΑΤΑ
    ΑΠΑΝΤΗΣΕΙΣ
    ΠΡΟΒΟΛΕΣ
    ΣΥΓΓΡΑΦΕΑΣ

Επιστροφή στο Εφαρμογές Άλλες-Διάφορες