Website text extraction

...εφαρμογές για οτιδήποτε άλλο

Συντονιστής: konnn

Re: Website text extraction

Δημοσίευσηαπό jim.christou » 13 Οκτ 2010, 00:17

Καλησπερα και παλι

μπηκα εκει και προσπαθησα να βρω ακρη μου ειπαν και αυτοι οτι και στο προηγουμενο λινκ που σου εδωσα οταν τους ειπα οτι αυτο δεν ελυσε το προβλημα δεν με βοηθησανε σε τπτ αλλο παρα μονο να μου πουν να μην χρησημοποιω το wget αλλα το WWW::Mechanize απο την perl, τιποτα αλλο.
πιγα στο #perl αλλα εκει και παλι κανεισ δεν ενανε τον κοπο να απαντησει. Που και παλι δεν λυνετε το προβλημα με το να γραψω ελληνικα στο νανο και να αποθηκευσω το αρχειο.

Εχουμε ξεφύγει απο το αρχικό στοχο μας απλα αν υπαρχει καποια αλλη ιδεα να δοκιμασω θα το εκτιμουσα και αυτο.

Ευχαριστω.
jim.christou
babeTUX
babeTUX
 
Δημοσιεύσεις: 55
Εγγραφή: 17 Ιουν 2009, 16:13
Εκτύπωση

Re: Website text extraction

Δημοσίευσηαπό medigeek » 13 Οκτ 2010, 13:07

Το mechanize δε χρειάζεται για τόσο απλές μετατροπές. Αν και θα ήταν σωστό, θα ήταν άσκοπο.

Για να δοκιμάσουμε με κάτι άλλο εκτός από wget.
Εγκατέστησε στο centos το πακέτο για την εντολή curl.
Μετά εκτέλεσε:
Κώδικας: Επιλογή όλων
curl -s 'http://www.metar.gr/?option=com_jumi&fileid=12&Itemid=73&station=1353' | grep BF
Κύπριος; Κόπιασε στο ubuntu-cy! ┃ Launchpad Debian Github
Οδηγός για νεοεισερχόμενους -- Αρχικές οδηγίες για αρχάριους χρήστες του Ubuntu

1 Γνώσεις Linux: Πολύ καλό ┃ Προγραμματισμού: Πολύ καλό ┃ Αγγλικών: Πολύ καλό
2 Ubuntu 12.10 quantal 3.5.0-21-generic 64bit (en_US.UTF-8, GNOME cinnamon2d), Ubuntu 3.5.0-19-generic, Windows 7
3 Intel Core2 Duo CPU E6550 2.33GHz ‖ RAM 5970 MiB ‖ MSI MS-7235
4 nVidia G73 [GeForce 7300 GT] [10de:0393] {nvidia}
5 eth0: Realtek RTL-8110SC/8169SC Gigabit Ethernet [10ec:8167] (rev 10)
Άβαταρ μέλους
medigeek
Freedom
Freedom
 
Δημοσιεύσεις: 5023
Εγγραφή: 24 Μάιος 2008, 14:49
Τοποθεσία: Σερβία/Κύπρος
Launchpad: medigeek
IRC: savvas
Εκτύπωση

Re: Website text extraction

Δημοσίευσηαπό jim.christou » 14 Οκτ 2010, 00:05

Και για αλλη μια φορα
Κώδικας: Επιλογή όλων

[root@elastix ~]# curl -s 'http://www.metar.gr/?option=com_jumi&fileid=12&Itemid=73&station=1353' | grep BF
<table width="40" height="40" border="0" cellpadding="0" cellspacing="0" align="center"><tr><td width="40" height="40" align="center" style="background-image: url('/000/icons/BF/1.gif'); background-repeat:no-repeat;"><a href="#" title="ΞΟΟΞ΅ΞΉΞΏΟ - 1 BF"><img border="0" src="/000/icons/WIND/360.gif" width="40" height="40"></a></td></tr></table>

κατι φταιει με το centos αλλα δεν μπορω να το κανω να δουλεψει.

δοκιμασα αυτο
Κώδικας: Επιλογή όλων
Edit /root/.bash_profile
Add the line export LANG=el

μετατρεπει ολο το συστημα στα ελληνικα και αφου δεν τα υποστηριζει μου εβγαζε παλι αλαμπουρνεζικα.
καπου βρηκα οτι θελει και fonts... και να φτιαξω ενα αρχειο με
Κώδικας: Επιλογή όλων
τα Ελληνικά στην κονσόλα μπαίνουν και με τις εξής εντολές που μπορείς να τις βάλεις σε ένα αρχείο (στο /usr/bin) το οποίο και καλείς από την γραμμή εντολών (π.χ. startgr):

[code]# !/bin/bash
export LC_ALL=el_GR.ISO-8859-7
setfont iso07u-16 -m trivial
echo -en "\033(K"

οπου θα το τρεχω σε καθε εκκινηση.

το προβλημα ομως παραμενει και με το wget και με το curl.
Τι αλλο να δοκιμασω...
jim.christou
babeTUX
babeTUX
 
Δημοσιεύσεις: 55
Εγγραφή: 17 Ιουν 2009, 16:13
Εκτύπωση

Re: Website text extraction

Δημοσίευσηαπό medigeek » 14 Οκτ 2010, 08:48

Είσαι σίγουρος πως τρέχεις το τελευταίο centos 5.5;
Κώδικας: Επιλογή όλων
cat /etc/redhat-release


Κάτι λεει εδώ για centos 4.2 και το multi language στο console:
http://nixcraft.com/linux-software/771- ... pport.html
Κύπριος; Κόπιασε στο ubuntu-cy! ┃ Launchpad Debian Github
Οδηγός για νεοεισερχόμενους -- Αρχικές οδηγίες για αρχάριους χρήστες του Ubuntu

1 Γνώσεις Linux: Πολύ καλό ┃ Προγραμματισμού: Πολύ καλό ┃ Αγγλικών: Πολύ καλό
2 Ubuntu 12.10 quantal 3.5.0-21-generic 64bit (en_US.UTF-8, GNOME cinnamon2d), Ubuntu 3.5.0-19-generic, Windows 7
3 Intel Core2 Duo CPU E6550 2.33GHz ‖ RAM 5970 MiB ‖ MSI MS-7235
4 nVidia G73 [GeForce 7300 GT] [10de:0393] {nvidia}
5 eth0: Realtek RTL-8110SC/8169SC Gigabit Ethernet [10ec:8167] (rev 10)
Άβαταρ μέλους
medigeek
Freedom
Freedom
 
Δημοσιεύσεις: 5023
Εγγραφή: 24 Μάιος 2008, 14:49
Τοποθεσία: Σερβία/Κύπρος
Launchpad: medigeek
IRC: savvas
Εκτύπωση

Re: Website text extraction

Δημοσίευσηαπό jim.christou » 14 Οκτ 2010, 10:44

Κώδικας: Επιλογή όλων
# cat /etc/redhat-release
CentOS release 5.5 (Final)

δοκιμασα και αυτα που λεει στο link που μου εδωσες αλλα τζιφος.
jim.christou
babeTUX
babeTUX
 
Δημοσιεύσεις: 55
Εγγραφή: 17 Ιουν 2009, 16:13
Εκτύπωση

Re: Website text extraction

Δημοσίευσηαπό medigeek » 15 Οκτ 2010, 01:42

Βρήκα την απάντηση από Fedora χρήστες:
http://www.g-loaded.eu/2005/09/30/chang ... in-fedora/
http://fedoraproject.org/wiki/L10N_Greek_Team_Issues

Ανοίγεις το αρχείο /etc/sysconfig/i18n:
Κώδικας: Επιλογή όλων
nano /etc/sysconfig/i18n


Με τα πληκτρα πανω-κατω-δεξια-αριστερα μπορείς να κινηθείς για να αλλάξεις το κείμενο.

Βρες τη γραμμή με "SYSFONT" και κάνε την:
Κώδικας: Επιλογή όλων
SYSFONT="iso07u-16"


Με το συνδυασμό CTRL+X και πιέζοντας "y" σώζεις και κλείνεις το nano πρόγραμμα.

Μετά:
Κώδικας: Επιλογή όλων
exit


login ξανά και θα πρέπει να δουλέψει.

Off topic:
Αν δε δουλέψει (πράγμα απίθανο, επειδή μόλις το δοκιμασα με ένα φίλο μου, μιλάμε για centos server υπό πληρωμή; Γιατί δε ρωτάς κάποιον από το τμήμα που σου παρέχει web hosting για βοήθεια;
Κι αν δε σε βοηθάνε, υπάρχει και ubuntu server και... καλωσόρισες στην παρέα :P
Κύπριος; Κόπιασε στο ubuntu-cy! ┃ Launchpad Debian Github
Οδηγός για νεοεισερχόμενους -- Αρχικές οδηγίες για αρχάριους χρήστες του Ubuntu

1 Γνώσεις Linux: Πολύ καλό ┃ Προγραμματισμού: Πολύ καλό ┃ Αγγλικών: Πολύ καλό
2 Ubuntu 12.10 quantal 3.5.0-21-generic 64bit (en_US.UTF-8, GNOME cinnamon2d), Ubuntu 3.5.0-19-generic, Windows 7
3 Intel Core2 Duo CPU E6550 2.33GHz ‖ RAM 5970 MiB ‖ MSI MS-7235
4 nVidia G73 [GeForce 7300 GT] [10de:0393] {nvidia}
5 eth0: Realtek RTL-8110SC/8169SC Gigabit Ethernet [10ec:8167] (rev 10)
Άβαταρ μέλους
medigeek
Freedom
Freedom
 
Δημοσιεύσεις: 5023
Εγγραφή: 24 Μάιος 2008, 14:49
Τοποθεσία: Σερβία/Κύπρος
Launchpad: medigeek
IRC: savvas
Εκτύπωση

Re: Website text extraction

Δημοσίευσηαπό jim.christou » 15 Οκτ 2010, 08:26

Διστυχως...
Κώδικας: Επιλογή όλων
wget -q 'http://www.metar.gr/?option=com_jumi&fileid=12&Itemid =73&station=1353' -O - | perl -e '
> @in={};
> @wind={};
> $i=1;
> while (<>) {
> if (m#(.*)Β°C#i) {
> $in[$i]=$1;
};
> $i+=1;
> } elsif (m#(.*) km/h - (.*) Bf#i) {
> $wind[1]=$1;
> $wind[2]=$2;
> } elsif (m#(.*) km/h - (.*) Bf#i) {
> $wind[1]=$1;
> $wind[2]=$2;
> } elsif (m#title="(.*) - [0-9] BF"><img border="0" src="/000/icons/WIND#i) {
> $wdirec[1]=$1;
> } elsif (m#title="(.*)"><img border="0" src="/000/icons/CONDITIONS#i) {
> $condit[1]=$1;
> };
> };
> print("Η Θερμοκρασία είναι: $in[1] Βαθμούς Κελσίου.\nμε Μέγιστη θερμοκρασία $i n[2] Βαθμούς Κελσίου.\nκαι Ελάχιστη: $in[3] Βαθμούς Κελσίου.\n");
> print("Η ταχύτητα του ανέμου είναι: $wind[1] χιλιόμετρα την ώρα ή αλλιώς $wind [2] Μποφόρ.\n");
> print("Με κατεύθυνση: $wdirec[1] \n");
> print("Η κατάσταση του καιρού είναι: $condit[1].\n");' > myfile.txt
[root@elastix ~]# cat myfile.txt
Η Θερμοκρασία είναι: 18.7 Βαθμούς Κελσίου.
με Μέγιστη θερμοκρασία 25.8 Βαθμούς Κελσίου.
και Ελάχιστη: 18.7 Βαθμούς Κελσίου.
Η ταχύτητα του ανέμου είναι: 0.0 χιλιόμετρα την ώρα ή αλλιώς 0 Μποφόρ.
Με κατεύθυνση: Ξ
Η κατάσταση του καιρού είναι: ΞΞΊΟ
ΟΟ ΞΞΉΞΊΟ ΞΏΟ
. Ο


δεν ξερω γιατι γιωετε σε εμενα...
έγραψε:Off topic:
Αν δε δουλέψει (πράγμα απίθανο, επειδή μόλις το δοκιμασα με ένα φίλο μου, μιλάμε για centos server υπό πληρωμή; Γιατί δε ρωτάς κάποιον από το τμήμα που σου παρέχει web hosting για βοήθεια;
Κι αν δε σε βοηθάνε, υπάρχει και ubuntu server και... καλωσόρισες στην παρέα


δεν μου παρεχουν webhosting. ειναι ενα server με asterisk που το εχω για τηλεφωνικο κεντρο.
ο λογος που δεν εχω ηδη βαλει ubuntu ειναι οτι ειναι ετοιμο Distro με πολλα functions και θα ετρογα τον 10πλασιο χρονο για να το κανω να δουλεψει αν τα εβαζα ενα ενα.
jim.christou
babeTUX
babeTUX
 
Δημοσιεύσεις: 55
Εγγραφή: 17 Ιουν 2009, 16:13
Εκτύπωση

Re: Website text extraction

Δημοσίευσηαπό medigeek » 15 Οκτ 2010, 10:20

Είχες μερικά λάθη στον κώδικα σου. Και προτίμησε το curl αφού υπάρχει:
Κώδικας: Επιλογή όλων
curl -s 'http://www.metar.gr/?option=com_jumi&fileid=12&Itemid=73&station=1353' | perl -e '
@in={};
@wind={};
$i=1;
while (<>) {
if (m#(.*) °C#i) {
$in[$i]=$1;
$i += 1;
} elsif (m#(.*) km/h - (.*) Bf#i) {
$wind[1]=$1;
$wind[2]=$2;
} elsif (m#(.*) km/h - (.*) Bf#i) {
$wind[1]=$1;
$wind[2]=$2;
} elsif (m#title="(.*) - [0-9] BF"><img border="0" src="/000/icons/WIND#i) {
$wdirec[1]=$1;
} elsif (m#title="(.*)"><img border="0" src="/000/icons/CONDITIONS#i) {
$condit[1]=$1;
};
};
print("Η Θερμοκρασία είναι: $in[1] Βαθμούς Κελσίου.\nμε Μέγιστη θερμοκρασία $in[2] Βαθμούς Κελσίου.\nκαι Ελάχιστη: $in[3] Βαθμούς Κελσίου.\n");
print("Η ταχύτητα του ανέμου είναι: $wind[1] χιλιόμετρα την ώρα ή αλλιώς $wind[2] Μποφόρ.\n");
print("Με κατεύθυνση: $wdirec[1] \n");
print("Η κατάσταση του καιρού είναι: $condit[1].\n");' > myfile.txt


έγραψε:Η Θερμοκρασία είναι: 18.7 Βαθμούς Κελσίου.
με Μέγιστη θερμοκρασία 25.8 Βαθμούς Κελσίου.
και Ελάχιστη: 18.7 Βαθμούς Κελσίου.
Η ταχύτητα του ανέμου είναι: 0.0 χιλιόμετρα την ώρα ή αλλιώς 0 Μποφόρ.
Με κατεύθυνση: Νοτιοδυτικός
Η κατάσταση του καιρού είναι: Εκτός Δικτύου.


Για να το χρησιμοποιήσεις στο centos το έβαλα στο pastebin οπόταν εκτελείς:
Κώδικας: Επιλογή όλων
wget "http://pastebin.ubuntu-gr.org/pastebin.php?dl=f33324147" -O script.sh
bash script.sh
cat myfile.txt


Στο centos που εγκατέστησα ψες δουλεύει:
Εικόνα
Από εδώ και πέρα είσαι μόνος σου. :) :clap:
Κύπριος; Κόπιασε στο ubuntu-cy! ┃ Launchpad Debian Github
Οδηγός για νεοεισερχόμενους -- Αρχικές οδηγίες για αρχάριους χρήστες του Ubuntu

1 Γνώσεις Linux: Πολύ καλό ┃ Προγραμματισμού: Πολύ καλό ┃ Αγγλικών: Πολύ καλό
2 Ubuntu 12.10 quantal 3.5.0-21-generic 64bit (en_US.UTF-8, GNOME cinnamon2d), Ubuntu 3.5.0-19-generic, Windows 7
3 Intel Core2 Duo CPU E6550 2.33GHz ‖ RAM 5970 MiB ‖ MSI MS-7235
4 nVidia G73 [GeForce 7300 GT] [10de:0393] {nvidia}
5 eth0: Realtek RTL-8110SC/8169SC Gigabit Ethernet [10ec:8167] (rev 10)
Άβαταρ μέλους
medigeek
Freedom
Freedom
 
Δημοσιεύσεις: 5023
Εγγραφή: 24 Μάιος 2008, 14:49
Τοποθεσία: Σερβία/Κύπρος
Launchpad: medigeek
IRC: savvas
Εκτύπωση

Re: Website text extraction

Δημοσίευσηαπό jim.christou » 18 Οκτ 2010, 15:55

Σε ευχαριστω και συγνωμη για την καθυστερημένη απαντηση.

Δεν εχει λειτουργήσει ακόμη αλλα θα το ψαξω κι αλλο. Σε περιπτωση που καποιος θελει να πειραματιστει με το distro που πολεμαω τοσο καιρο, ασ εγκαταστήσει σε ενα ωμ το elastix 1.6. Αυτο ειναι το Centos που δεν γραφει (αλλα μιλάει) ελληνικα. (εντως των ημερων θα postαρω σε αλλο theread πως τον εκανα να μιλήσει τουλαχιστον)

Οταν βρω την λυση θα την δημοσιεύσω εδω μηπως καποιος την χρειαστεί.

@medigeek: αν και δεν εχω καταφερει ακομα τπτ σε ευχαριστω για την πολύτιμη βοηθειά σου.
jim.christou
babeTUX
babeTUX
 
Δημοσιεύσεις: 55
Εγγραφή: 17 Ιουν 2009, 16:13
Εκτύπωση

Re: Website text extraction

Δημοσίευσηαπό medigeek » 18 Οκτ 2010, 16:50

Είσαι σίγουρος ότι έχεις βάλει σωστά το font;
Εικόνα
Κύπριος; Κόπιασε στο ubuntu-cy! ┃ Launchpad Debian Github
Οδηγός για νεοεισερχόμενους -- Αρχικές οδηγίες για αρχάριους χρήστες του Ubuntu

1 Γνώσεις Linux: Πολύ καλό ┃ Προγραμματισμού: Πολύ καλό ┃ Αγγλικών: Πολύ καλό
2 Ubuntu 12.10 quantal 3.5.0-21-generic 64bit (en_US.UTF-8, GNOME cinnamon2d), Ubuntu 3.5.0-19-generic, Windows 7
3 Intel Core2 Duo CPU E6550 2.33GHz ‖ RAM 5970 MiB ‖ MSI MS-7235
4 nVidia G73 [GeForce 7300 GT] [10de:0393] {nvidia}
5 eth0: Realtek RTL-8110SC/8169SC Gigabit Ethernet [10ec:8167] (rev 10)
Άβαταρ μέλους
medigeek
Freedom
Freedom
 
Δημοσιεύσεις: 5023
Εγγραφή: 24 Μάιος 2008, 14:49
Τοποθεσία: Σερβία/Κύπρος
Launchpad: medigeek
IRC: savvas
Εκτύπωση

ΠροηγούμενηΕπόμενο

Επιστροφή στο Εφαρμογές Άλλες-Διάφορες