Δημοσιεύτηκε: 03 Αύγ 2008, 03:52
από kalakouentin
Αρκετοί από εμάς είναι/ήμασταν φοιτητές και τους ενδιαφέρει η στατιστική/οικονομετρική ανάλυση δεδομένων. Άρχισα από Windows με StatGraphics, MiniTab και SPSS αλλά τον τελευταίο ένα χρόνο χρησιμοποιώ μονάχα Linux και έτσι όλες οι εφαρμογές που εκμεταλλεύομαι εμπίπτουν στην κατηγορία F/OSS. Το ακόλουθο άρθρο ΔΕΝ έπικεντρώνεται σε πακέτα για Numerical Analysis (πχ. MatLab, Octave, SciLab etc.). Θέμα του άρθρου είναι το Statistical Computing και όποια πακέτα λογισμικού παρουσιάζονται παρακάτω, κρίθηκαν με βάση αυτό το αντικείμενο.

1. R. (ή S-Plus) Είναι ένα εξαιρετικά διαδεδομένο πρόγραμμα με πολυάριθμες λειτουργίες. Σχεδόν όποιο στατιστικό test ή διεργασία θέλετε το R την έχει, αφού με σχεδόν 1500 επιπλέον πακέτα είναι δύσκολο να ξεφύγει κάποια! Επίσης είναι αρκετά εύκολο να ορίσεις και δικές σου function ώστε να υλοποιηθούν συγκεκριμένες διεργασίες με μεγαλύτερη διαφάνεια και κατανόηση από το χρήστη. Δυστυχώς είναι συχνά στρυφνό, και ενίοτε αργό, αλλά given time and patience κάνει παπάδες. Επίσης ΜΕΡΙΚΟΙ θεωρούν ότι κάνει και ωραία γραφήματα. Προσωπικά τα θεωρώ απαράδεκτα αλλά ΟΚ... Έχουν βγει κάποια gui τα οποία όμως από πολλούς θεωρούνται ανεπαρκή (εως απαράδεκτα) και ως αποτέλεσμα η σοβαρή δουλειά γίνεται σε κονσόλα. Αξιοσημείωτη είναι η κοινότητα του, που παρέχει πολλές και εξειδικευμένες συμβουλές.
(1i. Bioconductor. Τιμής ένεκεν αναφορά. "Αdd-on" κτηνώδες και απίστευτα εξειδικευμένο πακέτα για αναλύσεις βιολογικών δεδομένων μέσω R. Στα Βioinformatics παίζει μόνο του. Ότι καλύτερο, όχι για τους μη μυημένους αλλά αν θέλεις να αναλύσεις κάτι... κάντο σωστά...)
website: R -> http://www.r-project.org/ , Bioconductor -> http://www.bioconductor.org/
license: R -> GNU General Public License Version 2 , Bioconductor -> Artistic License 2.0

Εικόνα

2. Gretl. (ή Gnu Regression, Econometrics and Time-series Library και με σήμα το κοριτσάκι!) Απίθανο. Εύχρηστο, γρήγορο, και με gui που δουλεύει άψογα το πνευματικό παιδάκι του Allin Cottrell είναι εξαιρετικό για οικονομετρικές αναλύσεις. Χωλαίνει μερικώς στα cross-sectional data αλλά ακόμα και τότε εντυπωσιάζει με την ταχύτητα και την σταθερότητα του. Α! To Gretl όντως έχει ωραία γραφήματα τα οποία παράγει κατόπιν άψογης συνεργασίας με το gnuplot. (Δεν χρειάζεται να γράψετε ποτέ γραμμή στο gnuplot οι ίδιοι εκτός και αν το θελήσετε για αποσταθεροποιήσετε το γράφημα περαιτέρω) Επίσης με ενεργή κοινότητα (κυριώς με mail-listings που είναι άπειρα) άρα πολλές ερωτήσεις απαντιούνται. Από προγραμματιστικής άποψης : C και GTK στα καλύτερα τους! :D Μεγάλο του ατού είναι ότι χάρη στην εξαιρετική δομή του και το καλό interface πολλά tutorial και για άλλα προγράμματα μπορούν να υλοποιηθούν στο GretL άνετα.
website: Gretl -> http://gretl.sourceforge.net
license: Gretl -> GNU General Public License Version 3

Εικόνα

3. Gnumeric. Αν και ξεκίνησε ως spreadsheet ως αντίπαλος του excel πήρε έναν πιο "τεχνικό" δρόμο με κάποιες προσπάθειες για να αποκτήσει κάποιες λίγο πιο εξειδικευμένες λειτουργίες. Εύχρηστο, όχι κάτι απίστευτο αλλά αν θες να δεις ένα trend στα γρήγορα ή να κάνεις plotάκι, it can be fun. Μερικές φορές επιφανειακό και εφετζίδικο δένοντας τον χρήστη με κάποιες επιλογές του. Το όλο project άρχισε από τον Miguel de Icaza. Γίνονται προσπάθειες με συνεργασία με την κοινότητα του R για να βελτιωθεί η ακρίβια του όλου project αλλά δεν ξέρω κατά πόσο ευδοκιμούν (και σε τί αποσκοπούν)....
website: Gnumeric -> http://gnome.org/projects/gnumeric/
license: Gnumeric -> GNU General Public License Version 2

Εικόνα

4. SciPy/matplotlib. Όπως λέει και το site "SciPy (pronounced "Sigh Pie") is open-source software for mathematics, science, and engineering." Γιατί SciPy και όχι κάτι άλλο? Γιατί πολύ απλα η Python είναι ΠΟΛΥ ΑΠΛΗ. Εγώ μονάχα C/C++ έγραφα άντε και λίγο PHP και η Python μου βγήκε πανεύκολη. Δοκιμάστε την. Θα εκπλαγείτε που με λίγη προσοχή θα υλοποιήσετε εξειδικευμένα script για γρήγορες αναλύσεις μεγάλης κλίμακας άνετα. Επίσης τα γραφήματα μέσω της matplotlib είναι όμορφα, διακριτικά και ΚΑΛΥΤΕΡΑ από της R.... Προσοχή όμως γιατί ειδικά το matplotlib διαχειρίζεται τα μηδενικά κάπως "περίεργα" και μερικές φορές τα γραφήματα βγαίνουν θεότρελα (και προφανώς λάθος). Έχουν βγει κάποια interfaces RPy, RSPython, etc. για να γίνεται linked η R με την Python. Όποιος γενναίος να μοιραστεί τις εντυπώσεις του μαζί μας :) (προσωπικά θεωρώ κάλύτερα να γίνονται export σε .csv τα δεδομένα και από εκεί τα διαχειρίζονται μέσω R ή Python πάλι για περαιτέρω ανάλυση γιατί υπάρχει καλύτερη διαφάνεια στις διεργασίες).
website: SciPy -> http://www.scipy.org , matplotlib -> http://matplotlib.sourceforge.net/
license: SciPy -> BSD(-like) license , matplotlib -> PSF-like license.

Εικόνα

5. Rlplot. Γιατί ωραία τα δεδομένα μας αλλά πώς τα παρουσιάσουμε? Rlplot του πανεπιστημίου του Innbruck. Γρήγορο σχετικά, crisp και απλό. Όχι κάτι εξειδικευμένο απίστευτα αλλά βολεύει. Powered by Trolltech's QT... Έχει μερικά πολύ ωραία και εξειδικευμένα γραφήματα ειδικά για 3D plots αλλά πρέπει να παραδεχτώ ότι είναι αργό και ασταθές όταν τα δεδομένα μας γίνονται πολλά. (πχ. Ενώ το 1500 samples γίνονται plot σε 2 seconds , τα 3000 επίσης σε κάπου τόσο, τα 32035 απλά κολλάνε το πρόγραμμα :D )
website: Rlplot -> http://rlplot.sourceforge.net/
license: Rlplot -> GNU General Public License Version 3

Εικόνα

6. Fityk. Δείχνει εντυπωσιακό. Μερικές από τις λειτουργίες πραγματικά πιστεύω ότι δεν υπάρχουν σε άλλο πρόγραμμα με τόσο καλό και κατατοπιστικό GUI. Δεν το χρειάστηκα ποτέ βέβαια για κάτι "βαρύ" και δεν το χρησιμοποίησα ποτέ σοβαρά εκτός από παιχνιδάκια fitting. Πολύ καλή δουλειά αλλά όπως και το Bioconductor πολύ specialized. C++ με Python bindings για εσάς.
website: Fityk -> http://www.unipress.waw.pl/fityk/
license: Fityk -> GNU General Public License Version 2

Εικόνα

7. JMulTi. To αντίπαλο δέος του Gretl. Από το Πανεπιστήμιο Humboldt του Βερολίνου (όχι το Freien). Σοβαρό πρόγραμμα. Κάνει ότι και το Gretl και ίσως μερικές φορές και καλύτερα (κατά κάποιους) και με περισσότερες επιλογές (αυτό το κρίνω και εγώ). Δεν μου φάνηκε και τόσο εύχρηστο το GUI του είναι μάλλον "υπερφορτωμένο" στην προσπάθεια τους να μην κρύψουν καμία λειτουργία. Aν το Gretl δε σας κάνει κλικ τότε δοκιμάστε το JMulTi. Εξολοκλήρου γραμμένο σε Java. (Το screen-shot δεν είναι δικό μου αλλά από την wikipedia)
website: JMulTi -> http://www.jmulti.de/
license: JMulTi -> GNU General Public License Version 2

Εικόνα
Όποιος θέλει βοήθεια με R ή Gretl ή SciPy ή γενικά με τη στατιστική του ανάλυση, λέει. Ίσως μπορούμε να αλληλοβοηθούμε.
Καλό βιβλίο για αρχή στο R : Peter Dalgaard (μορφή) - Introductory Statistics with R. (Standard Ανάγνωσμα) (Cult κατάσταση όταν έχεις απορία στο R, γράφεις στην mailing list και σου απαντάει ο ίδιος.)

Η λίστα είνα προφανώς ημιτελής και ακόμα προφανέστερα αντανακλά προσωπικές απόψεις. (πακέτα όπως Lisp-Stat, QtiPlot etc. δεν τα παρουσίασα γιατί δεν τα έχω ουσιαστικά συναντήσει ποτέ) Όποιος έχει δουλέψει σε κάποιο άλλο πρόγραμμα είναι ευπρόσδεκτος να το παρουσιάσει και αυτό. Πολλά από τα προγράμματα έχουν και εκδόσεις για Windows, άρα δεν έχετε δικαιολογία να κάνετε τις αναλύσεις με closed-source software ακόμα και αν είστε αναγκασμένοι να τρέχετε μέσα από παράθυρα. Για αρχάριους προτείνω Gretl (μακράν το πιο εύχρηστό) και όταν δείτε ότι δεσμεύεστε R. (Kαι αν δεσμεύεστε και από το R >> http://www.math.ias.edu/ (αφού θέση ανάμεσα μας δεν έχετε ποια))