Ubuntu-gr Forum

Δύο Παρατηρήσεις.

1. Όσον αφορά τα request/response εκτός από τα modules urllib/urllib2 που υπάρχουν στην standard library, πλέον υπάρχει η βιβλιοθήκη requests η οποία μάλλον κάποια στιγμή θα μπει στη standard library και θα τα αντικαταστήσει. Για να πάρεις απλά το html source της ιστοσελίδας δεν προσφέρει κάποιο πλεονέκτημα και έτσι δεν το χρησιμοποιήσα για να μην προσθέσω dependency.

2. Το scrapy είναι ακριβώς φτιαγμένο για τη δουλειά που θέλεις να κάνεις. Λίγο που κοίταξα το documentation είναι αρκετά high level οπότε δε θα είναι ιδιαίτερα δύσκολο, αλλά δεν το έχω χρησιμοποιήσει ποτέ. Για την περίπτωση σου μάλιστα, μάλλον θα είναι αρκετά απλό. Αν θελεις, δες το documentation. Μιας και δεν έχεις καθόλου εμπειρία με python όμως ίσως είναι καλύτερα (από διδακτικής τουλάχιστον πλευράς) να προσπαθήσεις να το κάνεις με πιο "μανιβελέ" τρόπο.

Ubuntu-gr Forum

Μαζική αποθήκευση κειμένου (html) και αντιγραφή σε .xlsx