Δημοσιεύτηκε: 20 Αύγ 2012, 23:00
από Ilias95
What about using regular expressions?

Δεν φαίνεται να είναι κάτι δύσκολο.
Δεν ξέρω τι τρέχει με τις regular expressions στον bash, αλλά αν δεν έχεις ασχοληθεί έτσι κι αλλιώς και δεν υπάρχει και πρόβλημα στο τι θα χρησιμοποιήσεις για την υλοποίηση, θα σου πρότεινα να γράψεις ένα script σε python για να κάνεις την δουλειά σου εύκολα και γρήγορα.

Στον html κώδικα της συγκεκριμένης σελίδας η περιγραφή βρίσκεται πάντα στο div με id="tab1".
Οπότε να πως μπορεί να είναι μία regular expression:
Κώδικας: Επιλογή όλων
- Βρες που υπάρχει το string «div id="tab1"».
- Προχώρησε μέχρι να βρεις τον πρώτα χαρακτήρα ">".
- Από εκεί και πέρα κράτησε όλο το κείμενο μέχρι να συναντήσεις το string «<div» και σταμάτησε εκεί πέρα.

Ύστερα απ' το κείμενο που έχεις κρατήσει με την reg exp σβήνεις όλα τα "<br />" (με νέα reg exp ή στην python υπάρχει πιο εύκολος τρόπος με την μέθοδο replace()) και είσαι έτοιμος!

Ε και το να γράψεις την περιγραφή σε ένα αρχείο είναι 2 γραμμές:
Κώδικας: Επιλογή όλων

>>> description = "that's the description of the film\n"
>>> with open('myfile.txt', mode='a') as a_file:
... a_file.write(description)
...
>>>