Scrapping Iason Minenv

Κώστας Σταμάτης Εθνικός Κέντρο Τεκμηρίωσης - Εθνικό Ίδρυμα Ερευνών kstamatis@ekt.gr

Ο επισυναπτόμενος κώδικας αποτελεί έναν scrapper για τη σελίδα "http://iason.minenv.gr/akti/" του Υπουργείου Περιβάλλοντος. Προς το παρόν γίνεται όλο το scrapping αλλά τα δεδομένα παραμένουν στη μνήμη του προγράμματος, δεν γράφονται σε κάποια βάση δεδομένων ή οτιδήποτε άλλο!

Ο κώδικας είναι γραμμένος σε Java και κάνει χρήση της βιβλιοθήκης HTML Unit για το parsing των σελίδων. Ότι χρειάζεται βρίσκεται μέσα στο zip αρχείο. Το μόνο προαπαιτούμενο είναι να υπάρχει εγκατεστημένη Java...

Χρειάζεται στο τέλος η εγγραφή των δεδομένων σε κάποια βάση και η δημιουργία REST services για την εξαγωγή των δεδομένων σε XML/JSON κτλ.

Αρχείο: