Εξόρυξη Δεδομένων στον Παγκόσμιο Ιστό

Περιεχόμενο μαθήματος

Εξόρυξη Διαδικτυακής Χρήσης: Συλλογή Δεδομένων και Προεπεξεργασία, Μοντελοποίηση Δεδομένων, Ανακάλυψη και Ανάλυση προτύπων. Εξόρυξη Γνώμης: Συναισθηματική Ταξινόμηση, Εξόρυξη γνώμης με βάση τα γνωρίσματα και κατασκευή σύνοψης, Συγκριτικές προτάσεις και εξόρυξη σχέσεων. Ενσωμάτωση Πληροφορίας: Προεπεξεργασία Σχήματος, Ταίριασμα περιοχής και ταίριασμα σε επίπεδο στιγμιοτύπων, Ενσωμάτωση διεπαφών διαδικτυακών ερωτημάτων. Δομημένη Εξαγωγή Δεδομένων – Δημιουργία Wrapper:, Εκπαίδευση wrapper με βάση τα στιγμιότυπα, Αυτόματη δημιουργία από δεδομένα, Δέντρα DOM, Εξαγωγή μίας ή πολλαπλών σελίδων. Web Crawling: Γενικοί crawlers, Εστιασμένοι crawlers, Τοπικοί Crawlers. Ανάλυση Συνδέσμων: Εξόρυξη σε κοινωνικά δίκτυα, Σύζευξη βιβλιογραφικών ετεροαναφορών, Αλγόριθμοι Ανάκτησης Πληροφορίας. Εξόρυξη με μερική επίβλεψη: Ο αλγόριθμος Expectation Maximization, Μεταγωγικές Support Vector Machines, Εξόρυξη από θετικά και μη επισημαινόμενα παραδείγματα. Μη επιβλεπόμενη Μάθηση: Γεωμετρικές μέθοδοι, Γενικευμένα Μοντέλα, Οπτικοποίηση μέσω Ενσωμάτωσης (SOMs, Multidimensional Scaling, Προβολές), Collaborative Filtering, Διαμέριση bottom-up και top-down. Μάθηση υπό Επίβλεψη: Random Forests, Ο αλγόριθμος Adaboost, Bagging/Boosting, Δίκτυα Πεποίθησης Bayes. Ακολουθιακά Πρότυπα.

 

Επιδιωκόμενα μαθησιακά αποτελέσματα

Το μάθημα αποσκοπεί στο να παρέχει μια εσωτερική ματιά στις τεχνικές της Εξόρυξης Δεδομένων που εφαρμόζονται σε δεδομένα του Διαδικτύου. Με την ολοκλήρωση του μαθήματος, οι φοιτητές θα πρέπει να είναι ικανοί: α) να αναγνωρίζουν τις διαφορές μεταξύ των θεματικών περιοχών της εξόρυξης περιεχομένου, δομής και χρήσης δεδομένων Ιστού, β) να περιγράφουν έννοιες κλειδιά όπως κοινωνικά δίκτυα, βαθύς και επιφανειακός Ιστός, Σημασιολογικός Ιστός, σώματα κειμένων και μέθοδοι αξιολόγησης όπως η ακρίβεια και η ανάκληση, γ) να συζητούν τη χρήση μεθόδων και τεχνικών όπως η συχνότητα των λέξεων, στατιστικά συνεμφάνισης, κανονικοποίηση των δεδομένων, μοντέλα αναπαράστασης εγγράφων, λεξικολογική σημασιολογία, κ.τ.λ., δ) να ερμηνεύουν με λεπτομέρεια την αρχιτεκτονική των βασικών αλγορίθμων Εξόρυξης, ε) να επιλέγουν της κατάλληλη προσέγγιση για μια σειρά εφαρμογών της Εξόρυξης στον Παγκόσμιο Ιστό όπως η ανάλυση γνώμης, το στοχευμένο μάρκετινγκ, η σύνοψη εγγράφων, κ.τ.λ., στ) να εφαρμόζουν εργαλεία προ-επεξεργασίας φυσικής γλώσσας και να διαπράττουν ανάλυση των γλωσσολογικών δεδομένων με χρήση ενός κατάλληλου ταξινομητή, ζ) να θέτουν τις προδιαγραφές για ένα ποιοτικό εργαλείο εξόρυξης γνώσης στον Παγκόσμιο Ιστό, η) να αναλύουν και ερμηνεύουν τις ανοικτές περιοχές έρευνας, θ) να επιλύουν ένα ολοκληρωμένο πρακτικό πρόβλημα εξόρυξης δεδομένων από τον Παγκόσμιο Ιστό ή να το αναλύουν μέσα από θεωρητικές μελέτες πέρα από τη βιβλιογραφία του μαθήματος.

 

Προαπαιτούμενα

Δεν απαιτούνται.

 

Εγχειρίδια του μαθήματος

  1. Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data, Bing Liu, Springer, ISBN: 978-3642194597, 2011.
  2. Mining the Web: Discovering Knowledge from Hypertext Data, Soumen Chakrabarti, Morgan Kaufmann, ISBN: 978-1558607545, 2002.

Συμπληρωματική Βιβλιογραφία

  1. Mining the Social Web: Analyzing Data from Facebook, Twitter, LinkedIn, and Other Social Media Sites, Matthew A. Russell, O’Reilly Media, ISBN: 978-1449388348, 2011.

Διδακτικές και μαθησιακές μέθοδοι

Στη διδασκαλία του μαθήματος χρησιμοποιείται προβολή υλικού που αναδεικνύει τα χαρακτηριστικά των μεθόδων και των συστημάτων που εξετάζονται. Γίνεται επίδειξη κατάλληλων μοντέλων και αλγορίθμων. Ενθαρρύνεται η ενεργή συμμετοχή των φοιτητών με κριτικές ερωτήσεις και συζήτηση. Ανατίθεται στους φοιτητές οι παρουσίαση και υποστήριξη ατομικών εργασιών.

 

Μέθοδοι αξιολόγησης / βαθμολόγησης

H αξιολόγηση των φοιτητών βασίζεται στην επίδοσή των φοιτητών στις εργασίες που διεκπεραιώνουν στη διάρκεια του εξαμήνου. Οι εργασίες εστιάζουν σε βιβλιογραφική έρευνα και παρουσίαση, σε ανάπτυξη κώδικα και σε πειραματικές μελέτες.

 

Γλώσσα διδασκαλίας

Ελληνική.

 

Τρόπος παράδοσης μαθήματος

Με φυσική παρουσία.