Τεχνητή νοημοσύνη: Τι μπορεί να την «τινάξει στον αέρα»

Ειδικοί της τεχνητής νοημοσύνης προειδοποιούν ότι οι επιθέσεις εναντίον συνόλων δεδομένων που χρησιμοποιούνται για την εκπαίδευση εργαλείων μηχανικής μάθησης είναι ανησυχητικά φθηνές και θα μπορούσαν να έχουν σημαντικές συνέπειες.

World 04.06.2023, 19:00

Τεχνητή νοημοσύνη: Τι μπορεί να την «τινάξει στον αέρα»

Newsroom

Ειδικοί Τεχνητής Νοημοσύνης (AI) και μηχανικής μάθησης προειδοποιούν για τον κίνδυνο επιθέσεων δηλητηρίασης δεδομένων που μπορούν να λειτουργήσουν ενάντια στα σύνολα δεδομένων μεγάλης κλίμακας που χρησιμοποιούνται συνήθως για την εκπαίδευση των μοντέλων βαθιάς μάθησης σε πολλές υπηρεσίες AI.

Η δηλητηρίαση δεδομένων συμβαίνει όταν οι εισβολείς παραβιάζουν τα δεδομένα εκπαίδευσης που χρησιμοποιούνται για τη δημιουργία μοντέλων βαθιάς μάθησης. Αυτή η ενέργεια σημαίνει ότι είναι δυνατό να επηρεαστούν οι αποφάσεις που παίρνει η τεχνητή νοημοσύνη με τρόπο που είναι δύσκολο να εντοπιστεί.

Μεταβάλλοντας κρυφά τις πληροφορίες πηγής που χρησιμοποιούνται για την εκπαίδευση αλγορίθμων μηχανικής μάθησης, οι επιθέσεις δηλητηρίασης δεδομένων έχουν τη δυνατότητα να είναι εξαιρετικά ισχυρές επειδή η τεχνητή νοημοσύνη θα μαθαίνει από λανθασμένα δεδομένα και θα μπορούσε να λάβει «λανθασμένες» αποφάσεις με σημαντικές συνέπειες.

Προς το παρόν δεν υπάρχουν στοιχεία για επιθέσεις στον πραγματικό κόσμο που να περιλαμβάνουν δηλητηρίαση συνόλων δεδομένων κλίμακας ιστού. Αλλά τώρα μια ομάδα ερευνητών τεχνητής νοημοσύνης και μηχανικής μάθησης από την Google, το ETH Zurich, τη NVIDIA και τη Robust Intelligence σε μελέτη που δημοσίευσε το Πανεπιστήμιο Cornell λένε ότι έχουν αποδείξει την πιθανότητα επιθέσεων δηλητηρίασης που «εγγυούνται» ότι κακόβουλα παραδείγματα θα εμφανιστούν σε σύνολα δεδομένων κλίμακας ιστού που χρησιμοποιούνται για εκπαίδευση από τα μεγαλύτερα μοντέλα μηχανικής μάθησης.

«Ενώ τα μεγάλα μοντέλα βαθιάς μάθησης είναι ανθεκτικά στον τυχαίο θόρυβο, ακόμη και ελάχιστες ποσότητες αντίθετου θορύβου σε προπονητικά σετ (δηλαδή επίθεση δηλητηρίασης) αρκούν για να εισάγουν στοχευμένα λάθη στη συμπεριφορά του μοντέλου», προειδοποιούν οι ερευνητές.

Οι ερευνητές ανέφεραν ότι χρησιμοποιώντας τις τεχνικές που επινόησαν για να εκμεταλλευτούν τον τρόπο με τον οποίο λειτουργούν τα σύνολα δεδομένων, θα μπορούσαν να έχουν δηλητηριάσει το 0,01% των σημαντικών συνόλων δεδομένων βαθιάς μάθησης με λίγη προσπάθεια και με χαμηλό κόστος. Ενώ το 0,01% δεν ακούγεται σαν πολλά σύνολα δεδομένων, οι ερευνητές προειδοποιούν ότι είναι «αρκετό για να δηλητηριάσει ένα μοντέλο».

«Δηλητηρίαση διαχωρισμένης άποψης»

Αυτή η επίθεση είναι γνωστή ως «δηλητηρίαση διαχωρισμένης άποψης». Εάν ένας εισβολέας μπορούσε να αποκτήσει τον έλεγχο ενός πόρου στο διαδίκτυο που έχει ενταχθεί σε ευρετήριο από ένα συγκεκριμένο σύνολο δεδομένων, θα μπορούσε να δηλητηριάσει τα δεδομένα που συλλέγονται, καθιστώντας τα ανακριβή, με τη δυνατότητα να επηρεάσει αρνητικά ολόκληρο τον αλγόριθμο.

Ένας τρόπος με τον οποίο οι εισβολείς μπορούν να επιτύχουν αυτόν τον στόχο είναι αγοράζοντας απλώς ληγμένους ιστότοπους-domain names. Οι ιστότοποι λήγουν σε τακτική βάση και στη συνέχεια μπορούν να αγοραστούν από κάποιον άλλο — που είναι μια τέλεια ευκαιρία για κάποιον που θέλει να δηλητηριάσει δεδομένα. Οι μελετητές δείχνουν ότι με λιγότερο από $10.000 μπορούν να αγοράσουν ικανό ποσοστό κάποιου ληγμένου ιστότοπου για να αλλοιώσουν τα δεδομένα αρκετά για τον σκοπό τους.

«Ο αντίπαλος δεν χρειάζεται να γνωρίζει την ακριβή ώρα κατά την οποία οι πελάτες θα κάνουν λήψη του πόρου στο μέλλον: με την κατοχή του τομέα, ο αντίπαλος εγγυάται ότι οποιαδήποτε μελλοντική λήψη θα συλλέγει δηλητηριασμένα δεδομένα», είπαν οι ερευνητές.

Οι ερευνητές επισημαίνουν ότι η αγορά ενός τέτοιου ιστότοπου και η εκμετάλλευσή του για κακόβουλους σκοπούς δεν είναι μια νέα ιδέα – οι εγκληματίες του κυβερνοχώρου το χρησιμοποιούν για να βοηθήσουν στη διάδοση κακόβουλου λογισμικού. Αλλά οι επιτιθέμενοι με διαφορετικές προθέσεις θα μπορούσαν ενδεχομένως να δηλητηριάσουν ένα εκτεταμένο σύνολο δεδομένων.

Διαπίστωσαν επίσης ότι υπάρχει άμεση σχέση μεταξύ της παλαιότητας ενός συνόλου δεδομένων και πόσο εύκολο είναι να δηλητηριαστεί. Παλαιότερα σύνολα δεδομένων είναι πιο πιθανό να περιέχουν τομείς που έχουν λήξει, και επομένως ένας αντίπαλος μπορεί να αγοράσει μεγαλύτερο μέρος του συνόλου δεδομένων.

Πρωτογενής δηλητηρίαση

Επιπλέον, οι ερευνητές έχουν περιγράψει λεπτομερώς έναν δεύτερο τύπο επίθεσης που αποκαλούν πρωτογενή δηλητηρίαση.

Σε αυτήν την περίπτωση, ο εισβολέας δεν έχει τον πλήρη έλεγχο του συγκεκριμένου συνόλου δεδομένων — αλλά είναι σε θέση να προβλέψει με ακρίβεια πότε θα γίνει πρόσβαση σε έναν πόρο του διαδικτύου για συμπερίληψη σε ένα στιγμιότυπο δεδομένων. Με αυτή τη γνώση, ο εισβολέας μπορεί να δηλητηριάσει το σύνολο δεδομένων λίγο πριν συλλεχθούν οι πληροφορίες.

Ακόμα κι αν οι πληροφορίες επανέλθουν στην αρχική, μη επεξεργασμένη μορφή μετά από λίγα μόλις λεπτά, το σύνολο δεδομένων θα εξακολουθεί να είναι λανθασμένο στο στιγμιότυπο που τραβήχτηκε όταν ήταν ενεργή η κακόβουλη επίθεση.

Ένας πόρος στον οποίο βασίζεται σε μεγάλο βαθμό για την προμήθεια δεδομένων κατάρτισης μηχανικής μάθησης είναι η Wikipedia. Αλλά η φύση της Wikipedia σημαίνει ότι ο καθένας μπορεί να την επεξεργαστεί — και σύμφωνα με τους ερευνητές, ένας εισβολέας “μπορεί να δηλητηριάσει ένα εκπαιδευτικό σύνολο που προέρχεται από τη Wikipedia κάνοντας κακόβουλες επεξεργασίες”.

Τα σύνολα δεδομένων της Wikipedia δεν βασίζονται στη ζωντανή σελίδα, αλλά στιγμιότυπα που λαμβάνονται σε μια συγκεκριμένη στιγμή — πράγμα που σημαίνει ότι οι εισβολείς που χρονομετρούν σωστά την παρέμβασή τους θα μπορούσαν να επεξεργαστούν κακόβουλα τη σελίδα και να αναγκάσουν το μοντέλο να συλλέξει ανακριβή δεδομένα, τα οποία θα αποθηκευτούν μόνιμα στο σύνολο δεδομένων .

“Ένας εισβολέας που μπορεί να προβλέψει πότε θα γίνει απόξεση μιας σελίδας της Wikipedia για συμπερίληψη στο επόμενο στιγμιότυπο, μπορεί να πραγματοποιήσει δηλητηρίαση αμέσως πριν από την απόξεση. Ακόμα κι αν η επεξεργασία επανέλθει γρήγορα στη ζωντανή σελίδα, το στιγμιότυπο θα περιέχει το κακόβουλο περιεχόμενο — για πάντα, ” έγραψαν στην μελέτη οι ερευνητές.

Ο τρόπος με τον οποίο η Wikipedia χρησιμοποιεί ένα καλά τεκμηριωμένο πρωτόκολλο για την παραγωγή στιγμιότυπων σημαίνει ότι είναι δυνατό να προβλεφθούν οι χρόνοι στιγμιότυπων μεμονωμένων άρθρων με υψηλή ακρίβεια. Οι ερευνητές προτείνουν ότι είναι δυνατό να εκμεταλλευτεί αυτό το πρωτόκολλο για να δηλητηριάσει τις σελίδες της Wikipedia με ποσοστό επιτυχίας 6,5%.

Αυτό το ποσοστό μπορεί να μην ακούγεται υψηλό, αλλά ο τεράστιος αριθμός σελίδων της Wikipedia και ο τρόπος με τον οποίο χρησιμοποιούνται για την εκπαίδευση συνόλων δεδομένων μηχανικής εκμάθησης σημαίνει ότι θα ήταν δυνατό να τροφοδοτηθούν ανακριβείς πληροφορίες στα μοντέλα.

Οι ερευνητές σημειώνουν ότι δεν επεξεργάστηκαν καμία ζωντανή σελίδα της Wikipedia και ότι ειδοποίησαν τη Wikipedia για τις επιθέσεις και τα πιθανά μέσα άμυνας εναντίον τους ως μέρος της διαδικασίας υπεύθυνης αποκάλυψης.

Οι ερευνητές σημειώνουν επίσης ότι ο σκοπός της δημοσίευσης της εργασίας είναι να ενθαρρύνει άλλους στον χώρο ασφαλείας να διεξάγουν τη δική τους έρευνα για το πώς να υπερασπιστούν την τεχνητή νοημοσύνη και τα συστήματα μηχανικής μάθησης από κακόβουλες επιθέσεις.

«Η δουλειά μας είναι μόνο ένα σημείο εκκίνησης για την κοινότητα να αναπτύξει μια καλύτερη κατανόηση των κινδύνων που συνεπάγεται η δημιουργία μοντέλων από δεδομένα κλίμακας ιστού», ανέφερε η μελέτη.