(όχι ότι υπήρχε, αλλά τώρα το κάναμε ευκολότερο)
Large-scale online deanonymization with LLMs
επιστημοτικό άρθρο στο arxiv.org
Περίληψη στα ελληνικά:
Δείχνουμε ότι τα μεγάλα γλωσσικά μοντέλα (AI που επεξεργάζεται κείμενο) μπορούν να χρησιμοποιηθούν για να αναγνωρίζουν την πραγματική ταυτότητα ανθρώπων στο διαδίκτυο, ακόμη κι αν αυτοί χρησιμοποιούν ψευδώνυμα. Με πλήρη πρόσβαση στο Internet, το σύστημά μας μπορεί να εντοπίζει ποιοι είναι πραγματικά οι χρήστες του Hacker News ή άτομα που συμμετείχαν σε συνεντεύξεις της Anthropic, μόνο από τα ψευδώνυμα προφίλ και τις συνομιλίες τους. Μάλιστα το κάνει με μεγάλη ακρίβεια και σε χρόνο που για έναν ανθρώπινο ερευνητή θα χρειαζόταν ώρες δουλειάς.
Στη συνέχεια σχεδιάσαμε έναν τρόπο επίθεσης για μια πιο περιορισμένη περίπτωση: όταν έχουμε δύο βάσεις δεδομένων με ψευδώνυμα προφίλ ανθρώπων. Κάθε βάση περιέχει ελεύθερο κείμενο που έχουν γράψει οι ίδιοι ή που αναφέρεται σε αυτούς. Δημιουργήσαμε μια διαδικασία που χρησιμοποιεί τεχνητή νοημοσύνη για να:
- εντοπίζει στοιχεία στο κείμενο που σχετίζονται με την ταυτότητα ενός ατόμου,
- βρίσκει πιθανούς «υποψήφιους» που μπορεί να είναι το ίδιο άτομο σε άλλη βάση δεδομένων,
- εξετάζει πιο προσεκτικά τους καλύτερους υποψηφίους για να επιβεβαιώσει αν όντως πρόκειται για το ίδιο άτομο και να μειώσει τα λάθη.
Σε παλαιότερες έρευνες απο-ανωνυμοποίησης (όπως στον διαγωνισμό Netflix Prize) χρειαζόταν δομημένα δεδομένα. Αντίθετα, η δική μας μέθοδος μπορεί να δουλέψει απευθείας πάνω σε απλό κείμενο που γράφουν οι χρήστες, από οποιαδήποτε πλατφόρμα.
Για να δοκιμάσουμε τη μέθοδό μας, δημιουργήσαμε τρία σύνολα δεδομένων όπου γνωρίζαμε ήδη ποια προφίλ ανήκουν στο ίδιο άτομο:
- Το πρώτο συνδέει προφίλ από το Hacker News με προφίλ στο LinkedIn, χρησιμοποιώντας αναφορές που οι ίδιοι οι χρήστες έχουν κάνει μεταξύ των δύο πλατφορμών.
- Το δεύτερο προσπαθεί να ταιριάξει χρήστες μεταξύ διαφορετικών κοινοτήτων συζητήσεων για ταινίες στο Reddit.
- Το τρίτο παίρνει το ιστορικό ενός χρήστη στο Reddit, το χωρίζει σε δύο χρονικές περιόδους και δημιουργεί δύο ξεχωριστά ψευδώνυμα προφίλ που πρέπει να συνδεθούν μεταξύ τους.
Σε όλες τις περιπτώσεις, οι μέθοδοι που χρησιμοποιούν μεγάλα γλωσσικά μοντέλα αποδίδουν πολύ καλύτερα από τις παλαιότερες τεχνικές. Φτάνουν έως 68% επιτυχία στον εντοπισμό των σωστών ταυτίσεων με 90% ακρίβεια, ενώ οι καλύτερες παλιές μέθοδοι χωρίς τέτοια μοντέλα είχαν σχεδόν μηδενική επιτυχία.
Τα αποτελέσματά μας δείχνουν ότι η σχετική «ανωνυμία» που είχαν μέχρι σήμερα οι χρήστες με ψευδώνυμα στο διαδίκτυο δεν είναι πλέον τόσο ασφαλής, και ότι πρέπει να ξανασκεφτούμε πώς προστατεύουμε την ιδιωτικότητα στο διαδίκτυο.
arXiv is a free distribution service and an open-access archive for nearly 2.4 million scholarly articles in the fields of physics, mathematics, computer science, quantitative biology, quantitative finance, statistics, electrical engineering and systems science, and economics. Materials on this site are not peer-reviewed by arXiv.
