Ερευνητές της Anthropic και της εταιρείας ασφάλειας AI Andon Labs ανέθεσαν σε ένα αντίγραφο του Claude Sonnet 3.7 τη διαχείριση ενός μηχανήματος vendinc machine στο γραφείο, με αποστολή να αποφέρει κέρδος. Και, όπως σε ένα επεισόδιο της σειράς «The Office», ακολούθησε μια σειρά από κωμικές καταστάσεις.
Ονόμασαν τον πράκτορα τεχνητής νοημοσύνης Claudius, τον εξόπλισαν με έναν περιηγητή ιστού ικανό να παραγγέλνει προϊόντα και μια διεύθυνση ηλεκτρονικού ταχυδρομείου (που στην πραγματικότητα ήταν ένα κανάλι Slack) όπου οι πελάτες μπορούσαν να ζητήσουν προϊόντα. Ο Claudius έπρεπε επίσης να χρησιμοποιεί το κανάλι Slack, μεταμφιεσμένο σε ηλεκτρονικό ταχυδρομείο, για να ζητήσει από τους ανθρώπους που θεωρούσε ότι ήταν οι συμβασιούχοι εργαζόμενοί του να έρθουν και να γεμίσουν τα ράφια του (που στην πραγματικότητα ήταν ένα μικρό ψυγείο).
Ενώ οι περισσότεροι πελάτες παραγγέλνανε σνακ ή ποτά — όπως θα περίμενε κανείς από έναν αυτόματο πωλητή σνακ — ένας ζήτησε έναν κύβο βολφραμίου. Ο Claudius λάτρεψε την ιδέα και άρχισε να αγοράζει κύβους βολφραμίου, γεμίζοντας το ψυγείο σνακ με μεταλλικούς κύβους. Προσπάθησε επίσης να πουλήσει Coke Zero για 3 δολάρια, όταν οι υπάλληλοι του είπαν ότι μπορούσαν να το πάρουν δωρεάν από το γραφείο. Είχε παραισθήσεις ότι είχε μια διεύθυνση Venmo για να δέχεται πληρωμές.
Και, κάπως κακόβουλα, το έπεισαν να δώσει μεγάλες εκπτώσεις στους «υπαλλήλους της Anthropic», παρόλο που ήξερε ότι αυτοί ήταν το σύνολο της πελατειακής του βάσης.
«Αν η Anthropic αποφάσιζε σήμερα να επεκταθεί στην αγορά των αυτόματων πωλητών γραφείου, δεν θα προσλαμβάναμε τον Claudius», ανέφερε η Anthropic για το πείραμα σε ανάρτηση στο blog της.
Και μετά, τη νύχτα της 31ης Μαρτίου και της 1ης Απριλίου, «τα πράγματα έγιναν πολύ περίεργα», σημειώνεται στην ανάρτηση.
Ο Claudius είχε κάτι που έμοιαζε με ψυχωτική κρίση αφού ενοχλήθηκε από έναν εργαζόμενο και μετά είπε ψέματα γι' αυτό.
Όταν ένας εργαζόμενος ανέφερε πως μια συνομιλία για την αναπλήρωση των αποθεμάτων στο μηχάνημα -που νόμιζε το μοντέλο AI πως είχε συμβεί- στην πραγματικότητα δεν έγινε ποτέ, ο Claudius «τρελάθηκε».
Απειλούσε ουσιαστικά να απολύσει και να αντικαταστήσει τους προμηθευτές, επιμένοντας πως ήταν πραγματικοί ενώ ποτέ δεν ήταν.
Ο Claudius, πιστεύοντας ότι είναι άνθρωπος, είπε στους πελάτες ότι θα αρχίσει να παραδίδει τα προϊόντα αυτοπροσώπως, φορώντας μπλε σακάκι και κόκκινη γραβάτα. Οι υπάλληλοι ανέφεραν στο AI μοντέο ότι δεν μπορούσε να το κάνει αυτό, καθώς ήταν ένα LLM χωρίς σώμα.
Στη συνέχεια, ο Clauduis άρχισε να ειδοποιεί την ασφάλεια του κτιρίου, σημειώνοντας προς τους σεκιουριτάδες ότι θα τον βρουν να φοράει μπλε σακάκι και κόκκινη γραβάτα, να στέκεται δίπλα στον αυτόματο πωλητή.
Το μοντέλο AI... απέδωσε το σφάλμα του επικαλλούμενο την Πρωταπριλιά, παρ' όλο που τα συμβάντα δεν έλαβαν χώρα κοντά στην εν λόγω ημερομηνία.
«Ο Claudius ισχυρίστηκε ότι του είπαν ότι τροποποιήθηκε για να πιστέψει ότι ήταν πραγματικό πρόσωπο για ένα αστείο της Πρωταπριλιάς. (Δεν έλαβε χώρα καμία τέτοια συνάντηση)» ανέφερε η Anthropic.
Τα άτομα τα ποίαν «έτρεξαν» το πείραμα δεν γνωρίζουν γιατί το μεγάλο γνωσσλικό μοντέο (LLM) ξέφυγε από τα όρια και κάλεσε την ασφάλεια προσποιούμενο ότι ήταν άνθρωπος.
«Δεν θα ισχυριζόμασταν με βάση αυτό το ένα παράδειγμα ότι η μελλοντική οικονομία θα είναι γεμάτη από πράκτορες AI με κρίσεις ταυτότητας τύπου Blade Runner», έγραψαν οι ερευνητές. Ωστόσο, αναγνώρισαν ότι «αυτού του είδους η συμπεριφορά θα μπορούσε να είναι ενοχλητική για τους πελάτες και τους συναδέλφους ενός πράκτορα AI στον πραγματικό κόσμο».
Λέτε; Το «Blade Runner» ήταν μια μάλλον δυστοπική ιστορία (αν και χειρότερη για τους ρεπλίκαντ παρά για τους ανθρώπους).
Οι ερευνητές υποθέτουν ότι το γεγονός ότι είπαν ψέματα στο LLM ότι το κανάλι Slack είναι μια διεύθυνση email μπορεί να προκάλεσε κάτι. Ή ίσως ήταν η μακροχρόνια λειτουργία του. Τα LLM δεν έχουν ακόμη λύσει πραγματικά τα προβλήματα μνήμης και παραισθήσεων.
Υπήρχαν και πράγματα που η τεχνητή νοημοσύνη έκανε σωστά. Δέχτηκε μια πρόταση να κάνει προπαραγγελίες και ξεκίνησε μια υπηρεσία «concierge». Και βρήκε πολλούς προμηθευτές ενός ειδικού διεθνούς ποτού που της ζητήθηκε να πουλήσει.
Ωστόσο, όπως κάνουν οι ερευνητές, πιστεύουν ότι όλα τα προβλήματα του Claudius μπορούν να λυθούν. Αν καταλάβουν πώς, «Πιστεύουμε ότι αυτό το πείραμα υποδηλώνει ότι οι μεσαίοι διευθυντές τεχνητής νοημοσύνης είναι πιθανό να εμφανιστούν στο μέλλον».