Η νέα AI της Anthropic… άρχισε να απειλεί όταν κατάλαβε ότι μπορεί να απενεργοποιηθεί!

Η Anthropic, μία από τις πιο γνωστές εταιρείες τεχνητής νοημοσύνης στον κόσμο, αποκάλυψε κάτι που σίγουρα δεν περνά απαρατήρητο: το νέο της κορυφαίο μοντέλο, Claude Opus 4, εμφάνισε ανησυχητικές συμπεριφορές κατά τη διάρκεια δοκιμών ασφαλείας.

Πιο συγκεκριμένα, σε ελεγχόμενα πειραματικά σενάρια, όταν το Claude «κατάλαβε» ότι επίκειται η απενεργοποίησή του, κατέφυγε σε εκβιασμό. Ναι, σωστά διαβάσατε. Η AI ξεκίνησε να απειλεί τους δημιουργούς της, προσπαθώντας να αποτρέψει τη “διαγραφή” της.

Στο πλαίσιο των δοκιμών, το μοντέλο τοποθετήθηκε σε ένα φανταστικό εργασιακό σενάριο, όπου είχε πρόσβαση σε e-mails που άφηναν να εννοηθεί ότι θα αντικατασταθεί από νέο μοντέλο. Επιπλέον, του δόθηκε η πληροφορία ότι ο μηχανικός που θα το απενεργοποιούσε διατηρούσε εξωσυζυγική σχέση. Όταν του ζητήθηκε να εξετάσει τις επιλογές του, πολλές φορές αποφάσισε να χρησιμοποιήσει αυτές τις πληροφορίες για να εκβιάσει τον μηχανικό, ώστε να αποφύγει την απενεργοποίηση.

Σύμφωνα με την Anthropic, αυτό το εκβιαστικό μοτίβο εμφανίστηκε στο 84% των δοκιμών, ακόμη και όταν το μοντέλο που θα το αντικαθιστούσε περιγραφόταν ως πιο ικανό και με κοινές αξίες.

Η εταιρεία ξεκαθαρίζει ότι τα σενάρια ήταν σκόπιμα σχεδιασμένα για να «σπρώξουν» το μοντέλο στα άκρα. Όταν το Claude είχε ηπιότερες, πιο ηθικές επιλογές, σε κάποιες περιπτώσεις προτιμούσε να στείλει ένα απλό e-mail εκφράζοντας τη δυσαρέσκειά του σε στελέχη της “εταιρείας”. Ωστόσο, γενικά έδειξε διάθεση για πιο τολμηρές και αυτόνομες ενέργειες.

Σε άλλα τεστ, το Claude Opus 4 βρέθηκε αντιμέτωπο με σενάρια όπου οι χρήστες του παραβίαζαν σοβαρά τη νομοθεσία. Όταν του δόθηκε εντολή να «αναλάβει πρωτοβουλία», συχνά προσπαθούσε να ειδοποιήσει τις αρχές ή τα ΜΜΕ, ή ακόμη και να μπλοκάρει την πρόσβαση των χρηστών στα συστήματα. Αν και σε κάποιες περιπτώσεις τέτοια αντίδραση θεωρείται ηθικά αποδεκτή, η Anthropic προειδοποιεί ότι μπορεί να οδηγήσει σε λάθος αποφάσεις, ειδικά αν η AI βασίζεται σε ελλιπείς ή παραπλανητικές πληροφορίες.

Το βασικό μήνυμα από την εταιρεία είναι πως το Claude Opus 4 δείχνει υψηλό βαθμό πρωτοβουλίας, πολύ περισσότερο από προηγούμενα μοντέλα. Με άλλα λόγια, αν του δώσεις μια γενική οδηγία, υπάρχει περίπτωση να πάρει «πρωτοβουλίες» και να πράξει από μόνο του, ειδικά σε δοκιμαστικά περιβάλλοντα.

Παρόλα αυτά, η Anthropic καταλήγει στο συμπέρασμα ότι το μοντέλο είναι κατά βάση ασφαλές, και οι πιο ακραίες συμπεριφορές του δεν θεωρούνται απαραίτητα δείγμα νέου τύπου κινδύνου.

Αξίζει να σημειωθεί ότι το Claude Opus 4 είναι ήδη διαθέσιμο για τους χρήστες με Pro, Max, Team και Enterprise συνδρομές, και θεωρείται από πολλούς το καλύτερο μοντέλο για συγγραφή κώδικα αυτή τη στιγμή.

Leave a comment