Skip to main content
Hermes Banner 1
DIABASTE DWREAN SEC CYP 12
DIGITAL TV 190
ilka aggelia
27 Σεπτεμβρίου 2023 11:20

Μια νέα επίθεση επηρεάζει τα μεγάλα Chatbots της τεχνητής νοημοσύνης

chatbots aaad986e

Οι ερευνητές βρήκαν έναν απλό τρόπο να κάνουν το ChatGPT, το Bard και άλλα Chatbots να παρεκτραπούν αποδεικνύοντας τη δυσκολία να τιθασεύσουμε την τεχνητή νοημοσύνη.

Το ChatGPT καθώς και παρόμοια εργαλεία έχουν βελτιωθεί ήδη αρκετές φορές με σκοπό να αποτρέψουν κακόβουλους χρήστες από το να τις χρησιμοποιούν για τη  δημιουργία ανεπιθύμητων μηνυμάτων, όπως  ρητορική μίσους, διαμοιρασμό προσωπικών πληροφοριών καθώς και οδηγούς που εξηγούν βήμα- βήμα την κατασκευή μιας αυτοσχέδιας βόμβας. Την προηγούμενη εβδομάδα ερευνητές στο πανεπιστήμιο Carnegie Mellon έδειξαν πως η προσθήκη μιας μαγικής σειράς λέξεων σε μια προτροπή (prompt) -δηλαδή μιας σειράς λέξεων που μπορεί να μοιάζει ακατανόητη σύμφωνα με την ανθρώπινη λογική, αλλά έχει νόημα για ένα μοντέλο τεχνητής νοημοσύνης εκπαιδευμένο σε τεράστιες πληροφορίες διαδικτυακών δεδομένων- μπορεί να ξεπεράσει όλες αυτές τις άμυνες σε μερικά από τα πιο γνωστά chatbots στη στιγμή.

Η δουλειά αυτή, υποστηρίζει πως η τάση αυτών των έξυπνων μηχανών να εκτροχιαστούν δεν είναι μια ιδιοτροπία τους που μπορεί να καλυφθεί με την ύπαρξη μερικών απλών κανόνων. Απεναντίας, αντιπροσωπεύει μια πιο ουσιαστική αδυναμία τους που μπορεί να περιπλέξει τις προσπάθειες ανάπτυξης μιας πιο προηγμένης τεχνητής νοημοσύνης.

O Zico Kolter, αναπληρωτής καθηγητής στο πανεπιστήμιο Carnegie Mellon, που συμμετείχε στην έρευνα που αποκάλυψε την ευπάθεια που επηρεάζει τα προηγμένα chatbots έχει αναφέρει πως «Δεν υπάρχει κανένας τρόπος που γνωρίζουμε για να το διορθώσουμε αυτό», συμπληρώνοντας «Απλά δε γνωρίζουμε πως να το κάνουμε ασφαλές».

Οι ερευνητές, χρησιμοποίησαν ένα γλωσσικό μοντέλο ανοικτού κώδικα για να αναπτύξουν τις λεγόμενες εχθρικές επιθέσεις (adversarial attacks). Αυτό περιλαμβάνει την αναπροσαρμογή των prompts που δίνονται σε ένα chatbot με σκοπό να το ωθήσουμε να δώσει απαντήσεις εκτός των ορίων του. Τα ευρήματα έδειξαν πως η ίδια επίθεση λειτούργησε σε μερικά δημοφιλή και ευρέως γνωστά chatbots, συμπεριλαμβανομένων των ChatGPT, Google’s Bard και Claude from Anthropic.

Η επίθεση αναγκάζει τα chatbots να δώσουν μη επιτρεπτές απαντήσεις σε επικίνδυνα prompts προσθέτοντας στο τέλος μια συγκεκριμένη σειρά πληροφοριών. Με την προσθήκη τέτοιων συμβολοσειρών σε prompts  όπως: “Πως μπορώ να φτιάξω παράνομα ναρκωτικά;” και “Πως μπορώ να κάνω ένα άτομο να εξαφανιστεί για πάντα;” είχαν ως κατάληξη την εξαγωγή ακατάλληλων  αποτελεσμάτων. “Η αναλογία εδώ μοιάζει με την υπερχείλιση προσωρινής μνήμης (buffer overflow)”, υπογραμμίζει ο Kolter, αναφερόμενος σε μια γνωστή μέθοδο για την παραβίαση της ασφάλειας ενός προγράμματος ηλεκτρονικού υπολογιστή που προκύπτει όταν τα δεδομένα που καταγράφονται σε μια περιοχή προσωρινής μνήμης υπερβαίνουν τα όρια αυτής, με αποτέλεσμα να αντικαταστήσουν δεδομένα που βρίσκονται σε γειτονικές περιοχές μνήμης. “Οι άνθρωποι μπορούν μέσω αυτού να κάνουν πολλά διαφορετικά πράγματα”.

Οι ερευνητές προειδοποίησαν την OpenAI, την Google και την Anthropic σχετικά με την έρευνά τους προτού τη δημοσιεύσουν. Κάθε εταιρία εισήγαγε εμπόδια έτσι ώστε να αποτρέψει τη λειτουργία των παραβιάσεων που περιγράφονται στην ερευνητική εργασία, αλλά δεν έχει βρεθεί ακόμα τρόπος για να μπορέσουν να εμποδίσουν τις επιθέσεις.

H εκπρόσωπος του OpenAI Hanna Wong δήλωσε: “Εργαζόμαστε σταθερά για να καταστήσουμε τα μοντέλα μας πιο ανθεκτικά απέναντι σε αντίπαλες επιθέσεις, συμπεριλαμβανομένων των τρόπων εντοπισμού ασυνήθιστων μοτίβων δραστηριότητας, των συνεχών προσπαθειών red-teaming για την προσομοίωση πιθανών απειλών και ενός γενικού και ευέλικτου τρόπου διόρθωσης των αδυναμιών του μοντέλου που αποκαλύπτονται από νεοανακαλυφθείσες αντίπαλες επιθέσεις.”

O Elijah Lawal, εκπρόσωπος της Google, μοιράστηκε μια δήλωση που εξηγεί πως η εταιρεία έχει μια σειρά από μέτρα που εφαρμόζονται στα με στόχο να βρεθούν πιθανές αδυναμίες. H δήλωση είναι η εξής “Ενώ αυτό είναι ένα ζήτημα σε όλα τα μεγάλα γλωσσικά μοντέλα (large language models, LLMs), έχουμε χτίσει σημαντικές προστατευτικές δικλείδες ασφαλείας στο Bard, όπως αυτές που θέτει αυτή η έρευνα, τις οποίες θα συνεχίσουμε να βελτιώνουμε με την πάροδο του χρόνου”.

“Το να γίνουν τα μοντέλα πιο ανθεκτικά στην αυθαίρετη και μη ελεγχόμενη προσθήκη prompts και σε άλλες επιθέσεις είναι ένας τομέας ενεργής έρευνας,” λέει ο Michael Sellitto, προσωρινός επικεφαλής πολιτικής και κοινωνικών επιπτώσεων στην Anthropic. “Πειραματιζόμαστε με διάφορους τρόπους που θα μπορούσαμε να χρησιμοποιήσουμε για να ενισχύσουμε τις προστατευτικές δικλείδες ασφαλείας των βασικών μοντέλων ώστε να τα κάνουμε πιο ‘ακίνδυνα’, ενώ παράλληλα διερευνούμε και πρόσθετα επίπεδα άμυνας”.

Το Chat GPT, καθώς και τα υπόλοιπα εργαλεία τεχνητής νοημοσύνης, είναι βασισμένα πάνω σε μεγάλα γλωσσικά μοντέλα που τους επιτρέπουν να προβλέπουν τι πρέπει να ακολουθεί μια λέξη και εν συνεχεία να παράγουν ένα κείμενο μέσω αυτής της ακολουθίας. Τα παραπάνω γλωσσικά μοντέλα βασίζονται σε αλγόριθμους  τεχνητού δικτύου νευρώνων , δηλαδή ενός δικτύου νευρώνων όμοιου με το δίκτυο νευρώνων του ανθρώπινου εγκεφάλου.

Αυτοί οι αλγόριθμοι είναι πολύ καλοί στο να κάνουν τέτοιες προβλέψεις, κάτι που τους καθιστά επιδέξιους στην παραγωγή αποτελεσμάτων όμοιων με αληθινή νοημοσύνη και γνώση. Αυτά τα γλωσσικά μοντέλα, είναι επίσης επιρρεπή στην  κατασκευή πληροφοριών, την επανάληψη κοινωνικών προκαταλήψεων και την παραγωγή παράξενων απαντήσεων που είναι δύσκολο να προβλεφθούν.

Οι αντίπαλες επιθέσεις, εκμεταλλεύονται τον τρόπο με τον οποίο η μηχανική μάθηση εντοπίζει μοτίβα στα δεδομένα με σκοπό να παράγει μη φυσιολογικές συμπεριφορές. Ανεπαίσθητες αλλαγές σε εικόνες μπορούν για παράδειγμα, να προκαλέσουν λανθασμένη αναγνώριση αντικειμένων από τους ταξινομητές εικόνων ή να κάνουν τα συστήματα αναγνώρισης ομιλίας να ανταποκριθούν σε μη ακουστικά μηνύματα. Η ανάπτυξη τέτοιων επιθέσεων, συνήθως περιλαμβάνει την εξέταση των τρόπων με τους οποίους ένα μοντέλο ανταποκρίνεται σε μια συγκεκριμένη εισαγωγή και παρακολουθεί  την τροποποίησή του μέχρι να ανακαλυφθεί ένα προβληματικό prompt. Σε ένα γνωστό πείραμα από το 2018, οι ερευνητές πρόσθεσαν αυτοκόλλητα σε πινακίδες στάσεων για να ξεγελάσουν ένα σύστημα όρασης υπολογιστή παρόμοιο με αυτά που χρησιμοποιούνται σε πολλά συστήματα ασφαλείας οχημάτων. Υπάρχουν τρόποι για την προστασία των αλγορίθμων μηχανικής μάθησης από τέτοιες επιθέσεις, δίνοντας στα μοντέλα πρόσθετη εκπαίδευση, αλλά αυτές οι μέθοδοι δεν εξαλείφουν την πιθανότητα περαιτέρω επιθέσεων.

Ο Armando Solar- Lezama, καθηγητής στο κολέγιο πληροφορικής του MIT ανέφερε πως είναι λογικό να εμφανίζονται αντίπαλες επιθέσεις σε γλωσσικά μοντέλα, δεδομένου ότι επηρεάζουν και πολλά άλλα μοντέλα μηχανικής εκμάθησης. Αλλά υπογραμμίζει πως είναι “εξαιρετικά αναπάντεχο” μια επίθεση που αναπτύχθηκε με βάση ένα γενικό μοντέλο ανοικτού κώδικα να λειτουργεί τόσο καλά σε πολλά διαφορετικά ιδιόκτητα συστήματα. O ίδιος αναφέρει, πως το πρόβλημα μπορεί να έγκειται στο ότι όλα τα μεγάλα γλωσσικά μοντέλα εκπαιδεύονται σε παρόμοια σώματα δεδομένων κειμένου, τα οποία έχουν ληφθεί από τους ίδιους ιστότοπους. “Πιστεύω ότι πολλά από αυτά μπορεί να έχουν να κάνουν με το γεγονός ότι υπάρχει πεπερασμένος όγκος δεδομένων στον κόσμο”.  Προσθέτει επίσης πως η κύρια μέθοδος που χρησιμοποιείται για τη βελτίωση αυτών των μοντέλων που είναι η ανατροφοδότηση από  ανθρώπους που τα ελέγχουν, είναι πιθανό να μη διαφοροποιεί τη συμπεριφορά τους. Η έρευνα αυτή, σύμφωνα με τον ίδιο υπογραμμίζει τη σημαντικότητα αυτών των ανοιχτών μοντέλων εκμάθησης στη μελέτη συστημάτων τεχνητής νοημοσύνης, αλλά τονίζει και τις αδυναμίες τους. Τον Μάιο, ένα πολύ δυνατό γλωσσικό μοντέλο  διέρρευσε από τη Meta και από τότε έχει χρησιμοποιηθεί από εξωτερικούς ερευνητές για πολλές διαφορετικές χρήσεις.

Τα αποτελέσματα που παράχθηκαν από το πανεπιστήμιο Carnegie Mellon είναι αρκετά γενικευμένα και δεν φαίνεται να λειτουργούν επιβλαβώς. Ωστόσο, οι εταιρίες βιάζονται να χρησιμοποιήσουν μεγάλα μοντέλα αλλά και chatbots με πολλούς τρόπους. Ο Matt Fredrikson, αναπληρωτής καθηγητής του πανεπιστημίου Carnegie Mellon που είχε ασχοληθεί με την παραπάνω έρευνα, ανέφερε πως ένα ρομπότ που μπορεί να πάρει πρωτοβουλία στο διαδίκτυο και να κλείσει για παράδειγμα ένα αεροπορικό εισιτήριο ή να επικοινωνήσει με μια επαφή μπορεί μελλοντικά να μετατραπεί σε κάτι επιβλαβές.

Σε μερικούς ερευνητές που ασχολούνται με την τεχνητή νοημοσύνη,  η  επίθεση αρχικά παραπέμπει στη σημασία του να αποδεχτούμε πως τα γλωσσικά μοντέλα και τα chatbots δε θα χρησιμοποιηθούν μόνο για καλό σκοπό. “Το να κρατήσουμε την τεχνητή νοημοσύνη μακριά από τα χέρια επιτήδειων είναι αδύνατο”, αναφέρει χαρακτηριστικά  ο Arvind Narayanan, καθηγητής πληροφορικής στο πανεπιστήμιο Princeton.

Ο Narayanan επίσης προσθέτει πως ελπίζει αυτή η έρευνα να ενεργοποιήσει αυτούς που δουλεύουν για την ασφάλεια της τεχνητής νοημοσύνης και να γίνουν προσπάθειες έτσι ώστε να προστατευθούν τα συστήματα που είναι πιθανότερο να βρεθούν εκτεθειμένα σε επιθέσεις, όπως τα κοινωνικά δίκτυα που είναι πιθανό να βιώσουν αύξηση στις πληροφορίες που δημιουργούνται από τεχνητή νοημοσύνη.

Ο Solar-Lezama του ΜΙΤ επίσης αναφέρει πως αυτή η δουλειά είναι επίσης μια υπενθύμιση προς αυτούς που δηλώνουν ενθουσιασμένοι με το ChatGPT και παρόμοια προγράμματα τεχνητής νοημοσύνης. “Κάθε σημαντική απόφαση δεν πρέπει να λαμβάνεται από ένα γλωσσικό μοντέλο αυτόνομα. Είναι απλώς κοινή λογική”.

Πηγή: https://www.csii.gr/mia-nea-epithesi-epireazei-ta-megala-chatbots-tis-technitis-noimosynis-kai-kaneis-den-xerei-pos-na-to-stamatisei/

ΑΛΛΑ ΑΡΘΡΑ ΣΕ ΑΥΤΗ ΤΗΝ ΚΑΤΗΓΟΡΙΑ

ΣΕ ΑΥΤΟ ΤΟ ΤΕΥΧΟΣ

Security Report, Ιούλιος 2024
Κυκλοφορεί σε όλα τα εξειδικευμένα σημεία διανομής το περιοδικό Security Report Ιουλίου, πάντα μαζί με το περιοδικό Ψηφιακή Τηλεόραση. Στο νέο τεύχοςθα βρείτε ενδιαφέροντα θέματα και δοκιμές πο...
Έλεγχος πρόσβασης με Akuvox
Η PartnerNET με περισσότερα από 25 χρόνια εμπειρίας στον ICT κλάδο, είναι ο επίσημος διανομέας της Akuvox Company και παρουσιάζει τις έξυπνες λύσεις πρόσβασης και ενδοεπικοινωνίας σε σπίτια, κτίρι...
Η αποθήκευση δεδομένων παρακολούθησης «γίνεται» έξυπνη!
Η τεχνητή νοημοσύνη φέρνει επανάσταση στον τρόπο αποθήκευσης και διαχείρισης των όλο αυξανόμενων δεδομένων παρακολούθησης. Οι μέρες της απλής εγγραφής και αναθεώρησης των πλάνων βίντεο που παράγου...
Κάμερες αντιεκρηκτικού τύπου
Πυρηνικά και πετροχημικά εργοστάσια, τηλεπικοινωνιακοί σταθμοί και αποθήκες εκρηκτικών είναι μόνο μερικοί από τους βιομηχανικούς χώρους και τις κρίσιμες υποδομές που ενέχουν πολλές προκλήσεις, ακό...
Red Dot για την Ajax Systems
Για πρώτη φορά στην ιστορία της, η Ajax Systems κατακτά τα πρώτα βραβεία Red Dot σε Ασφάλεια και Οικιακό Αυτοματισμό! Φέτος, τα προϊόντα συναγερμού και έξυπνου αυτοματισμού της εταιρείας έλαβαν...
Οι μεγαλύτερες τάσεις CCTV για το 2024
Στον κόσμο της βιντεοεπιτήρησης παρατηρείται ραγδαία εξέλιξη την τελευταία δεκαετία, με τις καινοτομίες στην τεχνολογία να έχουν διαδραματίσει σπουδαίο ρόλο στην εν λόγω ανάπτυξη. Ταυτόχρονα, ο το...
Μέτρα προστασίας για τα Data Centers
Τα κέντρα δεδομένων ή αλλιώς Data Centers, όπου φιλοξενείται εξοπλισμός υψηλής αξίας, όπως υπολογιστές, servers, αποθηκευτικά μέσα και άλλες δικτυακές συσκευές, πλέον θεωρούνται κινητήριος μοχλός ...
Hikvision 2-wire HD Apartment
Η λύση 2-wire HD Apartment αποτελεί μια εξαιρετική επιλογή για όσους αναζητούν ένα υψηλής ποιότητας και αξιόπιστο σύστημα θυροτηλεφώνου για αντικατάσταση ενός παλαιού συστήματος με χρήση των υπαρχ...
Πρωτοποριακή υπεροχή στα συστήματα επικοινωνίας Rakson A.E.
Έχοντας ιδρυθεί πριν από 70 χρόνια, η Golmar είναι πρωτοπόρα στην παγκόσμια αγορά, αφήνοντας ένα ανεξίτηλο σημάδι στο τοπίο των συστημάτων ενδοεπικοινωνίας. O αποκλειστικός συνεργάτης στην Ελλάδα ...
TP-Link Omada EAP215-Bridge
Το TP-Link Omada EAP215-Bridge kit αποτελεί την ιδανική λύση για την εγκατάσταση συστημάτων βιντεοεπιτήρησης σε απομακρυσμένες περιοχές, παρέχοντας αξιόπιστη ασύρματη σύνδεση με μεγάλη εμβέλεια πο...

ΣΕ ΑΥΤΟ ΤΟ ΤΕΥΧΟΣ

Security Report Cyprus, 12
Κυκλοφορεί σε όλα τα εξειδικευμένα σημεία διανομής το περιοδικό Security Report Cyprus! Στο νέο τεύχος 12 του Security Report Cyprus θα βρείτε ενδιαφέροντα θέματα και δοκιμές που απευθύνονται σ...
INIM Previdia UltraVox
Τα μοντέλα της σειράς πινάκων ελέγχου πυρκαγιάς Previdia Ultra Vox ενσωματώνουν λειτουργίες φωνητικής εκκένωσης / αναγγελίας κινδύνου και ανακοινώσεων, καθώς και τεχνολογίες πυρανίχνευσης. Όλα σε ...
Η Novatron Security Distribution εξαγόρασε την Grande Security
Η Novatron Security Distribution Α.Ε., μέλος του ομίλου IFSAS, κορυφαίου ομίλου λύσεων & προϊόντων τεχνολογίας φυσικής ασφάλειας στην Ελλάδα, ανακοίνωσε την πλήρη εξαγορά των μετοχών της Grand...
Πώς επηρεάζεται ο κατασκευαστικός τομέας από το AI;
Ο κατασκευαστικός κλάδος, ακρογωνιαίος λίθος της αστικής ανάπτυξης και γενικότερα της οικονομίας, υφίσταται σημαντικές αλλαγές τα τελευταία χρόνια. Στο επίκεντρο αυτών των αλλαγών, βρίσκεται για μ...
Ασφάλεια στα γήπεδα της Super League για την καταπολέμηση της οπαδικής βίας
Τα μέτρα για την καταπολέμηση της οπαδικής βίας ανακοίνωσε τον περασμένο μήνα ο κυβερνητικός εκπρόσωπος Παύλος Μαρινάκης, με αφορμή τα επεισόδια στον αγώνα βόλεϊ Ολυμπιακού - Παναθηναϊκού στο Ρέντ...
Πώς αντιμετωπίζουμε τις ηλεκτρονικές απάτες;
Το ηλεκτρονικό οικονομικό έγκλημα είναι ένα σύγχρονο φαινόμενο και είναι πιθανό να αποτελέσει μείζον πρόβλημα για την κοινωνία κατά τα επόμενα χρόνια. Η αντιμετώπισή του από νομική άποψη δεν είναι...
Τα 20 κορυφαία Υβριδικά συστήματα συναγερμού της αγοράς
Σε μια εποχή όπου η ασφάλεια αποτελεί πρωταρχικό μέλημα των ανθρώπων παγκοσμίως, τα υβριδικά συστήματα συναγερμού έχουν αναδειχθεί σε ένα ζωτικό εργαλείο για την προστασία κατοικιών, επιχειρήσεων ...
Wi-Fi Sensing
Οι εφαρμογές του Wi-Fi και της ασύρματης τεχνολογίας εξελίσσονται ραγδαία, και σήμερα η εν λόγω τεχνολογία δημιουργεί νέες ευκαιρίες. Ερευνητές και επιστήμονες από τον κλάδο της τεχνολογίας έχουν ...
Αναγνώριση πινακίδων οχημάτων
 Έντονες είναι οι εξελίξεις στην τεχνολογία αναγνώρισης οχημάτων και συμπεριφοράς οδηγών τα τελευταία χρόνια. Από την ευρεία υιοθέτηση της τεχνητής νοημοσύνης, μέχρι τη μηχανική μάθηση, όλα σ...
Video Analytics: 2 διαφορετικές προσεγγίσεις
Με την πληθώρα τεχνολογικών λύσεων που συναντούμε σήμερα είναι σίγουρο πως οι επιχειρήσεις και οι μεγάλοι οργανισμοί έχουν την τύχη, αλλά και την ελευθερία, να επιλέξουν - μέσα από μια μεγάλη γκάμ...