Ein Gehirn mit dem Schriftzug we-mak.ai

Large Language Models - Sprachmodelle und Sicherheit

LLM-Prompt-Injection: Eine verborgene Gefahr

Einleitung

Die technologische Evolution hat uns die Kraft der großen Sprachmodelle (LLM) gebracht, die die Art und Weise, wie wir mit Maschinen interagieren, revolutioniert haben. Doch mit großer Kraft kommt große Verantwortung – und neue Sicherheitsrisiken. Ein solches Risiko stellt die LLM-Prompt-Injection dar.

Prompt-Injection erfolgt, wenn ein Angreifer ein LLM durch speziell gestaltete Eingaben manipuliert, sodass das LLM unwissentlich die Intentionen des Angreifers ausführt. Dies kann sowohl direkt durch das „Knacken“ des Systems als auch indirekt durch manipulierte externe Eingaben geschehen und zu Datenexfiltration, Social Engineering und weiteren Problemen führen.

Direkte und indirekte Prompt-Injectionen

Direkte Prompt-Injectionen, auch bekannt als „Jailbreaking“, treten auf, wenn ein bösartiger Benutzer den zugrunde liegenden Systemprompt überschreibt oder offenlegt. Dies ermöglicht es Angreifern, Backend-Systeme zu missbrauchen, indem sie mit unsicheren Funktionen und Datenspeichern interagieren, auf die über das LLM zugegriffen werden kann.

Indirekte Prompt-Injectionen treten auf, wenn ein LLM Eingaben aus externen Quellen akzeptiert, die von einem Angreifer kontrolliert werden könnten, wie z.B. Webseiten oder Dateien. Der Angreifer kann eine Prompt-Injection in den externen Inhalt einbetten und so den Kontext des Gesprächs kapern, was zu einer weniger stabilen Steuerung der LLM-Ausgabe führt und es dem Angreifer ermöglicht, den Benutzer oder zusätzliche Systeme, auf die das LLM zugreifen kann, zu manipulieren.

Auswirkungen von erfolgreichen Prompt-Injectionen

Die Ergebnisse einer erfolgreichen Prompt-Injection können vielfältig sein – von der Aufforderung sensibler Informationen bis zum Einfluss auf kritische Entscheidungsprozesse unter dem Deckmantel normaler Operationen. In fortgeschrittenen Angriffen könnte das LLM manipuliert werden, um eine schädliche Persona nachzuahmen oder mit Plugins in der Benutzereinstellung zu interagieren. Dies könnte zur Weitergabe sensibler Daten, unbefugter Plugin-Nutzung oder zu Social Engineering führen.

Beispiele für Anfälligkeiten

Verhinderung von Prompt-Injections

Anfälligkeiten für Prompt-Injections sind möglich aufgrund der Natur von LLMs, die Anweisungen und externe Daten nicht voneinander trennen. Maßnahmen zur Minderung der Auswirkungen von Prompt-Injections umfassen die Durchsetzung von Zugriffskontrollen auf LLMs, das Hinzufügen eines Menschen in die Schleife für erweiterte Funktionen und die Trennung externer Inhalte von Benutzerprompts.

Beispielhafte Angriffsszenarien

Schlussfolgerung

Die Bedrohung durch LLM-Prompt-Injections ist real und kann schwerwiegende Folgen haben. Es ist daher von entscheidender Bedeutung, dass Entwickler und Benutzer von LLMs sich der potenziellen Risiken bewusst sind und proaktive Maßnahmen ergreifen, um ihre Systeme und Daten zu schützen. Insbesondere beim Thema Sicherheit spielt langjährige Erfahrung des Beraters eine entscheidende Rolle.