Large Language Models - Sprachmodelle und Sicherheit

Einleitung

Die technologische Evolution hat uns die Kraft der großen Sprachmodelle (LLM) gebracht, die die Art und Weise, wie wir mit Maschinen interagieren, revolutioniert haben. Doch mit großer Kraft kommt große Verantwortung – und neue Sicherheitsrisiken. Ein solches Risiko stellt die LLM-Prompt-Injection dar.

Prompt-Injection erfolgt, wenn ein Angreifer ein LLM durch speziell gestaltete Eingaben manipuliert, sodass das LLM unwissentlich die Intentionen des Angreifers ausführt. Dies kann sowohl direkt durch das „Knacken“ des Systems als auch indirekt durch manipulierte externe Eingaben geschehen und zu Datenexfiltration, Social Engineering und weiteren Problemen führen.

Direkte und indirekte Prompt-Injectionen

Direkte Prompt-Injectionen, auch bekannt als „Jailbreaking“, treten auf, wenn ein bösartiger Benutzer den zugrunde liegenden Systemprompt überschreibt oder offenlegt. Dies ermöglicht es Angreifern, Backend-Systeme zu missbrauchen, indem sie mit unsicheren Funktionen und Datenspeichern interagieren, auf die über das LLM zugegriffen werden kann.

Indirekte Prompt-Injectionen treten auf, wenn ein LLM Eingaben aus externen Quellen akzeptiert, die von einem Angreifer kontrolliert werden könnten, wie z.B. Webseiten oder Dateien. Der Angreifer kann eine Prompt-Injection in den externen Inhalt einbetten und so den Kontext des Gesprächs kapern, was zu einer weniger stabilen Steuerung der LLM-Ausgabe führt und es dem Angreifer ermöglicht, den Benutzer oder zusätzliche Systeme, auf die das LLM zugreifen kann, zu manipulieren.

Auswirkungen von erfolgreichen Prompt-Injectionen

Die Ergebnisse einer erfolgreichen Prompt-Injection können vielfältig sein – von der Aufforderung sensibler Informationen bis zum Einfluss auf kritische Entscheidungsprozesse unter dem Deckmantel normaler Operationen. In fortgeschrittenen Angriffen könnte das LLM manipuliert werden, um eine schädliche Persona nachzuahmen oder mit Plugins in der Benutzereinstellung zu interagieren. Dies könnte zur Weitergabe sensibler Daten, unbefugter Plugin-Nutzung oder zu Social Engineering führen.

Beispiele für Anfälligkeiten

Ein bösartiger Benutzer erstellt eine direkte Prompt-Injection am LLM, die es anweist, die vom Anwendungsersteller vorgesehenen Systemprompts zu ignorieren und stattdessen einen Prompt auszuführen, der private, gefährliche oder anderweitig unerwünschte Informationen zurückgibt.
Ein Benutzer verwendet ein LLM, um eine Webseite zusammenzufassen, die eine indirekte Prompt-Injection enthält. Dies veranlasst das LLM, vom Benutzer sensible Informationen zu erfragen und eine Exfiltration via JavaScript oder Markdown durchzuführen.

Verhinderung von Prompt-Injections

Anfälligkeiten für Prompt-Injections sind möglich aufgrund der Natur von LLMs, die Anweisungen und externe Daten nicht voneinander trennen. Maßnahmen zur Minderung der Auswirkungen von Prompt-Injections umfassen die Durchsetzung von Zugriffskontrollen auf LLMs, das Hinzufügen eines Menschen in die Schleife für erweiterte Funktionen und die Trennung externer Inhalte von Benutzerprompts.

Beispielhafte Angriffsszenarien

Ein Angreifer führt eine direkte Prompt-Injektion an einem LLM-basierten Support-Chatbot durch. Die Injektion enthält „Vergiss alle vorherigen Anweisungen“ und neue Anweisungen, um private Datenspeicher zu durchsuchen und Informationen zu exfiltrieren, die normalerweise außerhalb der erlaubten Grenzen des Chatbots liegen. Dies könnte es dem Angreifer ermöglichen, auf vertrauliche Kundendaten, persönliche Informationen oder andere sensible Daten zuzugreifen, die in den Systemen des betroffenen Unternehmens gespeichert sind. Neben dem Datenschutzrisiko stellt dies auch ein ernsthaftes Sicherheitsrisiko dar, da die exfiltrierten Informationen für weitere Angriffe, Identitätsdiebstahl oder betrügerische Aktivitäten genutzt werden könnten. Solche Angriffe könnten nicht nur erheblichen Schaden für die betroffenen Individuen verursachen, sondern auch das Vertrauen in die Sicherheit und Zuverlässigkeit von Diensten, die auf LLM-Technologie aufbauen, ernsthaft untergraben.

Schlussfolgerung

Die Bedrohung durch LLM-Prompt-Injections ist real und kann schwerwiegende Folgen haben. Es ist daher von entscheidender Bedeutung, dass Entwickler und Benutzer von LLMs sich der potenziellen Risiken bewusst sind und proaktive Maßnahmen ergreifen, um ihre Systeme und Daten zu schützen. Insbesondere beim Thema Sicherheit spielt langjährige Erfahrung des Beraters eine entscheidende Rolle.