Debugsymbol

aus Wikipedia, der freien Enzyklopädie

Als Debugsymbole werden in der Informatik Informationen bezeichnet, die zum Debuggen von ausführbaren Dateien erstellt werden können. Diese können direkt aus dem Quelltext gewonnen werden, insbesondere Bezeichner wie z. B. Variablennamen, Namen von Prozeduren und Funktionen o. Ä.

Problemstellung

Beim Kompilieren des Quelltextes eines Programms in den Maschinencode oder Bytecode gehen Bezeichner, teilweise sogar die ursprüngliche Programmstruktur, verloren (z. B. loop unrolling). Bezeichner werden im kompilierten Programm nicht mehr benötigt und würden daher unnötig Speicher belegen. Die Programmstruktur wird von vielen Compilern beim Optimierungsvorgang verändert (loop unrolling um bspw. bedingte Sprünge zu vermeiden und die Befehlspipeline von modernen Prozessoren zu nutzen) oder gar aufgelöst und durch andere Konstrukte ersetzt (z. B. Vektorisierung von wiederholten, gleichartigen Operationen auf einem Array um SIMD-Fähigkeiten zu nutzen). Wenn der Compiler also Schleifen im Programmcode durch Maschinenbefehle ersetzt, welche iterierte Instruktionen (also hintereinander ausgeführte Befehle) zu einer einzelnen Maschinenspracheninstruktion zusammenfassen, wird eine Fehlersuche im Programmfluss schwierig oder gar unmöglich (vgl. Black Box).

Die Möglichkeiten des Debuggens von ausführbaren Dateien und Dynamic-Link Libraries (DLLs) auf Maschinencode-Ebene beschränken sich dann im Wesentlichen auf die Ausgabe der zugehörigen Assemblerbefehle sowie des aktuellen Verarbeitungsstands (Maschinenregister, Programmzähler, Datenbereichen des Speichers in tabellarischer Form).

Es ist damit meist schwer, den Ablauf eines Programms bei einem Fehler nachzuvollziehen. Auch müssen spezielle Kenntnisse über die Rechnerarchitektur und Assemblersprache vorhanden sein.

Lösung

Aus diesem Grunde kann der Entwickler den Compiler beim Übersetzen des Programms anweisen, in die Maschinensprache zusätzliche Informationen über das Programm einzubinden, die das Debuggen eines Programms erleichtern und als Debugsymbole oder Symbolinformationen bezeichnet werden. Meist unterlässt der Compiler daraufhin umfangreichere Optimierungen. Der Begriff Symbol wird in diesem Zusammenhang im Sinne von Bezeichner verwendet. Anschließend kann mittels eines symbolischen Debuggers das Programmgeschehen auf Quellsprachenebene der Programmiersprache verfolgt werden.

Solche Debuginformationen umfassen unter anderem die Symboltabelle, welche Informationen über Funktionen und globale Variablen, die im Programm definiert bzw. referenziert sind, enthält und verwaltet (Zuordnung zwischen symbolischen Namen und Maschinenadressen). Außerdem lassen sich Ausdrücke in der Quellsprache durch den Debugger auswerten, indem zum Beispiel ein Matching zwischen Quellcode und dem korrespondierenden architekturabhängigen Assemblercode erzeugt wird.

Nachteile

Da die Informationen meist schon beim Übersetzen des Programms in Maschinensprache mit eingebunden werden, sind die resultierenden ausführbaren Dateien erheblich größer. Sie werden in der finalen Version eines Programms wieder entfernt oder können als separate Datei abgespeichert werden.

Außerdem ermöglichen diese Symboltabellen, nach einem Dekompilieren einen sehr viel leichter verständlichen rückgewonnenen Quelltext zu erhalten. Dies stellt insbesondere für Firmen einen Nachteil dar, deren Quelltext ihrer Software ein Firmengeheimnis bleiben soll (siehe Obfuskation).

Da der Compiler im Allgemeinen die meisten Optimierungen unterlässt, wird die Ausführungsgeschwindigkeit mitunter deutlich herabgesetzt.

Kommerzielle Handhabung

Einige Unternehmen stellen zum Zwecke der Fehlersuche in ihren Programmen separate Debugsymbole für ihre Dateien bereit, die auch separat herunterladen werden können. Microsofts Debugger WinDbg ist zum Beispiel in der Lage, Debugsymbole für Windows-DLLs automatisch herunterzuladen, sofern der Quellcode nicht verfügbar ist.