Zeiger (Informatik)

aus Wikipedia, der freien Enzyklopädie
(Weitergeleitet von Zeigerarithmetik)
Datei:Pointers-de.svg
Der Zeiger a zeigt auf Variable b. Die Variable b enthält eine Nummer (binär 01101101) und die Variable a enthält die Speicheradresse von b (hexadezimal 1008). In diesem Fall passen die Adresse und die Daten in ein 32-bit-Wort.

Datei:Pointer (Zeiger) in C.ogv

Mit Zeiger (englisch pointer) wird in der Informatik ein Objekt einer Programmiersprache bezeichnet, das eine Speicheradresse zwischenspeichert.

Der Zeiger referenziert (verweist, zeigt auf) einen Ort im Hauptspeicher des Computers. Hier können Variablen, Objekte oder Programmanweisungen gespeichert sein. Das Erlangen der dort hinterlegten Daten wird als dereferenzieren oder rückverweisen bezeichnet; siehe #Zeigeroperationen.

Ein Zeiger ist ein Sonderfall und in einigen Programmiersprachen die einzige Implementierungsmöglichkeit des Konzepts einer Referenz. Zeiger werden in diesem Sinne auch als Referenzvariable bezeichnet.

Zeiger werden unter anderem dazu verwendet, dynamischen Speicher zu verwalten. So werden bestimmte Datenstrukturen, zum Beispiel verkettete Listen, in der Regel mit Hilfe von Zeigern implementiert.

Der Zeiger wurde 1964/65 von Harold Lawson eingeführt und in der Programmiersprache PL/I implementiert.

Zeiger in Programmiersprachen

Zeiger kommen vor allem in maschinennahen Programmiersprachen wie Assembler oder leistungsfähigen Sprachen wie C oder C++ vor. Der Gebrauch in streng typisierten Sprachen wie Modula-2 oder Ada ist stark eingeschränkt und in Sprachen wie Java oder Eiffel zwar intern vorhanden, aber für den Programmierer verborgen (opak). Mit erstgenannten Sprachen ist es möglich, Zeiger auf beliebige Stellen im Speicher zu erzeugen oder mit ihnen zu rechnen.

Manche Programmiersprachen schränken den Gebrauch von Zeigern ein, weil Programmierern bei der Arbeit mit Zeigern leicht schwerwiegende Programmierfehler unterlaufen. Bei Programmen, die in C oder C++ geschrieben sind, stellen sie häufige Ursachen für Pufferüberläufe oder Speicherzugriffsverletzungen (SIGSEGVs) und daraus folgende Abstürze oder Sicherheitslücken dar.[1]

In objektorientierten Sprachen tritt an die Stelle der Zeiger alternativ (C++) oder ausschließlich (Java, Python) die Referenz, die im Gegensatz zu Zeigern nicht ausdrücklich dereferenziert werden muss.

In der Sprache C# oder Visual Basic .NET kommen Zeiger im Grunde nicht vor. Alle Funktionalitäten, die Zeiger bieten, wurden durch Konzepte wie Delegate ersetzt. Es ist jedoch in C#, nicht aber in VB.NET möglich, unsicheren Code zu deklarieren (der auch speziell kompiliert werden muss), um Zeiger wie in C++ nutzen zu können.[2] Damit kann in manchen Fällen bessere Leistung erreicht werden, oder es wird möglich, auf die Windows-API-Funktionen zuzugreifen.

Zeiger in C

Zeiger in C++

Um eine Zeigervariable zu definieren, wird zunächst der Datentyp angegeben, auf den der Zeiger zugreifen kann. Es folgt ein * und dann der Name der Variablen:

string *stringPointer;

Die Variable stringPointer ist also ein Zeiger auf eine Variable vom Datentyp string (siehe Zeichenkette). Anders ausgedrückt, kann in der Variablen stringPointer die Position der Speicherstelle gespeichert werden, an der sich eine string-Variable befindet.

Eine Speicherposition wird Adresse genannt. Die Speicheradressen im Computer sind durchnummeriert und so verbirgt sich hinter der Adresse einfach eine Zahl. Um die Adresse einer Variablen zu ermitteln, wird ihr eine & vorangestellt. Dieses Zeichen wird im Englischen als Ampersand bezeichnet und wird auch in Programmiererkreisen meist so genannt. Das folgende Beispiel zeigt, wie dem Zeiger stringPointer die Adresse der Variablen text zugewiesen wird.

string text = "Willkommen bei Wikipedia!";
stringPointer = &text;

Nachdem die Zeigervariable mit der Adresse der Variablen gefüllt ist, kann man darauf zugreifen, indem man der Zeigervariablen einen * voranstellt:

cout << *stringPointer << endl;

Mit dieser Anweisung wird Willkommen bei Wikipedia!, das in der Variablen text steht, auf der Konsole ausgegeben. Über die Zeigervariable kann der Variablen text auch ein neuer Wert zugewiesen werden:

*stringPointer = "Werde Mitglied bei Wikipedia!";
cout << text << endl;

Mit * vor der Zeigervariablen wird deutlich gemacht, dass nicht auf den Inhalt der Zeigervariablen zugegriffen wird, sondern auf den Speicherplatz, auf den der Zeiger zeigt. Weil stringPointer immer noch die Adresse der Variablen text enthält, wird deren Inhalt nun verändert. Wenn die Variable text ausgegeben wird, erscheint auf der Konsole jetzt Werde Mitglied bei Wikipedia!.

Zeiger auf Arrays

Man kann einer Zeigervariablen direkt ein Array zuweisen. Das Ergebnis ist, dass der Zeiger auf das erste Element des Arrays zeigt.

int triangleNumbers[5];
int* numbersPointer = triangleNumbers;

Interessant ist, dass man in C++ hinter eine Zeigervariable auch die eckigen Klammern des Arrays setzen kann. Die Zeigervariable verhält sich, als wäre sie ein Array. Im folgenden Beispiel wird die Zeigervariable als Array-Variable verwendet:

numbersPointer[0] = 0;
numbersPointer[1] = 1;
numbersPointer[2] = 3;
numbersPointer[3] = 6;
numbersPointer[4] = 10;
cout << *numbersPointer << endl;
cout << numbersPointer[3] << endl;

In diesem Beispiel werden den Elementen des Array die ersten fünf Dreieckszahlen zugewiesen. Mit der vorletzten Anweisung wird der Inhalt des ersten Elements des Arrays, also 0, auf der Konsole ausgegeben. Mit der letzten Anweisung wird der Inhalt des Array-Elements mit dem Index 3, also 6, auf der Konsole ausgegeben.

Zeiger in C#

Die Deklaration eines Zeigertyps in C# erfolgt in einer der folgenden Formen:

int* intPointer;
void* pointer;

Der Datentyp, der vor dem * in einem Zeigertyp angegeben wird, wird als Verweistyp bezeichnet. Zeigertypen können nur innerhalb eines Blocks hinter dem Schlüsselwort unsafe verwendet werden. Nur bestimmte Datentypen, nämlich elementare Datentypen, Aufzählungstypen, Zeigertypen und Strukturtypen können ein Verweistyp sein. Es ist möglich, Konvertierungen zwischen verschiedenen Zeigertypen sowie zwischen Zeigertypen und ganzzahligen Datentypen durchzuführen.

Ein Zeiger kann nicht auf einen Verweistyp oder einen Strukturtyp verweisen, der oder die Verweise enthält, weil ein Objektverweis auch dann in die Garbage Collection aufgenommen werden kann, wenn ein Zeiger darauf verweist. In der Garbage Collection wird nicht nachgehalten, ob von einem der Zeigertypen auf ein Objekt verwiesen wird.

Zeiger auf Arrays

Im folgenden Beispiel wird veranschaulicht, wie mit einem Zeiger und dem Operator [] auf Elemente eines Arrays zugegriffen wird. Dieses Beispiel muss mithilfe der Compileroption AllowUnsafeBlocks kompiliert werden. Der stackalloc-Ausdruck ordnet dem Array einen Speicherblock im Stapel zu.

unsafe
{
	char* pointerToChars = stackalloc char[123];
	for (int i = 65; i < 123; i++)
	{
		pointerToChars[i] = (char)i;
	}
	Console.Write("Die Großbuchstaben in alphabetischer Reihenfolge: ");
	for (int i = 65; i < 91; i++)
	{
		Console.Write(pointerToChars[i]);
	}
}

Typisierte Zeiger

In den meisten höheren Programmiersprachen werden Zeiger direkt mit Datentypen assoziiert. So kann ein „Zeiger auf ein Objekt vom Typ Integer“ normalerweise auch nur auf ein Objekt vom Typ „Integer“ verweisen. Der Datentyp des Zeigers selbst bestimmt sich also durch den Typ, auf den er verweist. In der Programmiersprache C ist dies eine Voraussetzung zur Realisierung der Zeigerarithmetik (s. u.), denn nur durch das Wissen um die Speichergröße des assoziierten Typs kann die Adresse des Vorgänger- oder Nachfolgeelementes berechnet werden. Darüber hinaus ermöglicht die Typisierung von Zeigern dem Compiler, Verletzungen der Typkompatibilität zu erkennen.

Untypisierte Zeiger

Diese Zeiger sind mit keinem Datentyp verbunden. Sie können nicht dereferenziert, inkrementiert oder dekrementiert werden, sondern müssen vor dem Zugriff in einen typisierten Zeigertyp umgewandelt werden.

Beispiele dafür sind der Typ void* in C, C++ und D, in Objective-C vom Typ id oder POINTER in Pascal.

In höheren Programmiersprachen existieren zum Teil keine untypisierten Zeiger.

Nullzeiger

Der Nullzeiger ist ein spezieller Wert (ein sog. Nullwert, nicht zwingend numerisch 0). Wird dieser Wert einer programmiersprachlich als Zeiger deklarierten Variablen zugewiesen, zeigt dies an, dass mit der Zeigervariablen auf „nichts“ verwiesen wird. Nullzeiger werden in fast allen Programmiersprachen sehr gerne verwendet, um eine „designierte Leerstelle“ zu kennzeichnen. Zum Beispiel wird eine einfach verkettete Liste meist so implementiert, dass dem Folgezeiger des letzten Elements der Wert des Nullzeigers gegeben wird, um auszudrücken, dass es kein weiteres Element gibt. Auf diese Weise lässt sich ein zusätzliches Feld, das das Ende der Liste zu bedeuten hätte, einsparen.

In Pascal und Object Pascal heißt der Nullzeiger beispielsweise nil (lateinisch: „nichts“ oder Akronym für „not in list“). In C kennzeichnet das in der Standardbibliothek enthaltene Präprozessor-Makro NULL den Nullzeiger und verdeckt die interne Repräsentation. In C++ heißt der Nullzeiger ebenfalls NULL und ist als Makro für die numerische Null (0) definiert.[3] Im neuen C++-Standard C++11 wurde die Konstante nullptr eingeführt, die eine typsichere Unterscheidung zwischen 0 und dem Nullzeiger ermöglicht. In Python gibt es keinen Nullzeiger (da es keine Zeiger gibt), aber es gibt ein spezielles Objekt None vom Typ NoneType, das für ähnliche Zwecke eingesetzt werden kann[4]. Donald Knuth stellt den Nullzeiger mit dem Symbol dar,[5] diese Konvention wird auch von den Werkzeugen WEB und CWEB (ebenda) verwendet.

Das Dereferenzieren eines Nullzeigers ist meist nicht erlaubt. Je nach Programmiersprache und Betriebssystem führt es zu undefiniertem Verhalten oder einem Programmabbruch per Ausnahmebehandlung (englisch exception) bzw. Schutzverletzung.

Uninitialisierte Zeiger

Falls eine Zeigervariable dereferenziert wird, die nicht auf einen gültigen Speicherbereich des entsprechenden Typs zeigt, kann es ebenfalls zu unerwartetem Verhalten kommen. So kann eine Situation auftreten, wenn eine Variable vor ihrer Benutzung nicht auf einen gültigen Wert initialisiert wurde oder wenn sie noch auf eine Speicheradresse verweist, die nicht mehr gültig ist (wilder Zeiger). Zeigt der Zeiger nicht auf eine gültige Speicheradresse, kann es wie beim Nullzeiger zu einer Schutzverletzung kommen.

Zeigeroperationen

Dereferenzieren
auf das Objekt, auf welches der Zeiger zeigt, zugreifen. Im Falle eines Funktionszeigers z. B. die referenzierte Funktion aufrufen
Inkrementieren/Dekrementieren
den Zeiger auf das Objekt versetzen, das sich im Speicher hinter/vor dem derzeitigen Objekt befindet. Intern wird dies durch Addition oder Subtraktion der Objektgröße realisiert. Diese ist dem Compiler nur bekannt, wenn der Typ des referenzierten Objekts während der Kompilierzeit klar gekennzeichnet ist.
Zerstören
des referenzierten Objektes (siehe Konstruktor/Destruktor). Es bietet sich nach Aufruf des Destruktors an, alle Variablen, die Zeiger auf das zerstörte Objekt enthalten, auf den Nullwert zu setzen, um später erkennen zu können, dass kein gültiges Objekt mehr referenziert wird. Dies ist im Allgemeinen jedoch nicht möglich.
Vergleichen
mit anderen Zeigern auf Gleichheit/Ungleichheit. Manche Sprachen erlauben auch einen Größer-Kleiner-Vergleich zwischen Zeigern.

Zeigerarithmetik

Das Rechnen mit Zeigern auf Basis der Speichergröße des referenzierten Typs wird als Zeigerarithmetik bezeichnet. Dabei können Zeiger erhöht, verringert und subtrahiert werden. Alle Operationen berücksichtigen dabei die Größe des referenzierten Typs. Inkrementiert man beispielsweise den Zeiger auf einen vier Byte großen Datentyp um eins, so wird dessen Wert (also die Speicheradresse) um vier Bytes erhöht. Beim Subtrahieren zweier Zeiger erhält man die Anzahl dazwischen passender Objekte des referenzierten Typs.

In Sprachen wie C wird die Zeigerarithmetik üblicherweise eingesetzt, um über terminierte Arrays zu iterieren, wie in folgendem Programm, das über das Array seiner Argumente iteriert:

#include <stdio.h>

int
main(int argc, char *argv[])  /* argv ist NULL-terminiert */
{
        char **cpp;

        for (cpp = argv; *cpp; cpp++) {  /* cpp wird jeweils um die Größe von char* erhöht */
                printf("arg: %s -- adr: %p\n", *cpp, cpp);  /* dereferenzierter Wert und seine Adresse */
        }
        printf("args: %lu\n", cpp - argv);  /* Anzahl der Elemente im Array */

        return 0;
}

Der Aufruf mit Ausgabe sieht auf einem System mit 8-Byte großen Zeigern beispielsweise so aus:

$ ./b foo bar
arg: ./b -- adr: 0x7fffffffea00
arg: foo -- adr: 0x7fffffffea08
arg: bar -- adr: 0x7fffffffea10
args: 3

Da Zeigerarithmetik als fehleranfällig angesehen wird, wird sie in höheren Programmiersprachen meist nicht unterstützt, wobei dort andere Möglichkeiten gegeben sind, um die gleiche Funktionalität zu erlangen.

Eigenschaften von Zeigern auf Daten

Vorteile

Die Verwendung von Zeigern kann in bestimmten Fällen den Programmablauf beschleunigen oder helfen, Speicherplatz zu sparen:

  • Ist die von einem Programm im Speicher zu haltende Datenmenge am Programmstart unbekannt, so kann genau so viel Speicher angefordert werden, wie benötigt wird (Dynamische Speicherverwaltung).
  • Es ist möglich, während des Programmablaufs nicht mehr benötigten Speicher wieder an das Betriebssystem zurückzugeben.
  • Bei der Verwendung von Feldern bzw. Vektoren kann man mittels Zeigern schnell innerhalb des Feldes springen und navigieren. Anstatt einen Index zu verwenden und so die Feldelemente darüber anzusprechen, setzt man zu Beginn des Ablaufs einen Zeiger auf den Anfang des Feldes und inkrementiert diesen Zeiger bei jedem Durchlauf. Die tatsächliche Schrittweite des Inkrements richtet sich nach dem betreffenden Datentyp. Diese Art des Zugriffs auf Felder wird in vielen Programmiersprachen und Compilern an manchen Stellen intern automatisch so umgesetzt.
  • Verweise auf Speicherbereiche können geändert werden, z. B. zur Sortierung von Listen, ohne die Elemente umkopieren zu müssen (dynamische Datenstrukturen).
  • Bei Funktionsaufrufen kann durch die Übergabe eines Zeigers auf ein Objekt vermieden werden, das Objekt selbst zu übergeben, was eine in bestimmten Fällen sehr zeitaufwendige Anfertigung einer Kopie des Objektes erfordern würde (Referenzparameter).
  • Anstatt Variablen jedes Mal zu kopieren und so jedes Mal erneut Speicherplatz zur Verfügung zu stellen, kann man in manchen Fällen einfach mehrere Zeiger auf dieselbe Variable verweisen lassen.
  • Bei Zeichenketten können direkt Speicherinhalte angesprochen werden, ohne über Objekte und Funktionen gehen zu müssen.

Nachteile und Gefahren

Es gibt Sprachen, die bewusst auf den Einsatz von Zeigern verzichten (s. o.). Dies hat vor allem folgende Gründe:

  • Der Umgang mit Zeigern ist schwierig zu erlernen, kompliziert und fehleranfällig. Vor allem im Sinne von Zeigern zu denken, bereitet Programmieranfängern oft Schwierigkeiten. Auch bei erfahrenen Programmierern kommen Flüchtigkeitsfehler im Umgang mit Zeigern noch relativ häufig vor.
  • In manchen Programmiersprachen ist keine effektive Datentyp-Kontrolle möglich, das heißt, beim Ausführen kann nicht kontrolliert werden, welche Daten an der Zieladresse stehen, und ob diese den Erwartungen (Spezifikationen) des Programmablaufs entsprechen
  • Programmierfehler bei der Arbeit mit Zeigern können schwere Folgen haben. So kommt es z. B. zu Programmabstürzen, unbemerkter Beschädigung von Daten (durch vagabundierende Zeiger), Pufferüberläufen oder „verlorenen“ Speicherbereichen (Speicherlecks): Das Programm fordert ständig mehr Speicher an, der anderen Programmen nicht mehr zur Verfügung steht, bis im Extremfall das Betriebssystem nicht mehr genügend liefern kann.
  • Setzen sich Datenstrukturen aus Zeigern zusammen, die auf einzelne kleine Speicherblöcke verweisen, kann dies insbesondere bei Prozessen, die sehr lange laufen, zur Fragmentierung des Adressraumes führen, so dass der Prozess keinen weiteren Speicher anfordern kann, obwohl die Summe der allozierten Speicherblöcke wesentlich geringer als der verfügbare Speicher ist.
  • Die Effizienz des Prozessor-Caches leidet darunter, wenn eine Datenstruktur auf viele Speicherblöcke verweist, die im Adressraum weit auseinanderliegen. Daher kann es sinnvoll sein, stattdessen Tabellen bzw. Felder (engl.: array) zu verwenden, weil diese eine kompaktere Darstellung im Speicher haben.
  • Letzteres kann sich auch negativ im Zusammenhang mit Paging auswirken.
  • Nicht zuletzt ist ein Zeiger eine typische Ansatzstelle von Malware: Das Schadprogramm braucht nur eine Stelle zu ändern, um auf den eigenen Programmcode zu zeigen: Gibt es keine saubere Kontrolle des für das Programm reservierten Speicherbereichs, kann dieser auch beliebig anderswo liegen. Außerdem sind über fehlgeleitete Zeiger auch Pufferüberläufe einfach zu erzeugen. Insbesondere können so in Datenvariablen liegende Programmcodes zur Ausführung gelangen. Dies stellt eine typische Methode zur Erstinfektion dar.

Intelligente Zeiger

Als Intelligente Zeiger (engl. smart pointers) werden Objekte bezeichnet, die einfache Zeiger einkapseln und mit zusätzlichen Funktionen und Eigenschaften ausstatten. Z. B. könnte ein smart pointer ein dynamisch alloziertes Speicherobjekt freigeben, sobald die letzte Referenz darauf gelöscht wird.

Zeiger auf eine COM- oder CORBA-Schnittstelle sind in manchen Programmiersprachen (z. B. Object Pascal) als Intelligenter Zeiger implementiert.

Funktionszeiger (Methodenzeiger)

Funktionszeiger bilden eine besondere Klasse von Zeigern. Sie zeigen nicht auf einen Bereich im Datensegment, sondern auf den Einsprungspunkt einer Funktion im Codesegment des Speichers. Damit ist es möglich, benutzerdefinierte Funktionsaufrufe, deren Ziel erst zur Laufzeit bestimmt wird, zu realisieren. Funktionszeiger kommen häufig in Verbindung mit Rückruffunktionen (callback function) zum Einsatz und stellen eine Form der späten Bindung dar.

Memberzeiger

In C++ ist es möglich, analog zu Methodenzeigern auch Zeiger auf die Datenmember einer Klasse zu definieren:

#include <cstdint>
#include <vector>

using namespace std;

struct RGB_Pixel {
    uint8_t red = 0, green = 0, blue = 128;
};

// definiert Typalias als Zeiger auf uint8_t Datenmember der Klasse RGB_Pixel
typedef uint8_t RGB_Pixel::*Channel;

// invertiert den ausgewählten RGB-Kanal aller Pixel eines Bildes
void invert(vector<RGB_Pixel>& image, Channel channel) {
    for(RGB_Pixel& pixel: image)
        pixel.*channel = 255 - pixel.*channel;
}

int main() {
    vector<RGB_Pixel> image;
    // Memberzeiger zeigt auf den grünen RGB-Kanal
    Channel green = &RGB_Pixel::green;
    // nur der grüne RGB-Kanal wird invertiert
    invert(image, green);
}

Weblinks

Commons: Zeiger (Informatik) – Sammlung von Bildern, Videos und Audiodateien

Einzelnachweise

  1. Roland Bickel: Automatisierte statische Code-Analyse für sichere Software, all-electronics.de vom 22. Oktober 2015, abgerufen am 4. Juli 2019.
  2. MSDN über unsicheren Code und Zeiger in C#
  3. Bjarne Stroustrup: C++ Style and Technique FAQ
  4. Python 3 documentation: Built-in Constants
  5. Donald Knuth: Fundamental Algorithms (= The Art of Computer Programming). 3. Auflage. Addison-Wesley, 1997, ISBN 0-201-89683-4, S. 234.