UniProt

aus Wikipedia, der freien Enzyklopädie

UniProt (universal protein database) ist die größte bioinformatische Datenbank für Proteine aller Lebewesen und Viren, und enthält Informationen über die Proteinfunktion und -struktur sowie Links zu anderen themenrelevanten Datenbanken.[1] Sie kombiniert die Daten von Swiss-Prot, TrEMBL und Protein Information Resource (PIR) und wird in einem regelmäßigen Rhythmus herausgegeben.

Zusammensetzung

UniProt ist ein Konsortium, das sich 2002 aus folgenden Komponenten zusammengeschlossen hat:

Das EBI verfügt über eine große Quelle bioinformatischer Daten, das SIB beherbergt die Server des (ExPASy) (Expert Protein Analysis System), welche essentielle Informationen für die Proteomik bereitstellen. PIR, die von der National Biomedical Research Foundation (NBRF) betrieben wird, leitet sich von der ältesten Proteinsequenzdatenbank (Margaret Oakley Dayhoffs Atlas of Protein sequence and structure) ab.

Die UniProt-Datenbanken

Jedes Mitglied des UniProt-Konsortiums „pflegt“ die Datenbanken. Bis vor kurzem[2] produzierten EBI und SIB zusammen Swiss-Prot und TrEMBL. Das PIR stellte die Datenbank PIR-PSD (Protein Sequence Database) zur Verfügung.

Swiss-Prot ist wohl die bekannteste Proteindatenbank auf Grund ihrer ausführlichen Querverweise, Literaturzitate, der Integration anderer Datenbanken und ihrer minimalen Redundanz. TrEMBL (Translated EMBL Nucleotide Sequence Data Library) ist eine Computer-annotierte Ergänzung der Swiss-Prot-Datenbank, die alle Übersetzungen von EMBL-Nukleotid-Einträgen enthält, die noch nicht in Swiss-Prot integriert vorliegen. Dies ermöglicht eine schnelle Datenbereitstellung.

Organisation

UniProt beinhaltet drei Elemente, die auf einen bestimmten Gebrauch spezialisiert sind:

  • Die UniProt Knowledgebase (UniProtKB) ist die zentrale Datenbank für Proteinsequenzen. Sie gibt Informationen über die Funktion und Klassifikationen der Proteine und stellt Querverweise her.
  • Das UniProt Archive (UniParc) speichert die Gesamtheit aller öffentlich erhältlichen Proteinsequenzdaten.
  • Die UniProt Reference Clusters (UniRef) sind Datenbanken, die dem Benutzer eine schnellere Suche ermöglichen, indem sie verhindern, dass redundante Verknüpfungen verfügbarer Sequenzen erscheinen. So werden unter anderem identische Sequenzen und Vor-Fragmente (von verschiedenen Organismen) in einer Dateneintragung kombiniert.

Weblinks

Einzelnachweise

  1. The UniProt Consortium (2007): The Universal Protein Resource (UniProt). In: Nucleic Acids Res. Bd. 35, S. D193-D197. PMID 17142230 doi:10.1093/nar/gkl929
  2. UniProt-Hintergrundinformationen