Home > Evolution, Gesellschaft, Medizin, Natur, Visionen > DNA als Speicher

DNA als Speicher

Wenn man die Aprilausgabe einer Zeitschrift liest, muss man immer gegenwärtig sein, einem Aprilscherz aufzusitzen. Im Fall des Artikels „Datenspeicher für die Ewigkeit“ in „Spektrum der Wissenschaft“ 4/2013 war ich mir aber sicher, dass er kein Scherz ist. Sucht man im Netz nach „DNA als Speicher“, wird man mit einer ganzen Reihe von Artikeln überschwemmt, die alle über ähnliche Experimente berichten.

Schon lange ist ja bekannt, dass DNA in Lebewesen zur Kodierung des Aufbaus von Proteinen dient. In der Wikipedia kann man zum Aufbau der DNA u.a. lesen:

Die Desoxyribonukleinsäure ist ein langes Kettenmolekül (Polymer) aus vielen Bausteinen, die man Desoxyribonukleotide oder kurz Nukleotide nennt. Jedes Nukleotid hat drei Bestandteile: Phosphorsäure bzw. Phosphat, den Zucker Desoxyribose sowie eine heterozyklische Nukleobase oder kurz Base. Die Desoxyribose- und Phosphorsäure-Untereinheiten sind bei jedem Nukleotid gleich. Sie bilden das Rückgrat des Moleküls. Einheiten aus Base und Zucker (ohne Phosphat) werden als Nukleoside bezeichnet.

Bei der Base kann es sich um ein Purin, nämlich Adenin (A) oder Guanin (G), oder um ein Pyrimidin, nämlich Thymin (T) oder Cytosin (C), handeln. Da sich die vier verschiedenen Nukleotide nur durch ihre Base unterscheiden, werden die Abkürzungen A, G, T und C auch für die entsprechenden Nukleotide verwendet.

Die allbekannte Doppelhelix der DNA entsteht, weil sich jeweils zwei gegenüberliegende Nukleotide eines der beiden Doppelhelix-Einzelstränge miteinander verbinden:

Es paaren sich immer Adenin und Thymin, die dabei zwei Wasserstoffbrücken ausbilden, oder Cytosin mit Guanin, die über drei Wasserstoffbrücken miteinander verbunden sind.

Die Kodierung der 20 (uns bekannten und in Proteinen genutzten) Aminosäuren erfolgt jeweils über ein Triplett solcher Paarungen (Codons). Da es mit vier verschiedenen Paaren 43 Kombinationsmöglichkeiten gibt, sind einerseits einige Aminosäuren doppelt kodiert, anderseits gibt es Kombinationen, die keiner Aminosäure entsprechen und z.T. andere Funktionen erfüllen, z.B. können sie den Anfang und das Ende eines Abschnitts (eines Gens) markieren, das ein Protein kodiert.

Beim Lesen der DNA gab es in den letzten Jahren gewaltige Fortschritte. Beim Human Genom Project hatte es immerhin noch knapp 13 Jahre (1990-2003) gedauert, bis in internationaler Zusammenarbeit das menschliche Genom komplett entschlüsselt wurde, die Kosten lagen dafür etwa bei 300 Millionen Dollar. Jetzt gibt es entsprechende Geräte bereits für etwa 150.000 Dollar. Angestrebt wird die 1000-Dollar-Marke für die Sequenzierung des Erbguts eines einzelnen Menschens in einer Zeit von weniger als 24 Stunden, siehe z.B. hier. Bei der Synthese von beliebiger DNA gibt es ähnlich rasante Fortschritte, vorangetrieben wird das von der synthetischen Biologie.

Abstrahiert man die Anwendung der DNA in Lebewesen, dann stellt sie einen besonderen Typ von Speicher dar – für den es in Lebewesen sowohl eine ganz besondere „Anwendung“ als auch Mechanismen zum „Schreiben“ und zum „Lesen“ gibt. Die jetzt außerhalb von Lebewesen ge/erfundenen Möglichkeiten des Schreibens und Lesens von DNA legen es nahe, ihre Anwendung auch für andere Formen der Informationsspeicherung zu untersuchen. Die Speicherkapazitäten pro Volumeneinheit wären jeweils gigantisch, weil die Speicherung eines Bits, der kleinsten Informationseinheit, nur jeweils wenige Atome bzw. Moleküle benötigt. Hier wird die mögliche Informationsmenge abgeschätzt:

100 Millionen Stunden HD-Videos in einer Kaffeetasse

Das ist natürlich gigantisch übertrieben, denn bei einer Speicherung auf molekularer Ebene muss man durch eine Vielzahl von identischen Kopien dafür sorgen, dass Fehler in einzelnen Molekülen nicht zu Datenverlusten führen. In dem eingangs bereits erwähnten Artikel in „Spektrum der Wissenschaften“ ist das ganze Procedere beschrieben. Interessant sind die Details, mit denen die Probleme mit möglichen Lese- und Kopierfehlern gelöst wurden:

Eine Folge von Nullen und Einsen lässt sich als eine Zahl im Zweiersystem auffassen: 10011010 ist die Zahl, die wir in unserem gebräuchlichen Dezimalsystem als 158 schreiben. Man könnte jedem der vier DNA-Bausteine (Nukleotide) A, G, C und T ein Paar von Binärziffern zuweisen, zum Beispiel A=00, C=01, G =10 und T=11. Dann wäre die oben genannte Binärkette als GCGG zu kodieren; aber das doppelte G führt leicht zu Fehlern. Alternativ könnte man zum Beispiel A oder T für die Binärziffer 0 schreiben, G oder C für die 1, und bei gleichen Ziffern in Folge immer von der einen Möglichkeit zur anderen wechseln. Das verhütet zuverlässig unmittelbare Wiederholungen im DNA-Strang, macht ihn aber doppelt so lang wie zuvor.

Platzsparender und trotzdem wiederholungsfrei geht es mit dem Verfahren von Coldman und Kollegen. Sie stellten die Folge der Binärziffern als Ternärzahl dar,das heißt im Zahlensystem zur Basis 3.lm Beispiel:10011010 (binär) = 158 (dezimal) = 1*34 + 2*33 + 2*32 + 1*31 +2*30 = 12212 (ternär). Eine Ternärzahl enthält nur die Ziffern 0,1 und 2; die Forscher nennen sie „Trits“ in Analogie zu den „Bits“ („binary digits.) des Binärsystems.

Jedes Trit wird nun durch eines der vier Nukleotide A, G, C und T kodiert, und zwar in Abhängigkeit vom Vorgängernukleotid. Dadurch werden Dopplungen vermieden. Allerdings führt ein einziger Lesefehler dazu, dass der ganze Rest des Textes falsch interpretiert wird. Fehlerhafte Fragmente sind also nicht einmal teilweise nutzbar, sondern müssen komplett verworfen werden -kein Problem bei der großen Anzahl von Kopien, von denen sich eine überwältigende Mehrheit fehlerfrei lesen lässt.

Das nachfolgende Bild verrät noch einige weitere Details:

  • Jeder DNA-Schnipsel wurde nummeriert und enthält eine Prüfsumme.
  • Aufeinanderfolgende Schnipsel besitzen überlappende Abschnitte.

Außerdem enthält der fertige Informationsspeicher jeden Schnispel millionenfach, sodass Kopier- oder Lesefehler auf einzelnen Schnipseln leicht aussortiert werden können.

Über das tatsächlich ausgeführte Experiment erfährt man in dem Artikel:

Sämtliche Sonette von Shakespeare, ein Foto des Instituts, Watson und Cricks klassisches Paper über die Struktur von DNA, einen MP3-Auszug aus Martin Luther Kings Rede »I have a dream« und eine Datei mit Kodierungsvorschriften – insgesamt 739 Kilobyte – hatten sie in eine Folge aus den Zeichen A, C, G und T umgewandelt…

In dem Experiment dauerte das Schreiben zwei Tage und das Lesen fast zwei Wochen, und man hätte zu Marktpreisen etwa 10000 Euro aufwenden müssen. Für den Alltagsbedarf ist diese Speichermethode also offensichtlich ungeeignet.

Noch! Und das ist auch nicht der Punkt. Wesentlich ist ein anderer Aspekt:

Die Untersuchungen an Wollhaarmammuts aus dem sibirischen Permafrost oder gar an Neandertalerknochen zeigten, dass unter günstigen Bedingungen die Erbgutsequenz über mindestens 10000 Jahre erhalten bleibt. Kühl, trocken und dunkel gelagert könnte sie locker die kommenden Generationen überdauern.

In der Tat ist es ein großes Problem heutiger Speichertechniken, Daten auch nur ein paar Jahre zu erhalten. Ganz im Gegensatz zu Steintafeln der Summerer und Ägypter und selbst zu Papier oder Pergament, das wenigstens ein paar Jahrhunderte erhalten bleibt – man versuche heute nur, sogenannte „8-Zoll-Disketten“ zu lesen, die noch vor reichlich 20 Jahren en masse verwendet wurden. Letztlich war es deshalb der folgende Satz, der mich dazu motiviert hat, den Artikel aus SdW zu zitieren:

Solange die Menschheit ein wissenschaftliches Interesse für ihr Erbgut aufbringt, werden die passenden »Lesegeräte« zur Verfügung stehen.

Ich glaube, das gilt nicht nur für die Menschheit, sondern das gilt für jede Spezies, die unter Umständen die Menschheit überlebt und deren ferne Nachfahren vielleicht dereinst eine unserer eigenen vergleichbare intellektuelle Höhe erreicht.

  1. Bisher keine Kommentare
  1. Bisher keine Trackbacks