#20: Bis zum letzten Tropfen

Der Gimli Glider war ein Flug von Air Canada, der aufgrund von Treibstoffmangel nur durch ein sensationelles Manöver des Piloten gerettet werden konnte. Die Ursache für den Zwischenfall waren eine Kombination von verschiedenen Dingen.

Am Anfang stand ein technischer Defekt der Treibstoffanzeige und ein Zusammenspiel aus fehlerhaften Prozessen und menschlichem Versagen. Dies führte dazu, dass die Tanks des Flugzeugs nur mit Hilfe von manuellen Messungen befüllt wurden.

Leider mussten hierfür verschiedene Einheiten umgerechnet werden. Denn während das notwendige Kerosin für den Flugplan in Gewicht gemessen wird, rechnete die Tankcrew am Boden in Volumen.

Erschwerend kam noch dazu, dass die betroffene Boeing 767 das erste Flugzeug in der Flotte von Air Canada war, dass in metrischen Einheiten rechnete…

#19: Gebrochene Herzen

Im April 2014 wurde ein Bug bekannt, der vom Experten Bruce Schneier als 11 auf der Skala von 1-10 bezeichnet wurde. Der Fehler, der als Heartbleed Bug bekannt wurde, betraf Millionen von Webseiten und erlaubte, vertrauliche Daten zu stehlen.

Dazu gehörten Serverpasswörter oder private Schlüssel. Der Bug stecke in einer Erweiterung von OpenSSL – der de facto Standardbibliothek für sichere und verschlüsselte Kommunikation im Internet.

Durch Heartbleed konnte man mit einem einfachen Aufruf bis zu 64k aus dem Hauptspeicher auslesen. Grund dafür war eine vergessene Überprüfung eines Parameters. Eigentlich ein Fehler, wie er täglich auftritt und normal genauso schnell wieder gefunden und behoben werden sollte.

Doch bei Heartbleed dauerte es 27 Monate, bis der Fehler entdeckt und veröffentlicht wurde.

#18: Deadline im Nacken

Im Jahr 2005 wurde Hartz 4 in Deutschland eingeführt. Um das möglich zu machen, wurde die Software A2LL in Rekordzeit entwickelt. Doch bei der Einführung ging ziemlich viel schief. Denn was da in knappen zehn Monaten entwickelt wurde, hatte nicht nur Kinderkrankheiten, sondern einige ziemlich große Probleme.

In der heutigen Folge geht es daher nicht um einen einzelnen Fehler, sondern um einen Überblick über das Projekt A2LL und die Frage, was man aus einem so komplexen Projekt lernen kann.

#17: Der teuerste Strich aller Zeiten

Im Jahr 1962 ist das Space Race zwischen den USA und der Sowjetunion in vollem Gange. Unter Zeitdruck versucht die NASA mit der Sonde Mariner 1 die Venus zu erreichen. Doch diese geht wenige Minuten nach dem Start verloren.

Wenn man sich die ganze Geschichte der Mariner 1 Mission anschaut, dann ist es überraschend, dass die Mission am Ende an einem Fehler scheiterte, der bereits im Rahmen der Vorgängermission entstanden war. Denn schließlich wurde die Sonde aufgrund des immensen Zeitdrucks in nur 11 Monaten konstruiert.

Die unglückliche Verkettung aus einem Hardwareproblem und einer fehlerhaften Gleichung im Steuercomputer führte dann beim Start dazu, dass die Rakete vom Kurs abkam und gesprengt werden musste.

#16: Solide abgerundet

Im Jahr 1982 führt die Börse von Vancouver einen Aktienindex ein. Dieser verliert kontinuierlich an Wert. Knappe zwei Jahre später hat er fast die Hälfte eingebüßt – obwohl die Wirtschaft gewachsen ist.

Grund dafür ist ein Rundungsfehler. Dieser führt dazu, dass der Wert des Index bei jeder Neuberechnung ein kleines Bisschen verliert. Am Tag schrumpft der Index so um einen Punkt.

Rundungsfehler tauchen nicht aus dem Nichts auf. Wenn man mit Fließkommazahlen rechnet, dann muss man deren Genauigkeit berücksichtigen und sich genau überlegen, wie man damit umgeht. Denn auch wenn eine einzelne Ungenauigkeit wegen einer Rundung nicht stark ins Gewicht fällt: Wird mit solchen Zahlen weitergerechnet, dann können sich langfristig große Fehler einschleichen.

Übrigens führte ein Rundungsfehler auch dazu, dass die Chaostheorie formuliert wurde.

#15: Schwarzer Bildschirm im OP

Bei einer Herzkatheteruntersuchung wird auf einmal der Monitor dunkel, der die Vitaldaten des Patienten anzeigt. Erst ein Reboot des Rechners hilft. Der Patient liegt während des Zwischenfalls sediert im OP.

Im Nachgang zeigt sich, dass während der Behandlung ein Virenscanner den PC scannte, auf dem die medizinische Software lief. Durch eine fehlerhafte Konfiguration wurde der Rechner lahmgelegt.

Dürfen medizinische Geräte und andere kritische Systeme anfällig für solche Dinge sein? Oder wäre es nicht angebracht, hier eine besondere Sorgfalt walten zu lassen. Und was ist eigentlich mit all den Geräten, auf denen noch eine alte Version von Windows läuft, für die es keine Updates mehr gibt?

#14: Der Tippfehler

Im Jahr 1988 startete die Sowjetunion einen weiten Versuch, um den Mars zu erforschen. Die Phobos 1 Mission sollte den gleichnamigen Marsmond erreichen. Doch während des Flugs sorgte ein Tippfehler dafür, dass die Mission scheiterte.

Im Computer der Sonde Phobos 1 schlummerte noch ein Testprogramm. Zeitdruck sorgte dafür, dass es vor dem Start nicht mehr entfernt wurde. Durch einen einfachen Tippfehler in einem der Kommandos, die von der Erde an die Sonde geschickt wurden, wurde dieses Testprogramm aktiviert.

Die Konsequenzen waren fatal. Das Programm deaktivierte die Steuerung der Sonde. Daraufhin drehten sich langsam die Solarpanels aus der Sonne. Es wurde immer weniger elektrische Energie erzeugt, bis sich Phobos 1 schließlich abschaltete.

#13: Fast genau richtig

Im zweiten Golfkrieg bemerkte man, dass das Raketenabwehrsystem Patriot bei langer Betriebszeit zunehmend ungenau wurde. Das führe 1991 dazu, dass eine feindliche Scud-Rakete nicht abgefangen wurde und in der Folge 28 Personen starben.

Die Untersuchung zeigte, dass das Problem ein Rundungsfehler war, der mit steigender Betriebsdauer immer größer wurde. Ursprünglich war das Patriot System nie für lange Einsätze konzipiert worden. Als mobiles System, sollte es immer nur für wenige Stunden am gleichen Ort sein.

Durch die Bedrohungslage im zweiten Golfkrieg setzte man das System nun unter völlig anderen Bedingungen ein. Leider schenkte man diesen geänderten Rahmenparametern zu wenig Beachtung, um den folgenschweren Fehler zu verhindern.

#12: Unter Druck

Die Ölplattform Sleipner A sank bei einem Test im Jahr 1991. Grund dafür war der Sockel aus Beton, der zu schwach für den Druck des Meeres ausgelegt war. Wie konnte es dazu kommen und welche Rolle spielten Computer in diesem Fall?

Für die Berechnungen der Statik nutze man damals die Finite Elemente Methode. Durch mangelnde Rechenleistung und einige Fehler bei der Modellierung der Konstruktion schlich sich allerdings eine falsche Berechnung ein. Dies führte dazu, dass Teile des Sockels zu schwach ausgelegt wurden.

#11: Zertifikate und Unterschriften (Bonusfolge)

Digitale Zertifikate und Signaturen sind ein wichtiger Bestandteil unserer digitalen Infrastruktur. Ihre Rolle beim digitalen Impfpass ist nur nebensächlich. Unsere tagtägliche Kommunikation würde ohne sie und die dahinterliegenden kryptologischen Technologien schlicht und ergreifend nicht funktionieren.

Ich gebe euch in dieser Folge einen kleinen Überblick über die Kryptographie, Public- / Private-Key Verschlüsselungen und schließlich das Thema digitale Signaturen und Zertifikate.

Da das alles (fast) ohne große Katastrophen daherkommt gibt es diese Episode als Bonus dazu. Naja, außerdem habe ich gerade viel Zeit und Lust darauf.