#7: Der rote Knopf

Mehr als einmal stand die Welt an der Schwelle zu einem Atomkrieg. Diese Folge erzählt die Geschichte von Stanislaw Petrow, der durch sein Handeln im Jahre 1983 einen Sowjetischen Atomschlag gegen die USA verhinderte.

Damals zeigten die Frühwarnsysteme nämlich einen amerikanischen Angriff an. Es handelte sich dabei aber um einen Fehler bei der Beobachtung der sowjetischen Satelliten. Petrow erkannte dies und entschied sich unter einem enormen Zeitdruck dafür, dass es sich um einen Fehlalarm handeln musste. Er lag richtig.

Leider war das nicht der einzige Fall in der Geschichte, in der es versehentlich fast zu einem Einsatz von Atomwaffen kam.

#6: Fehlerkultur

Was ist eigentlich eine gesunde Fehlerkultur und wie kann man diese in einem Team oder Unternehmen voranbringen? Zu diesem Thema unterhalte ich mich mit Christoph Petrausch.

Christoph sorgt als Cloud Engineer dafür, dass die Infrastruktur von großen IT Systemen läuft. Bei seiner Arbeit ist ihm wichtig, dass man konstruktiv und offen mit Fehlern umgeht. Wir sprechen darüber, wie das im Alltag aussieht und gehen am Beispiel des Blameless Post Mortem darauf ein, wie man eine solche Fehlerkultur konstruktiv und zielgerichtet angehen kann.

#5: Denver, wir haben ein Problem!

Der Denver International Airport sollte ein Flughafen der Superlative werden. Für das Gepäck war die größte vollautomatische Highspeed Gepäcktransportanlage der Welt gebaut werden. Doch die enorme Komplexität der Anlage sorgte für Chaos.

In der Folge beschäftigen wir uns mit der Geschichte des Flughafens und schauen uns die aufgetretenen Probleme im Detail an. Was waren denn die Gründe dafür? Einen großen Einfluss hatten die unterschätzte Komplexität und der enorme Zeitdruck.

Aber was genau ist eigentlich Komplexität und wie kann man damit vernünftig umgehen? Mit dieser Frage beschäftigt sich die Episode zum Ende hin. Außerdem gibt es noch Audio-Feedback von Daniel. Er erklärt uns, was es mit dem Jahr-2038 Problem auf sich hat.

#4: Das Jahrtausend-Ding

Das Jahr 2000 war etwas ganz Besonderes. Nicht nur, dass es irgendwie nach Science Fiction aussah, wenn die Jahreszahl plötzlich mit 2 statt mit 1 begann. In den Tiefen unserer IT-Systeme schlummere ein Fehler aus den Urzeiten der Computer. Damals wurde nämlich wegen knappem Speicher die Jahreszahl nur mit zwei anstatt mit vier Ziffern gespeichert. Was würde denn geschehen, wenn der Zähler von 99 auf 00 umspringt? Würde das unsere Technik ins Jahr 1900 zurückkatapultieren?

Glücklicherweise blieb damals die große Katastrophe aus. Aber man kann in der Retrospektive viel aus dieser Geschichte lernen, zum Beispiel den adäquaten Umgang mit Legacy-Systemen.

#3: Bad Units on Mars

Der Weltraum, unendliche Weiten. Wir schreiben das Jahr 1999. Dies sind die Abenteuer des Mars Climate Orbiter, der seit 286 Tagen auf seiner Reise zum Mars ist. Doch am Ziel angekommen reißt der Kontakt ab und die Sonde verglüht wahrscheinlich in der Atmosphäre des roten Planeten. Die Mission ist verloren. Grund dafür ist ein Fehler bei der Berechnung der Flugbahn. Die Systeme nutzen nämlich unterschiedliche Einheiten. Während die NASA mit metrischen Einheiten rechnet, verwendet der Hersteller der Sonde imperiale Einheiten. Ein kleiner Fehler mit großen Folgen.

#2: Error Inside

Beim Pentium FDIV-Bug kam es bei bei manchen Gleitkommadivisionen zu Ungenauigkeiten. Obwohl der Fehler relativ selten war und für die meisten Leute keinerlei Auswirkung hatte, entwickelte sich die Sache damals für Intel in ein PR-Desaster. Das lag nicht zuletzt am schlechten Umgang mit den öffentlichen Meinungen.

Begleitet mich heute auf eine Reise in die 90er, lernt die Ursprünge der Firma Intel und die kurze Geschichte der x86 Prozessoren kennen und findet heraus, welches große WTF für die fehlerhaften Divisionen im Pentium verantwortlich war.

Achtung: Nach dieser Folge habt ihr eventuell große Lust, in die Tiefen des Internets abzutauchen und euch Details zu alten Prozessoren durchzulesen. In dem Fall: einfach machen.

#1: A Knightmare on Wall Street

Die Geschichte von Knight Capital mutet wie ein Best-of von Bad Practices in der Softwareentwicklung an. Viele Jahre hat das Unternehmen Glück. Aber an diesem schicksalhaften 1. August 2012 wird eine Kettenreaktion in Gang gesetzt, die das Unternehmen in nur 45 Minuten einen Verlust von 460 Millionen Dollar beschert.

Ich verzichte bei dieser Geschichte auf die meisten Fachbegriffe aus der Finanzwelt. Das spare ich mir für Wolfgangs Börsen-Podcast auf. Außerdem rechne ich durch, wieviele Sekunden Jeff Bezos arbeiten muss, um mein Gehalt zu übertreffen.

Erkenntnis der Folge: Wenn man sich direkt am Anfang der Recherche verliest und statt „Peg“ versehentlich „Pug“ liest, so bekommt man diesen Mops nicht mehr aus dem Kopf.

#0: Hello World – Eins oder Null, das ist hier die Frage!

Da der erste Schritt bekanntlich der schwerste ist, fange ich einfach mit dem nullten Schritt an. Ich erzähle etwas über das Konzept von Digitale Anomalien und über meinen Background. Am Beispiel vom Off-by-one-Bug erkläre ich, wie und warum Fehler in Programmen auftreten und wie eine vernünftige Fehlerkultur hier helfen kann.

Und weil ich das Prinzip vom Hauptspeicher mit MS-Excel verglichen habe, werde ich höchstwahrscheinlich in der Computer-Hölle landen und für die nächsten 1000 Jahre Solitär auf einem alten Computer mit Windows 3.11 spielen müssen.