The New York Times: For Big-Data Scientists, ‘Janitor Work’ Is Key Hurdle to Insights
Archiv des Autors: Christian Tegelkamp
Mission possible: Von Excel zum R-folg
„Oh. Da ist ja ein harter Wert drin. Wo ist denn die Formel geblieben?“
„Kein Wunder, dass der Wert so gering ist. Die Formel schließt gar nicht alle Zellen ein…“
Verschachtelte „sverweis“-, „indirekt“- und „wenn“-Formeln über viele Zeilen. Jeder, der schon ein wenig länger mit Tabellenkalkulationen arbeitet, hat sicher schon unangenehme Überraschungen erlebt. Mit etwas Glück sind dabei keine spektakulären Schäden entstanden, wie sie von der European Spreadsheet Risks Interest Group gesammelt werden: Excel-Horrorgeschichten.
Warum werden Tabellenkalkulationen dann so häufig auch für komplexe Berechnungen genutzt? Darum:
„The easy way looks hard – the hard way looks easy.“
-Patrick Burns-
Patrick hat dazu unter der Überschrift Spreadsheet Addiction ein paar interessante Gedanken aufgeschrieben.
Zentraler Grund für die weite Verbreitung von Tabellenkalkulationen ist seiner Einschätzung nach die durch den Nutzer wahrgenommene Nützlichkeit und die wahrgenommene Einfachheit – nicht immer korrespondiert jedoch die Wahrnehmung mit der Realität.
Nachfolgend einmal kurz zusammengefasst einige zentrale Punkte, die zur Fehleranfälligkeit von Tabellenkalkulationen führen. Einige der Punkte können gleichzeitig auch als Stärke interpretiert werden.
- Fehlende Unterscheidbarkeit von Formel und Wert
- Intransparente Zuweisung von von Datentypen (bspw. Zahl als Text und umgekehrt)
- (Zu) einfache Datenstruktur
- Fehlende Befehlshistorie bzw. schwierige Nachvollziehbarbeit von verschachtelten Formeln
- Tendenz, mit der Zeit immer komplexer zu werden
Zusammenfassend ist festzuhalten: Tabellenkalkulationen sind das richtige Werkzeug für einfache Problemstellungen mit einfachen Daten. Sobald Daten und Problemstellung nicht mehr völlig trivial sind, steigt der Aufwand zur Sicherstellung einer angemessenen Ergebnisqualität deutlich an – möglicherweise lohnt es sich dann, über Alternativen nachzudenken.
Hier mal ein paar Anregungen für erste Schritte:
- Martin, Liz – R you still using Excel
- Burns, Patrick – First steps towards r spreadsheets
- Burns, Patrick – From spreadsheet thinking to R thinking
Für den Nagel den Hammer, für das Rohr den Lötkolben, für Datenanalyse R – immer das richtige Werkzeug im Werkzeugkasten.
Asset Correlation und Default Correlation – wo ist da eigentlich der Unterschied?
Diese verhältnismäßig einfache Erklärung zeigt ganz anschaulich, wo die Unterschiede zwischen der Asset Correlation und der Default Correlation liegen, wie man beide ineinander überleiten kann und welche Ansätze es gibt, um die Größen empirisch abzuleiten:
Zhang et al (2008) – Asset Correlation, Realized Default Correlation and Portfolio Credit Risk
IRBA-Zulassung erteilt: Deutsche Apotheker- und Ärztebank eG und Münchener Hypothekenbank eG erhalten aufsichtsrechtliche Zulassung für die Anwendung des Commercial Real Estate-Ratings der CredaRate Solutions GmbH
Status
Loterman, Gert (2013) – Predicting Loss Given Default
Link
Backtesting Framework der Rabobank für PD, LGD und EAD
Link
Validierung der Langzeithistorie der Jahresausfallraten nach SolvV
Nachdem die Regelungen von Basel II jetzt einige Jahre im Einsatz sind, stellt sich mit der zunehmenden Datenhistorie die Frage, wie die Qualität der Prognosen gegen die Langzeitdurchschnitte zu validieren ist. Zum Thema der „Langzeithistorie der Jahresausfallraten“ mache ich hier mal einen Diskussionsvorschlag. Weiterlesen
BCBS 239: Neue Anforderungen an Risikoreporting und Risikodatenaggregation von der BIS
Die Bank für Internationalen Zahlungsausgleich (BIS) hat im Januar 2013 ein Papier veröffentlicht, in dem hohe und umfangreiche Anforderungen an Datenmanagement und -qualität gestellt werden: „BCBS 239: Principles for effective risk data aggregation and risk reporting„.
Die folgenden Ziele stehen bei den Vorgaben im Fokus:
- Verbesserung der Infrastruktur für risikorelevante Schlüsselinformationen
- Verbesserung des Entscheidungsprozesses in den Unternehmen
- Optimierung des Informationsmanagements auch über verschiedene rechtliche Einheiten
- Reduzierung der Wahrscheinlichkeit und der Höhe von Schäden durch Schwächen im Risikomanagement
- Verkürzung der für die Informationsbereitstellung benötigten Zeiten
- Verbesserung des strategischen Planungsprozesses
- Bessere Möglichkeiten zum Management des Risikos aus neuen Produkten oder Dienstleistungen
Die Beratungs- und Prüfungsgesellschaften haben die Auswirkungen bereits umfangreich untersucht (und scheinen sich das eine oder andere Geschäft zu versprechen). Hier eine nicht repräsentative Auswahl:
Exkurs: Die Freuden des Risikocontrollers. Oder: Warum Ratings immer falsch sind.
Als Risikocontroller erlebe ich immer wieder folgenden Dialog am Telefon:
A. Nonym: „Hallo Herr Tegelkamp, Andreas Nonym hier.“
Ich: „Hallo Herr Nonym. Was kann ich für Sie tun?“
A. Nonym: „Ich habe hier einen Kunden, da ist das Rating falsch. Der fällt doch nicht aus.“
Was habe ich darauf wohl geantwortet? Die Antwort gibt es erst am Schluss…
Wie funktioniert das überhaupt mit dem Rating?
Nehmen wir mal an, es gibt zwei wichtige Kennzahlen, sagen wir Ertrag und Substanz. Für beide Kennzahlen gelte der Wertebereich von 0 Punkten bis 50 Punkten. Dabei sei 0 Punkte der schlechteste, 50 Punkte der beste Wert. Der beste Kunde mit bestem Ertrag und stärkster Substanz hätte somit in Summe 100 Punkte. Der schlechteste Kunde ohne Ertrag und ohne Substanz würde 0 Punkte erhalten. Weiterlesen