Observability für Schnittstellen: Fehler früh erkennen
Eine Bestellung wird im Shop ausgelöst, landet aber nicht im ERP. Ein Preis aktualisiert sich nicht. Ein Bestand zeigt Verfügbarkeit, obwohl das Lager leer ist. In vielen Fällen bemerkt das niemand im Unternehmen, bis ein Kunde anruft. Genau das ist die Schwachstelle vieler ERP-Shop-Integrationen: Sie funktionieren, bis sie es nicht mehr tun, und der Ausfall fällt erst auf, wenn er bereits Schaden anrichtet. Observability dreht dieses Muster um. Statt auf Beschwerden zu warten, machen Logs, Metriken und Traces den Zustand jeder Schnittstelle sichtbar, sodass Anomalien erkannt werden, bevor sie den Kunden erreichen. Laut einer Branchenauswertung melden 64 Prozent (Uptrends, State of API Reliability 2025) der Organisationen eine Verbesserung der mittleren Behebungszeit um mindestens 25 Prozent, nachdem sie Observability-Praktiken eingeführt haben. Dieser Artikel zeigt, wie [Logging, Tracing und Metriken1 in der Praxis aufgebaut werden und wie die [Middleware2 Sync-Fehler früh sichtbar macht.
Monitoring ist nicht gleich Observability
Die beiden Begriffe werden oft synonym verwendet, beschreiben aber unterschiedliche Reifegrade. Monitoring beantwortet bekannte Fragen: Läuft die Schnittstelle? Ist die Fehlerrate über dem Schwellenwert? Es basiert auf vordefinierten Dashboards und Alerts für Zustaende, die man vorab kennt. Observability geht weiter: Sie befähigt das Team, auch unbekannte Fragen zu beantworten, ohne neuen Code auszuliefern. Warum war diese eine Bestellung 40 Sekunden langsam? Welcher Schritt in der Verarbeitungskette hat den Fehler ausgelöst? Welche Kombination aus Quellsystem und Datentyp produziert wiederkehrende Validierungsfehler?
Der Unterschied ist in verteilten Systemen entscheidend. Eine ERP-Shop-Integration besteht aus vielen beweglichen Teilen: Shop, [Middleware1, ERP, [DATEV2, Zahlungsdienstleister, Versanddienstleister. Ein Problem in einem dieser Systeme kann sich als scheinbar zusammenhangloser Fehler an ganz anderer Stelle zeigen. Reines Monitoring meldet, dass etwas nicht stimmt. Observability erklärt, warum. Gartner prognostizierte, dass bis 2024 rund 30 Prozent (Gartner) der Unternehmen mit verteilten Systemarchitekturen Observability-Techniken einsetzen, gegenüber weniger als 10 Prozent im Jahr 2020 (Gartner).
Der Reifegrad zeigt sich besonders deutlich bei den sogenannten stillen Fehlern. Eine Komponente läuft technisch weiter, ist aber funktional gestört: Ein Dienst antwortet mit HTTP 200, liefert aber leere Daten. Eine Sync verarbeitet Nachrichten, überspringt aber stillschweigend einzelne Datensaetze. Solche Fälle erzeugen gruene Dashboards, während Kunden bereits eine eingeschraenkte Leistung erleben. Reines Monitoring übersieht diese Differenz zwischen technischem und funktionalem Zustand systematisch, weil es nur auf vordefinierte Zustaende prüft. Observability deckt sie auf, indem sie Geschäftskennzahlen mit technischen Signalen verbindet und unerwartete Muster sichtbar macht.
Die Kernfrage der Observability
Die drei Säulen: Logs, Metriken und Traces
Observability ruht auf drei Telemetrie-Signalen, die sich ergänzen (IBM). Jedes beantwortet eine andere Art von Frage, und erst ihr Zusammenspiel ergibt ein vollständiges Bild des Schnittstellen-Zustands. OpenTelemetry, der offene Standard für Telemetrie-Daten, ist seit 2024 über alle drei Säulen hinweg allgemein verfügbar und hat sich als herstellerneutrale Grundlage etabliert (The New Stack, 2024).
Logs
Strukturierte Ereignis-Datensaetze: Was genau ist wann passiert? Jeder Verarbeitungsschritt schreibt einen maschinenlesbaren Eintrag mit Zeitstempel, Quellsystem und Korrelations-ID. Logs liefern den Detailkontext für die Fehleranalyse.
Metriken
Aggregierte Zahlen über die Zeit: Wie oft, wie schnell, wie viele? Fehlerrate, Latenz, Queue-Tiefe und Durchsatz lassen sich als Zeitreihen darstellen und mit Schwellenwert-Alerts versehen.
Traces
Der Pfad eines einzelnen Vorgangs durch alle Systeme: Wo wurde Zeit verbracht, wo trat der Fehler auf? Ein Trace folgt einer Bestellung vom Shop über die Middleware bis ins ERP, mit einer Spanne je Schritt.
Logs sind detailliert, aber teuer zu durchsuchen. Metriken sind kompakt und ideal für Alerts, verlieren aber Kontext. Traces verbinden beides, indem sie einen einzelnen Vorgang über Systemgrenzen hinweg sichtbar machen. In der Praxis beginnt eine Fehleranalyse meist bei einer Metrik (die Fehlerrate steigt), wechselt zu Traces (welche Vorgänge sind betroffen?) und endet bei Logs (was genau ist im fehlerhaften Schritt passiert?). Wie ein durchgängiger Verarbeitungsweg technisch entsteht, beschreibt unser Beitrag zum [Daten-Mapping zwischen ERP und Shop1.
Strukturiertes Logging mit Korrelations-IDs
Freitext-Logs (zum Beispiel 'Fehler beim Verarbeiten der Bestellung') sind für Menschen lesbar, aber maschinell kaum auswertbar. Strukturiertes Logging schreibt stattdessen ein einheitliches Format, in der Regel JSON, mit festen Feldnamen. Jeder Eintrag enthält mindestens Zeitstempel im ISO-8601-Format, Log-Level, Quellsystem, Nachrichtentyp, eine maschinenlesbare Fehlerkategorie und eine Korrelations-ID. Der Log-Management-Markt waechst stark, weil Unternehmen den Wert von Logs als operative Wissensquelle erkennen; Prognosen sehen das Log-Management bis 2035 bei rund 37 Prozent (Research Nester) Marktanteil im Observability-Segment (Research Nester).
{
"timestamp": "2026-06-26T14:20:31Z",
"level": "ERROR",
"correlation_id": "ord-2026-44871",
"source": "shop",
"target": "sap",
"message_type": "order.create",
"error_category": "upstream_unavailable",
"http_status": 503,
"retry_attempt": 2,
"message": "SAP order API returned 503"
}Die Korrelations-ID ist das verbindende Element. Sie wird beim Eingang eines Vorgangs in der Middleware erzeugt und an jeden nachfolgenden Schritt und API-Aufruf weitergereicht. Im Fehlerfall laesst sich damit der gesamte Weg einer Bestellung über alle Systeme hinweg rekonstruieren: Wann wurde sie empfangen, wurde sie validiert, an welches System wurde sie weitergeleitet, wo trat der Fehler auf. Ohne diese durchgängige Verkettung bleibt die Suche nach der Fehlerursache in einem verteilten System ein muehsames Abgleichen von Zeitstempeln.
Ein häufig unterschaetzter Aspekt ist die richtige Granularität der Log-Level. Wer alles auf DEBUG protokolliert, erzeugt Datenmengen, die teuer zu speichern und schwer zu durchsuchen sind. Wer zu sparsam protokolliert, hat im Fehlerfall keine Informationen. Bewaehrt hat sich eine abgestufte Strategie: INFO für den normalen Verarbeitungsfluss, WARN für auffällige, aber nicht kritische Zustaende, ERROR für fehlgeschlagene Vorgänge. Sensible Inhalte wie personenbezogene Daten oder Zahlungsinformationen gehören nicht ins Log oder werden maskiert, damit die Sichtbarkeit nicht zum Datenschutzrisiko wird. Eine DSGVO-konforme Protokollierung definiert klare Aufbewahrungsfristen und beschraenkt den Zugriff auf das Operations-Team.
Metriken und Alerts: Anomalien automatisch erkennen
Metriken verdichten den Zustand einer Schnittstelle auf wenige aussagekraeftige Zahlen, die sich kontinuierlich messen und als Zeitreihe darstellen lassen. Aus ihnen werden Alerts abgeleitet, die das Team benachrichtigen, sobald ein Wert einen definierten Bereich verlaesst. Entscheidend ist die richtige Auswahl der Kennzahlen und die richtige Schwellenwert-Konfiguration.
- Sync-Erfolgsquote: Anteil erfolgreich verarbeiteter Vorgänge an der Gesamtzahl. Ein Abfall von 99,5 auf 96 Prozent innerhalb weniger Minuten ist ein klares Warnsignal.
- Fehlerrate nach Kategorie: Aufgeschlüsselt nach Fehlertyp (Timeout, Validierung, Upstream nicht verfügbar) zeigt sie, ob ein Problem temporaer oder systematisch ist.
- Verarbeitungslatenz: Zeit vom Eingang bis zur erfolgreichen Verarbeitung. Steigende Latenzen kündigen oft Timeouts an, bevor sie eintreten.
- Queue-Tiefe: Anzahl wartender Nachrichten. Eine wachsende Queue bei gleichbleibender Verarbeitungsrate deutet auf einen Kapazitätsengpass.
- API-Antwortzeit der Zielsysteme: Antwortzeiten von [SAP1, Shopware und [DATEV2 separat gemessen, um die Quelle einer Verlangsamung einzugrenzen.
- DLQ-Zuwachs: Jede neue Nachricht in der Dead Letter Queue ist ein nicht verarbeitbarer Vorgang und verdient unmittelbare Aufmerksamkeit.
Statische Schwellenwerte stossen an Grenzen, weil normale Lastschwankungen über den Tag, die Woche und das Jahr stark variieren. Eine Fehlerrate, die nachts harmlos ist, kann zur Mittagszeit auf ein ernstes Problem hindeuten. Anomalieerkennung auf Basis historischer Baselines berücksichtigt diese Muster und reduziert Fehlalarme, die sonst zur Alert-Muedigkeit führen. Die mittlere Erkennungszeit (MTTD) profitiert davon unmittelbar, denn je früher eine Abweichung sichtbar wird, desto kleiner ist das Zeitfenster, in dem Kunden überhaupt etwas bemerken können.
Alert-Muedigkeit vermeiden
Distributed Tracing: Den Weg einer Bestellung verfolgen
Wenn eine Bestellung mehrere Systeme durchläuft, ist es ohne Tracing nahezu unmöglich festzustellen, an welcher Stelle Zeit verloren ging oder ein Fehler entstand. Distributed Tracing folgt einem einzelnen Vorgang über alle Systemgrenzen hinweg und zerlegt ihn in Spannen (Spans), jeweils eine pro Verarbeitungsschritt. Jede Spanne traegt die gemeinsame Korrelations-ID (im Tracing-Kontext oft Trace-ID genannt) und ihre eigene Dauer.
Das Ergebnis ist eine Wasserfall-Darstellung: Die Bestellung kam um 14:20:31 im Shop an, die Validierung in der Middleware dauerte 12 Millisekunden, die Transformation 8 Millisekunden, der Aufruf der SAP-API 39 Sekunden, weil dort ein Timeout auftrat. Auf einen Blick ist erkennbar, dass nicht die Integration langsam ist, sondern das Zielsystem. Diese Praezision verkürzt die Fehlersuche erheblich. Eine wissenschaftliche Auswertung realer SRE-Praxis fand, dass die Behebungszeit am stärksten durch schnelle, praezise Erkennung und vollständige, aber niedrig-kardinale Instrumentierung gesenkt wird (ResearchGate, 2025).
In der Praxis lohnt es sich, nicht jeden Vorgang vollständig zu tracen, sondern eine Abtastrate (Sampling) zu definieren. Erfolgreiche Routinevorgänge werden anteilig erfasst, fehlgeschlagene oder auffällig langsame Vorgänge dagegen vollständig. So bleibt das Datenvolumen beherrschbar, ohne dass die Aussagekraft im Fehlerfall leidet. Für Schnittstellen mit ausgepraegten Lastspitzen, etwa zu Kampagnenzeiten, ist dieses Vorgehen besonders wertvoll: Genau dann, wenn das System unter Druck steht und Fehler am wahrscheinlichsten sind, liefern die Traces die nötige Tiefe, während der Speicherbedarf im Normalbetrieb gering bleibt.
| Säule | Beantwortet | Typische Frage bei Sync-Fehlern |
|---|---|---|
| Metriken | Wie viele, wie schnell? | Ist die Fehlerrate plötzlich gestiegen? |
| Traces | Wo im Ablauf? | In welchem Schritt hängt die Bestellung fest? |
| Logs | Was genau? | Welche Fehlermeldung gab das Zielsystem zurück? |
Früherkennung statt Schadensbegrenzung
Der wirtschaftliche Kern von Observability liegt in der Verkürzung von zwei Zeitspannen: der Zeit bis zur Erkennung (MTTD) und der Zeit bis zur Behebung (MTTR). Je früher ein Sync-Fehler sichtbar wird, desto weniger Vorgänge sind betroffen und desto kleiner die Wahrscheinlichkeit, dass ein Kunde das Problem zuerst bemerkt. Studien zeigen, dass Ausfälle teuer sind: Die meisten Störungen kosten mindestens 100.000 US-Dollar (Uptime Institute, 2025), die schwersten regelmäßig über eine Million (Uptime Institute, 2025).
Im E-Commerce kommt ein direkter Conversion-Effekt hinzu. Die durchschnittliche Warenkorbabbruchrate liegt bei 70,19 Prozent (Baymard Institute, 2025); unerwartete Probleme im Bestell- oder Bezahlprozess verschaerfen sie zusätzlich. Wenn eine Schnittstelle Preise oder Bestaende fehlerhaft ausspielt, wirkt sich das unmittelbar auf den Umsatz aus. Früherkennung bedeutet, solche Abweichungen zu korrigieren, bevor sie viele Kunden erreichen. Die anspruchsvollsten Observability-Anwender senken ihre Ausfallkosten erfahrungsgemäß deutlich gegenüber Einsteigern (Uptrends, 2025).
Die Früherkennung wirkt auch auf die internen Abläufe. Wenn ein Sync-Fehler erst durch eine Kundenbeschwerde auffällt, beginnt eine Kette aus Ticket, Eskalation, Rückfrage und manueller Suche, die häufig mehrere Abteilungen bindet. Wird derselbe Fehler stattdessen durch einen praezisen Alert mit Korrelations-ID gemeldet, steht dem Team sofort der vollständige Kontext zur Verfügung: betroffener Vorgang, Quell- und Zielsystem, Fehlerkategorie und der Zeitpunkt der ersten Abweichung. Die Behebung verkürzt sich dadurch nicht nur technisch, sondern auch organisatorisch. Erfahrungsgemäß sinkt der Anteil der Vorfälle, die über den Kundensupport statt über das Monitoring entdeckt werden, nach Einführung strukturierter Observability spürbar (Projekterfahrung).
Vom reaktiven zum proaktiven Betrieb
Zusammenspiel mit Fehlerbehandlung
Observability und Fehlerbehandlung sind zwei Seiten derselben Medaille. Observability macht sichtbar, was passiert; die Fehlerbehandlung entscheidet, wie das System reagiert. Ein offener Circuit Breaker etwa ist eine Observability-Metrik und gleichzeitig ein Fehlerbehandlungs-Mechanismus. Eine wachsende Dead Letter Queue ist ein Alert-Signal und ein Sicherheitsnetz zugleich. Wer beide Bereiche getrennt betrachtet, verschenkt Potenzial.
In der Praxis greifen die Mechanismen ineinander: Die Retry-Logik schreibt bei jedem Versuch einen strukturierten Log-Eintrag, die Fehlerrate je Kategorie speist die Anomalieerkennung, und der Zustand des Circuit Breakers wird als Metrik visualisiert. Wie Retry, Dead Letter Queue und Circuit Breaker im Detail aufgebaut sind, beschreibt unser Beitrag zur [Fehlerbehandlung in Schnittstellen1. Observability liefert die Datengrundlage, auf der diese Mechanismen sinnvoll konfiguriert und überwacht werden.
Besonders deutlich wird das Zusammenspiel bei der Frage, wann ein automatischer Wiederholungsversuch endet und ein menschliches Eingreifen beginnt. Ohne Sichtbarkeit bleibt diese Grenze willkuerlich; mit Observability laesst sie sich datengestützt ziehen. Wenn die Metriken zeigen, dass ein bestimmter Fehlertyp in 95 Prozent der Fälle nach dem zweiten Versuch erfolgreich ist, aber danach nur noch selten, ist die Maximalanzahl der Versuche schnell begründet festgelegt. Wenn die Anomalieerkennung meldet, dass die Dead Letter Queue ungewoehnlich schnell waechst, ist das ein Signal für ein systematisches Problem, das kein Retry lösen wird. So verhindert die Kombination aus Sichtbarkeit und Reaktion sowohl unnötige Wiederholungen als auch übersehene Eskalationen.
Observability in bestehende Integrationen nachruesten
Auch eine produktiv laufende [Shop-Integration1 ohne ausreichende Sichtbarkeit laesst sich schrittweise nachruesten, ohne den Betrieb zu unterbrechen. Der Aufbau folgt in der Regel einer pragmatischen Reihenfolge, die zuerst die größten blinden Flecken beseitigt.
- Strukturiertes Logging einführen: Bestehende Log-Ausgaben auf ein einheitliches JSON-Format umstellen und Korrelations-IDs durchgängig vergeben.
- Kennzahlen definieren: Die wichtigsten Metriken (Sync-Erfolgsquote, Fehlerrate, Latenz, Queue-Tiefe) erfassen und als Zeitreihe speichern.
- Dashboard aufbauen: Echtzeit-Sicht auf den Zustand aller Schnittstellen mit historischen Trends für die Einordnung.
- Alerts und Eskalation: Schwellenwerte definieren, Anomalieerkennung aktivieren, Benachrichtigungswege nach Schweregrad festlegen.
- Tracing ergänzen: Distributed Tracing einführen, um einzelne Vorgänge über Systemgrenzen hinweg nachverfolgen zu können.
- Feinabstimmung: Schwellenwerte anhand realer Daten justieren, Fehlalarme reduzieren, blinde Flecken schließen.
Wichtig ist, Observability nicht als einmaliges Projekt zu verstehen, sondern als laufende Praxis. Schwellenwerte müssen mit dem Geschäftswachstum mitwachsen, neue Schnittstellen brauchen vom ersten Tag an Instrumentierung, und die Aussagekraft der Dashboards sollte regelmäßig hinterfragt werden. Ein Dashboard, das niemand mehr ansieht, oder ein Alert, den alle ignorieren, liefert keinen Mehrwert. Die periodische Überprüfung, welche Signale tatsächlich zu Handlungen geführt haben, haelt das System schlank und wirksam.
Der Aufwand richtet sich nach der Komplexität der bestehenden Landschaft. Eine erste, deutliche Verbesserung der Sichtbarkeit ist meist innerhalb weniger Wochen erreichbar, weil bereits strukturiertes Logging mit Korrelations-IDs einen Grossteil der typischen Fehlerquellen aufdeckt. Welche Schnittstellenform sich dafür am besten eignet, behandelt unser Vergleich von [REST-API und Middleware1.
Quellen und Studien