Dynatrace gaat van APM en observability naar Autonomous Intelligence

Dynatrace gaat van APM en observability naar Autonomous Intelligence

Dynatrace bestaat dit jaar twee decennia. Het bedrijf begon met traditionele application performance monitoring (APM), maar heeft zich ontwikkeld tot een platform dat AI en automatisering combineert om complexe IT-omgevingen te beheren. De nieuwste versie van het platform moet problemen voorspellen en ze automatisch oplossen. Dit wordt ook wel het Dynatrace 3rd-generation platform genoemd. We spraken erover met VP EMEA Solutions Engineering Roman Spitzbart.

Dynatrace begon in 2005 met het verzamelen van trace data uit applicaties. Organisaties wilden weten waarom een applicatie traag was en wat er precies gebeurde. Die eerste generatie was vooral handmatig en technisch van aard. “Het ging om data verzamelen en begrijpen wat er aan de hand was”, legt Spitzbart uit. APM bleef lange tijd de basis van het bedrijf en is ook vandaag de dag nog een kerncomponent.

In 2014 kwam er echter een belangrijke verschuiving, toen Dynatrace het 2nd-generation platform lanceerde. De focus verschoof van alleen data tonen naar daadwerkelijk antwoorden geven. AI werd voor het eerst ingezet om patronen te herkennen en problemen te identificeren. Die ontwikkeling zette de toon voor de richting die het platform lange tijd opging. Dynatrace werd met name bekend als observability-tool.

De derde generatie, die vandaag de dag de boventoon voert, draait volledig om automatisering. Observability-data stuurt nu acties aan. Het platform lost niet alleen problemen op, maar anticipeert erop. Dit wordt ook wel autonomous intelligence genoemd. Het moet functioneren als een real-time control system voor iedere organisatie. Data wordt omgezet in inzichten (Knowledge), AI begrijpt vervolgens de business- en technische context (Reasoning) en daarna volgen automatische beslissingen op basis van de doelen die medewerkers hebben gedefinieerd (Actioning).

Context als fundament voor betrouwbare AI

Een van de grootste uitdagingen die Dynatrace met de nieuwe versie van het platform aan wil pakken, is complexiteit. Organisaties werken met tientallen tot honderden verschillende systemen die met elkaar verbonden zijn. Het is echter lastig om de data uit al die systemen samen te brengen en te begrijpen. Dynatrace introduceerde in 2022 daarom Grail als data lakehouse, dat alle observability-data op één plek verzamelt. Die data-omgeving vormt een basis voor de Knowledge-component van autonomous intelligence.

Binnen de filosofie van Dynatrace staat context centraal. Het gaat naast het verzamelen van metrics, logs en traces, ook om het begrijpen hoe die met elkaar samenhangen. “Als je context aan AI toevoegt, dan pas heeft AI echt waarde”, aldus Spitzbart. Zonder context geeft AI generieke antwoorden die weinig helpen bij het oplossen van concrete problemen.

Deze nadruk op context moet Dynatrace onderscheiden van andere oplossingen op de markt. De security-architectuur van bedrijven leunt bijvoorbeeld vaak op een veelvoud van verschillende tools, wat leidt tot een silostructuur. Het combineren van observability-data met security-informatie creëert dan een compleet beeld. Zo wordt duidelijk of een security-incident daadwerkelijk impact heeft op de werking van applicaties.

Agentic AI als volgende stap

Spitzbart schetst ook een wereld waarin software zichzelf repareert. Voor de business betekent het dat er minder handmatige interventie nodig is. Developers krijgen de volledige context wanneer er iets misgaat, zodat ze snel kunnen ingrijpen. En operations-teams streven naar volledige autonomie bij het afhandelen van incidenten, wat ook mogelijk wordt.

Een voorbeeld dat Spitzbart deelt laat zien hoe dat werkt. In het voorbeeld krijgt een service owner automatisch een probleem toegewezen. Het systeem analyseert vervolgens logs en traces, identificeert de hoofdoorzaak en maakt een ticket aan. Dat is nu al beschikbaar in het Dynatrace-platform. De volgende stap is integratie met externe agentic AI-tools, zoals GitHub Copilot. Deze agent krijgt context van Dynatrace en stelt vervolgens een code-fix voor.

De developer hoeft alleen nog te controleren of de voorgestelde oplossing correct is. Het systeem draait vervolgens testcases om te valideren dat het probleem daadwerkelijk is opgelost. Pas dan wordt de fix uitgerold naar productie. Spitzbart benadrukt dat veel van deze stappen al werken: “Dit is niet een vijfjaarvisie, het is binnen anderhalf jaar functioneel.”

Presentatie slide met de titel "Dynatrace evolueert naar een intelligent software resilience platform" met drie hoofdpunten over AI orkestratie, functionaliteit en samenwerking.

Open ecosysteem voor AI-samenwerking

Dynatrace werkt momenteel ook verder aan een systeem waarin interne en externe AI-agents met elkaar samenwerken. Recent introduceerde het bedrijf een Model Context Protocol (MCP) server. Daardoor kunnen agents op een gestandaardiseerde manier met het platform communiceren. GitHub Copilot kan bijvoorbeeld vragen stellen aan Dynatrace om meer context te krijgen voordat het een oplossing voorstelt.

Het idee is dat Dynatrace fungeert als orkestrator. Het coördineert verschillende AI-agents die elk hun eigen expertise hebben. Een Kubernetes-agent kan bijvoorbeeld een extra pod starten om druk te verlichten. Een security-agent controleert of wijzigingen voldoen aan compliance-regels. Dynatrace zorgt dat alle agents toegang hebben tot de juiste context.

Die aanpak moet passen bij de architectuur die we van Dynatrace kennen. Zo maakt OpenPipeline het mogelijk om data uit verschillende bronnen te verzamelen. Het eerder genoemde Grail slaat die data vervolgens op en bewaart de relaties tussen verschillende signalen. De AI-engine van Dynatrace, Davis AI, analyseert vervolgens die data en identificeert de hoofdoorzaak van problemen. En daarna komt de AutomationEngine om de hoek kijken, om acties uit te voeren om zaken zoveel mogelijk automatisch te laten verlopen.

AI-observability wordt essentieel

Spitzbart schetst dat organisaties momenteel worstelen met het in productie brengen van AI-applicaties. Het zijn immers nieuwe platforms en frameworks waar organisaties nog weinig ervaring mee hebben. Volgens Dynatrace is observability uiteindelijk een onmisbare component voor wie AI-systemen wil draaien. Er zijn specifieke uitdagingen, zoals voorkomen dat een AI per ongeluk gevoelige data deelt.

Guardrails moeten voorkomen dat een AI buiten zijn grenzen treedt. Maar hoe vaak worden die guardrails geraakt? En wat gebeurt er als een guardrail faalt? EU-regelgeving schrijft straks voor dat interacties met AI-systemen gelogd moeten worden. Die logs moeten in context bewaard blijven, zodat achteraf te begrijpen is wat er gebeurde.

Dynatrace heeft daarom tientallen integraties voor AI-observability gebouwd, zodat organisaties AI-apps kunnen monitoren. Daaronder vallen onder andere Amazon Bedrock en Google Gemini. Ook frameworks als OpenTelemetry voor Large Language Models worden ondersteund. Zo krijgen organisaties hetzelfde niveau van inzicht in AI-applicaties als in traditionele software.

Naast de prestaties van AI-apps spelen kosten ook een steeds grotere rol. Sommige AI-applicaties werken technisch goed, maar kosten vijf keer zoveel als ze opleveren. Zonder inzicht in waar die kosten vandaan komen, is het lastig om te optimaliseren. Observability kan organisaties helpen om die afweging te maken.

Vandaag al bruikbaar

Dynatrace wil laten zien dat het een gerichte toekomstvisie heeft én dat er nu al veel werkt. Zo kunnen operations-teams met Kubernetes-observability de gezondheid van hun platform monitoren, terwijl ontwikkelaars met code-level visibility inzicht krijgen in productieomgevingen zonder dat ze code hoeven aan te passen. Er is ook impactanalyse voor de business, wat technische metrics koppelt aan bedrijfsresultaten. Op die manier wordt duidelijk welke technische problemen daadwerkelijk impact hebben op omzet of klanttevredenheid. 

Tot slot zijn security- en compliance-zaken volop aanwezig in het platform. Continue compliance-monitoring zorgt ervoor dat configuraties niet plotseling veranderen door een deployment. Vulnerability management identificeert op zijn beurt zwakke plekken voordat ze uitgebuit kunnen worden. Door observability en security te combineren, ontstaat een compleet beeld van de situatie.

Dynatrace is daarmee in 20 jaar uitgegroeid tot een veelzijdig platform. Het bedrijf evolueerde van een APM-tool naar een platform dat AI en automatisering combineert. De focus ligt nu vooral op context, dat om betrouwbare AI mogelijk te maken. Met agentic AI dat met de dag populairder wordt, lijkt de belofte van zelfherstellende software dichterbij dan ooit.

Tip: Dynatrace-CTO: “Shift left is een ramp voor enterprise-organisaties”