Agentic AI leunt op een veelvoud aan technologische innovaties. Eén van de meest opvallende is Retrieval-Augmented Generation (RAG) gebleken, ofwel de techniek die het voor AI-systemen mogelijk maakt om bedrijfsdata te raadplegen. Zoals wel vaker blijkt het nodig om door te innoveren op een AI-technologie. De nieuwe ‘Instructed Retriever’-architectuur vindt aanzienlijk meer relevante informatie dan alleen AI met RAG kon bewerkstelligen. Hoe zit dat precies?
De Instructed Retriever (IR) is bedacht door een Databricks-team, dat het in groot detail uitlegt. Het geldt als een uitbreiding van RAG, met verschillende mogelijkheden tot de integratie van IR om agentic AI in goede banen te leiden. De meest eenvoudige (en snelste) werking van RAG is door een AI-model zelf data te laten doorzoeken. Ze zijn daarin snel en efficiënt, maar de onderzoekers zien verder vooral tekortkomingen. Bovenal volgen LLM’s veelal niet de instructies van gebruikers. Voorbij dat fundamentele probleem vatten AI-modellen de context van hun bronnen niet al te goed, zeker bij zeer domeinspecifieke data. Daarnaast zijn de off-the-shelf modellen niet in staat om te redeneren over hun output voordat ze deze verzenden aan de gebruiker.
Een denkstap tussen RAG en de evolutie ervan was om multi-step agents te hanteren. Hierbij kunnen AI-modellen wél redeneren over hun output. Toch ontbreekt het aan begrip bij de AI-agent over de context en is de snelheid en efficiëntie van RAG verleden tijd. Databricks ziet dat de Instructed Retriever sommige, maar niet alle tekortkomingen verhelpt. Alle problemen rondom RAG zijn in te perken, maar niet allemaal tegelijk.
Een goede luisteraar
Voor de eindgebruiker moet de Instructed Retriever praktisch onzichtbaar zijn. Men vult nog steeds een query in en kan een antwoord in de vorm van een AI-chatbotgesprek ontvangen. Maar onderhuids gebeurt er veel meer dan het koppelen van een AI-model met de bedrijfsdata. De Instructed Retriever treedt op als tool voor een agent of een statische workflow die altijd plaatsvindt. In plaats van dat de systeemspecificaties (instructies, voorbeelden van goede antwoorden, beschikbare metadata) de query beïnvloeden zoals dat bij RAG het geval is, bepalen ze de spelregels voor zowel retrieval (het opzoeken van data) als generation (het beantwoorden van de gebruikersvraag).
Hoewel Databricks nog altijd spreekt over ‘redeneren’, is de structuur van de Instructed Retriever complexer dan enkel ‘redeneerstappen’. Een AI-model wordt stevig ingeperkt doordat het niet alleen moet overwegen welke data het zou kunnen opzoeken, het is op architectureel niveau enkel in staat om volgens de instructies data op te zoeken.
Om de query van de gebruiker goed te duiden, dient de Instructed Retriever verschillende elementen van de systeemspecificaties mee te nemen. Allereerst splitst de IR de query op (zoals “jaar”, “divisie” en “omzet” als de gebruiker de omzet van een specifiek jaar en van een specifieke divisie opvraagt), rangschikt het de data op basis van relevantie en vertaalt het de natuurlijke taal van de gebruiker naar de technisch correcte database query (van “dit jaar” naar “WHERE date BETWEEN ‘2026-01-01’ AND ‘2026-12-31′”, bijvoorbeeld).
Het struikelblok van gewone taal
De grote belofte rondom AI is dat je minder technische expertise nodig hebt om complexe systemen te raadplegen. Een bedrijfsleider zonder IT-kennis zou in theorie nu zelf de omzet van een bepaalde divisie kunnen vinden. Echter stuit die belofte op een groot probleem: AI-modellen zelf ontberen de accuratesse en consistentie om betrouwbare antwoorden op te leveren. Ze hebben hulp nodig, en RAG bood dit als eerste. Maar de Instructed Retriever laat zien hoe incompleet die oplossing eigenlijk was. Natuurlijke taal vertalen naar domeinspecifieke queries blijkt nodig op architectureel niveau, niet alleen op basis van vertrouwen in de voortdurende verbetering van LLM’s. De verbetering is groot, blijkt uit benchmarks. De Instructed Retriever verbetert de prestaties ten opzichte van traditionele RAG met 70 procent.
Opvallend is dat de Instructed Retriever niet altijd beter presteert dan een AI-model met RAG. GPT-5.2 en Claude 4.5 Sonnet scoren hoger op het nieuwe StaRK-Instruct en StaRK-Amazon, bijvoorbeeld. Daarbij dient gezegd te worden dat dit een vergelijking is tussen twee relatief reusachtige LLM’s met op zijn minst honderden miljarden parameters. De Instructed Retriever bevat slechts 4 miljard. Het is dus een wereld van verschil als het om efficiëntie gaat, want de modellen van OpenAI, Anthropic en Databricks’ IR ontlopen elkaar maar weinig (IR scoort grofweg 90-95 procent van wat GPT-5.2 en Claude behalen).
Conclusie: complexiteit wint van eenvoud
We kunnen op basis van Databricks’ resultaten stellen dat RAG enkel op basis van AI-modellen en bedrijfsdata voor veel organisaties eigenlijk passé moet worden. De Instructed Retriever is beschikbaar binnen Agent Bricks, en we verwachten dat concurrenten van Databricks gauw overstag zullen moeten gaan met vergelijkbare concepten. De snelheid is geen excuus voor de tekortkomingen van basale RAG-implementaties, en de complexere opzet van IR lijkt de moeite waard met 70 procent betere resultaten.
Zo blijkt dat AI weliswaar vanaf een bepaalde schaal fundamentele beperkingen overtreft, maar dat gebeurt pas als je een LLM draait op meerdere datacenter-GPU’s versus een tool (de Instructed Retriever) die met 4 miljard parameters zelfs op een doodgewone CPU prima draait. Een grove vuistregel is dat er 1GB aan RAM nodig is per miljard parameters. Dat Databricks een architectuur heeft bedacht met dermate weinig parameters voor het in goede banen leiden van queries, verdient dus lof en scheelt veel klokcycli. De afname in API-kosten voor AI en de toegenomen accuratesse zullen vrij snel de investering in een IR-toepassing terugbetalen. Vandaar dat het zeer voor de hand ligt dat traditionele, ongestuurde RAG op zijn retour is.
Lees ook: Databricks bezig met Series L-ronde voor waardering van 134 miljard