Databricks lanceert API om synthetische datasets te genereren

Databricks lanceert API om synthetische datasets te genereren

Databricks introduceert een API waarmee klanten synthetische gegevens kunnen genereren voor hun machine learning-projecten.

SiliconAngle schrijft hierover. De API is beschikbaar in Mosaic AI Agent Evaluation. Dit is een tool die Databricks aanbiedt als onderdeel van zijn data-lakehouseplatform. Deze tool helpt ontwikkelaars bij het vergelijken van de outputkwaliteit, kosten en latentie van toepassingen voor kunstmatige intelligentie. Mosaic AI Agent Evaluation werd in juni gelanceerd. Dit was op hetzelfde moment als de introductie van de Mosaic AI Agent Framework. Die vergemakkelijkt het implementeren van retrieval-augmented generation.

Bij synthetische gegevens gaat het om informatie die met behulp van AI is gegenereerd, speciaal voor de ontwikkeling van neurale netwerken. Het creëren van trainingsdatasets op deze manier is aanzienlijk sneller en kostenefficiënter dan het handmatig samenstellen ervan. De nieuwe API van Databricks is ontworpen voor het genereren van vraag-en-antwoordcollecties. Die zijn nuttig bij de ontwikkeling van toepassingen die gebruikmaken van Large Language Models (LLM).

Een proces in drie stappen

Ontwikkelaars moeten eerst een frame, oftewel een verzameling bestanden, uploaden met bedrijfsinformatie die relevant is voor de taak die hun AI-toepassing moet uitvoeren. Frames moeten in een formaat zijn dat wordt ondersteund door Apache Spark of Pandas. Spark is de open-source dataverwerkingsengine waarop het platform van Databricks is gebaseerd. Dit, terwijl Pandas een populair analytisch hulpmiddel is voor de programmeertaal Python.

Na het uploaden van de voorbeeldgegevens moeten ontwikkelaars aangeven hoeveel vragen en antwoorden de API moet genereren. Ze kunnen optioneel aanvullende instructies geven om de output van de API aan te passen. Een softwareteam kan bijvoorbeeld de stijl specificeren waarin de vragen moeten worden gegenereerd. Net als het doel waarvoor ze worden gebruikt. En de eindgebruikers die met de AI-toepassing zullen werken.

Eenvoudige workflow

Ongelijke trainingsgegevens kunnen de kwaliteit van de output van een AI-model verminderen. Daarom laten bedrijven synthetische datasets vaak door deskundigen controleren op fouten voordat ze aan een neuraal netwerk worden gevoed. Databricks stelt dat het de API zo heeft ontwikkeld dat dit deel van de workflow wordt vereenvoudigd.

“Belangrijk is dat het gegenereerde synthetische antwoord een verzameling feiten is die nodig zijn om de vraag te beantwoorden, in plaats van een antwoord geschreven door het LLM,” melden Databricks-ingenieurs in een blogpost. “Deze aanpak biedt het duidelijke voordeel dat het sneller is voor een vakexpert (SME) om deze feiten te controleren en aan te passen dan een volledig gegenereerd antwoord.”

Databricks is van plan om begin volgend jaar verschillende verbeteringen aan de API uit te brengen. Een nieuwe grafische interface zal datasetcontroleurs in staat stellen vraag-en-antwoordparen sneller op fouten te controleren en indien nodig meer paren toe te voegen. Bovendien zal Databricks een tool toevoegen om bij te houden hoe de synthetische datasets van een bedrijf in de loop der tijd veranderen.