De AI-wapenwedloop dendert door. Na in maart Claude 3.0 te hebben gelanceerd, verschijnt Claude 3.5 al ten tonele. ‘Sonnet’ is de eerste LLM die uit deze modellenfamilie beschikbaar komt. Op welke manieren overstijgt het model die van concurrenten OpenAI en Google?
Anthropic legt de lat hoog bij de aankondiging van het nieuwe model. Claude 3.5 Sonnet zou de prestaties van de allerbeste AI-modellen combineren met de snelheid en lage kosten van ‘middenmoter’ en voorganger Claude 3 Sonnet. Met andere woorden: hogere AI-prestaties voor minder geld, een belofte die even eenduidig als aantrekkelijk is. Door de brede beschikbaarheid via apps, de Anthropic API, Amazon Bedrock en Google Vertex AI kan elke organisatie er al mee aan de slag.
Snel en slim
Inmiddels is er een duidelijke set aan LLM-benchmarks waar alle grote partijen zich op beroepen. Anthropics nieuwste model presteert bij deze tests verbluffend. Het redeneert en programmeert beter dan GPT-4o en scoort hoger bij rekentoetsen dan Gemini 1.5 Pro en Llama-400b, de grootste variant van Llama 3 die slechts als early snapshot beschikbaar is.
Dat GPT-4o er met de winst vandoor gaat in twee tests (kennis op bachelor-niveau en wiskunde), is eigenlijk niet zo belangrijk. Bij Anthropic draait het namelijk om twee zaken: aanzienlijk betere prestaties dan Claude 3 Sonnet en een model dat twee keer zo snel is als Claude 3 Opus, het grootste model uit deze eerdere serie. Die missie lijkt geslaagd.
Visie
Modellen moeten tegenwoordig multimodaal presteren. Tekst, geluid, beelden: welke informatiebron dan ook moet door een state-of-the-art LLM begrepen worden. In een demonstratievideo toont Anthropic de mogelijkheden die hierdoor ontstaan. Zo transcribeert het nieuwe Sonnet-model een JSON op basis van grafieken over de kosten van DNA-tests en genereert het vervolgens zelfs een presentatie hierover.
Tip: Anthropic voorziet middelen om AI-agents te bouwen met Claude 3
Ondanks het imposante redeneer-, reken- en tekenwerk is Claude 3.5 Sonnet niets om bang voor te zijn. Qua AI Safety Level (ASL) zit deze LLM op ASL-2, dat beperkte risico’s kent maar bijvoorbeeld niet een biowapen helpt bouwen, aldus Anthropic (of niet meer dan Google Search dat al doet). Ter info: ASL-3 is wanneer een model op catastrofale wijze verkeerd kan worden ingezet of in beperkte mate autonoom opereert. Dat is (voorlopig) slechts een toekomstbeeld; ASL-4 en daar voorbij is nog niet eens gedefinieerd.
Dichter bij de realiteit: kosten drukken
Claude 3.5 Sonnet is slechts één van meerdere 3.5-modellen die nog zullen verschijnen. Dit model geeft echter al aan waar Anthropic het hardst aan heeft gewerkt: multimodaliteit en efficiënte prestaties. Voor eindgebruikers met hoge output-eisen is het kostenplaatje weer een stukje minder zorgwekkend. Hierdoor is het mogelijk méér GenAI in te zetten voor dezelfde prijs of simpelweg minder kosten te maken.
Concreet kost het model 3 dollar per 1 miljoen input tokens en 15 dollar per 1 miljoen output tokens. De token context window is 200K. Dat is groter dan de ‘standaardversie’ van Google Gemini 1.5 Pro (met 128K) en OpenAI’s GPT-4o (tevens 128K), maar aanzienlijk minder dan waar Gemini 1.5 Pro toe in staat is. Dat schaalt namelijk met een speciale variant voor een selecte groep gebruikers namelijk op naar wel 1 miljoen tokens, waardoor het veel meer informatie tot zich kan nemen. Dat neemt het mee in de antwoorden, waardoor het nog altijd beter omgaat met grote inputs dan Sonnet. Het is alleen de vraag of Claude 3.5 Opus er niet een schepje bovenop doet en een grotere context window voor meer gebruikers beschikbaar stelt.
Lees ook: Google Gemini komt naar AI-coding assistent van JetBrains