Claude 3.5 Sonnet: Anthropic verslaat OpenAI en Google opnieuw

De AI-wapenwedloop dendert door. Na in maart Claude 3.0 te hebben gelanceerd, verschijnt Claude 3.5 al ten tonele. ‘Sonnet’ is de eerste LLM die uit deze modellenfamilie beschikbaar komt. Op welke manieren overstijgt het model die van concurrenten OpenAI en Google?

Anthropic legt de lat hoog bij de aankondiging van het nieuwe model. Claude 3.5 Sonnet zou de prestaties van de allerbeste AI-modellen combineren met de snelheid en lage kosten van ‘middenmoter’ en voorganger Claude 3 Sonnet. Met andere woorden: hogere AI-prestaties voor minder geld, een belofte die even eenduidig als aantrekkelijk is. Door de brede beschikbaarheid via apps, de Anthropic API, Amazon Bedrock en Google Vertex AI kan elke organisatie er al mee aan de slag.

Snel en slim

Inmiddels is er een duidelijke set aan LLM-benchmarks waar alle grote partijen zich op beroepen. Anthropics nieuwste model presteert bij deze tests verbluffend. Het redeneert en programmeert beter dan GPT-4o en scoort hoger bij rekentoetsen dan Gemini 1.5 Pro en Llama-400b, de grootste variant van Llama 3 die slechts als early snapshot beschikbaar is.

Dat GPT-4o er met de winst vandoor gaat in twee tests (kennis op bachelor-niveau en wiskunde), is eigenlijk niet zo belangrijk. Bij Anthropic draait het namelijk om twee zaken: aanzienlijk betere prestaties dan Claude 3 Sonnet en een model dat twee keer zo snel is als Claude 3 Opus, het grootste model uit deze eerdere serie. Die missie lijkt geslaagd.

Visie

Modellen moeten tegenwoordig multimodaal presteren. Tekst, geluid, beelden: welke informatiebron dan ook moet door een state-of-the-art LLM begrepen worden. In een demonstratievideo toont Anthropic de mogelijkheden die hierdoor ontstaan. Zo transcribeert het nieuwe Sonnet-model een JSON op basis van grafieken over de kosten van DNA-tests en genereert het vervolgens zelfs een presentatie hierover.

Tip: Anthropic voorziet middelen om AI-agents te bouwen met Claude 3

Ondanks het imposante redeneer-, reken- en tekenwerk is Claude 3.5 Sonnet niets om bang voor te zijn. Qua AI Safety Level (ASL) zit deze LLM op ASL-2, dat beperkte risico’s kent maar bijvoorbeeld niet een biowapen helpt bouwen, aldus Anthropic (of niet meer dan Google Search dat al doet). Ter info: ASL-3 is wanneer een model op catastrofale wijze verkeerd kan worden ingezet of in beperkte mate autonoom opereert. Dat is (voorlopig) slechts een toekomstbeeld; ASL-4 en daar voorbij is nog niet eens gedefinieerd.

Dichter bij de realiteit: kosten drukken

Claude 3.5 Sonnet is slechts één van meerdere 3.5-modellen die nog zullen verschijnen. Dit model geeft echter al aan waar Anthropic het hardst aan heeft gewerkt: multimodaliteit en efficiënte prestaties. Voor eindgebruikers met hoge output-eisen is het kostenplaatje weer een stukje minder zorgwekkend. Hierdoor is het mogelijk méér GenAI in te zetten voor dezelfde prijs of simpelweg minder kosten te maken.

Concreet kost het model 3 dollar per 1 miljoen input tokens en 15 dollar per 1 miljoen output tokens. De token context window is 200K. Dat is groter dan de ‘standaardversie’ van Google Gemini 1.5 Pro (met 128K) en OpenAI’s GPT-4o (tevens 128K), maar aanzienlijk minder dan waar Gemini 1.5 Pro toe in staat is. Dat schaalt namelijk met een speciale variant voor een selecte groep gebruikers namelijk op naar wel 1 miljoen tokens, waardoor het veel meer informatie tot zich kan nemen. Dat neemt het mee in de antwoorden, waardoor het nog altijd beter omgaat met grote inputs dan Sonnet. Het is alleen de vraag of Claude 3.5 Opus er niet een schepje bovenop doet en een grotere context window voor meer gebruikers beschikbaar stelt.

Lees ook: Google Gemini komt naar AI-coding assistent van JetBrains

Whitepapers

Claude 3.5 Sonnet: Anthropic verslaat OpenAI en Google opnieuw

Zijn GPT-4o en Gemini 1.5 Pro nu al oud nieuws?

Insight: Generatieve AI

Snel en slim

Visie

Dichter bij de realiteit: kosten drukken

Blijf op de hoogte, abonneer!

Veo 3 nu beschikbaar in België voor Gemini Pro-gebruikers

Ingram Micro al bijna dag onbereikbaar door storing

Memory-safe malware: Rust daagt securityonderzoekers uit

AI ondergaat via goede prompts ware metamorfose

AI-agents zijn de nieuwe apps: Salesforce leidt de weg met Agentforce 2.0

Te veel data gedeeld met Copilot, Microsoft trekt aan rem

AI-expert ML6: ‘Onze AI-agents geven handen en voeten aan LLM’s’

Verbeter je digitale ervaringen met de Cisco AI Assistant

Verbeter de beveiliging van je servers

Ervaar gratis Synology’s nieuwste enterprise backup-oplossing

Versnel je AI-succes met NVIDIA AI Computing van HPE

GITEX DIGI_HEALTH 5.0 - Thailand

IT Arena

Innovation Week 2025

Luxembourg Venture Days

Appdevcon

Webdevcon