Lang waren alle leidende LLM’s closed-source. Nu voegen de modellen van Meta, Anthropic en Alibaba zich bij gevestigde partijen OpenAI en Google.
Dat blijkt uit benchmarks van AI-beoordelaar Galileo. De tweede “LLM Hallucination Index” laat zien dat Claude 3.5 Sonnet van Anthropic de koppositie pakt. Daarmee delft OpenAI voor het eerst het onderspit, laten de onderzoekers weten. Ook Meta’s Llama 3.1 en Alibaba’s Qwen2-72B-Instruct gooien hoge ogen op open-source gebied. Laatstgenoemde benadrukt het gestage verlies aan dominantie voor Amerikaanse spelers, zoals ook Mistral Large 2 onlangs liet zien.
Closed-source nog gemiddeld beter
Closed-source modellen scoren nog steeds gemiddeld hoger dan de open-source alternatieven. Dat toont de Galileo-test op basis van 22 modellen. De winstmarge is alleen wel aanzienlijk kleiner dan voorheen.
Ook opvallend zijn de prijsverschillen tussen de “volledige” versie van een LLM en een compacte variant. Terwijl Claude 3.5 Sonnet 3 dollar kost per miljoen prompts, is Gemini 1.5 Flash met dat aantal slechts 35 dollarcent. En dit terwijl Flash niet opvallend slechter is dan Sonnet, aldus Galileo-CEO Vikram Chatterji. Organisaties zullen een groot belang hechten aan dit kostenplaatje voor een professionele AI-inzet.
Stagnatie?
GenAI blijft zich verbeteren. Toch is er van enige stagnatie sprake aan de top, en niet alleen een explosieve opkomst van open-source AI. Nog steeds zitten we te wachten op GPT-5, dat ondanks eindeloze verbluffende beloftes in geen velden of wegen te bekennen is. De Galileo-benchmark kan dus niet alleen positief geïnterpreteerd worden.
Het feit dat OpenAI geduchte concurrentie kent, lijkt het bedrijf al parten te spelen. Astronomische trainingskosten worden niet gecompenseerd door de inkomsten vanuit abonnementen of API-calls.
Lees verder: Business-model OpenAI werkt niet: faillisement dreigt