Hugging Face-model SmolVLM vereist stuk minder compute

SmolVLM is een model dat visuele input kan verwerken en hierop tekstuele output genereert. Het onderscheidt zich door aanzienlijk minder GPU-kracht te vereisen dan vergelijkbare modellen, namelijk ongeveer de helft van de benodigde resources.

Hugging Face omschrijft SmolVLM als een “open multimodal model” dat willekeurige combinaties van beeld- en tekstinput accepteert en tekstoutput genereert. Het model is veelzijdig: het kan vragen over beelden beantwoorden, visuele content beschrijven, verhalen creëren op basis van meerdere beelden of functioneren als een traditioneel language model zonder visuele input.

Voor bedrijven kan SmolVLM een interessante optie zijn, vooral gezien de hoge kosten van het implementeren van large language models in organisaties. Multimodale modellen, die zowel tekst als visuele input verwerken, kunnen bijzonder kostbaar zijn vanwege hun hoge IT-resourcevereisten, zoals de benodigde compute-kracht.

Nieuwe werkwijze

Voor SmolVLM heeft Hugging Face de architectuur aanzienlijk aangepast, wat resulteert in een model dat 5,02 GB RAM vereist. Dit is aanzienlijk minder dan bijvoorbeeld InternVL2 2B, dat 10,52 GB geheugen nodig heeft. Dankzij deze efficiëntere aanpak is SmolVLM geschikt voor on-device toepassingen, waarbij het model sterke prestaties blijft leveren.

Technisch gezien past Hugging Face een nieuwe beeldcompressiemethode toe, waardoor het model sneller beslissingen kan nemen met minder RAM-gebruik. SmolVLM gebruikt 81 visuele tokens om image patches van 384×384 pixels te encoderen. Grotere afbeeldingen worden opgedeeld in patches die afzonderlijk worden geëncodeerd. Dit zorgt ervoor dat het model efficiënt blijft functioneren zonder concessies te doen aan de prestaties.

Tip: Hugging Face koopt AI-bestandsbeheerplatform XetHub

Top story

Achter de schermen van de Formule E strijdt TCS digitaal mee

De wereld van de Formule E is er een van technologie en snelheid, maar ook duurzaamheid. Precies die combinat...

Erik van Klinken 27 juni 2025

Whitepapers

Hugging Face-model SmolVLM vereist stuk minder compute

Nieuwe werkwijze

Blijf op de hoogte, abonneer!

Veo 3 nu beschikbaar in België voor Gemini Pro-gebruikers

SAP-CEO vindt massale AI-uitbouw EU niet nodig, is dat terecht?

Ingram Micro al bijna dag onbereikbaar door storing

Memory-safe malware: Rust daagt securityonderzoekers uit

Thales dekt door Imperva-troef data security in zijn geheel

“Firewalls worden als mainframes, Zero Trust weg vooruit”

Het securityplatform lonkt: wat is het en wat levert het op?

Verbeter je digitale ervaringen met de Cisco AI Assistant

Verbeter de beveiliging van je servers

Ervaar gratis Synology’s nieuwste enterprise backup-oplossing

Versnel je AI-succes met NVIDIA AI Computing van HPE

GITEX DIGI_HEALTH 5.0 - Thailand

IT Arena

Innovation Week 2025

Luxembourg Venture Days

Appdevcon

Webdevcon