SmolVLM is een model dat visuele input kan verwerken en hierop tekstuele output genereert. Het onderscheidt zich door aanzienlijk minder GPU-kracht te vereisen dan vergelijkbare modellen, namelijk ongeveer de helft van de benodigde resources.
Hugging Face omschrijft SmolVLM als een “open multimodal model” dat willekeurige combinaties van beeld- en tekstinput accepteert en tekstoutput genereert. Het model is veelzijdig: het kan vragen over beelden beantwoorden, visuele content beschrijven, verhalen creëren op basis van meerdere beelden of functioneren als een traditioneel language model zonder visuele input.
Voor bedrijven kan SmolVLM een interessante optie zijn, vooral gezien de hoge kosten van het implementeren van large language models in organisaties. Multimodale modellen, die zowel tekst als visuele input verwerken, kunnen bijzonder kostbaar zijn vanwege hun hoge IT-resourcevereisten, zoals de benodigde compute-kracht.
Nieuwe werkwijze
Voor SmolVLM heeft Hugging Face de architectuur aanzienlijk aangepast, wat resulteert in een model dat 5,02 GB RAM vereist. Dit is aanzienlijk minder dan bijvoorbeeld InternVL2 2B, dat 10,52 GB geheugen nodig heeft. Dankzij deze efficiëntere aanpak is SmolVLM geschikt voor on-device toepassingen, waarbij het model sterke prestaties blijft leveren.
Technisch gezien past Hugging Face een nieuwe beeldcompressiemethode toe, waardoor het model sneller beslissingen kan nemen met minder RAM-gebruik. SmolVLM gebruikt 81 visuele tokens om image patches van 384×384 pixels te encoderen. Grotere afbeeldingen worden opgedeeld in patches die afzonderlijk worden geëncodeerd. Dit zorgt ervoor dat het model efficiënt blijft functioneren zonder concessies te doen aan de prestaties.