Jag har under en tid testat olika sätt att köra AI modeller lokalt på min dator. Som många andra började jag med LM Studio och Ollama, men efter ett tag kände jag att allt gick långsamt, tungt och att programmen var mer bloated än de borde vara. När jag sedan bytte till llama.cpp förändrades allt. Det är snabbare, enklare och framför allt mycket friare.
Jag började min AI resa med LM Studio och Ollama. Båda verkade bra i början, men det dröjde inte länge innan problemen dök upp. Jag kör en dator med AMD grafikkort och redan där blev det tydligt att många AI verktyg egentligen är byggda för Nvidia kort.
LM Studio såg snyggt ut och var lätt att komma igång med, men det tog upp över 500 megabyte för något som mest fungerade som ett skal. Dessutom kändes det segt och tungt varje gång jag startade det.
Ollama var smidigare men ganska låst. Visst, det gick snabbt att starta men det kändes som att jag inte hade kontrollen. Lite som att köra en bil utan att få öppna motorhuven.
Bytet till llama.cpp var som att öppna ett fönster i ett instängt rum. Installationen tog upp mindre än 100 megabyte, starttiden var nästan omedelbar och jag fick äntligen använda min AMD hårdvara utan problem.
Det bästa var att allt gick att förstå. Jag kunde ladda en modell direkt, starta den via terminalen och se exakt vad som hände. Inget dolt, inget krångel, bara ren kontroll.
Fullständigt fritt CLI-drivet gränssnitt, där det bara är att peka på en .gguf-modell och köra
llama-cli.exe -m path\to\modell.gguf --interactive
Möjlighet att köra även som server
llama-server -m --port 8080Vill jag ha ett enklare gränssnitt kan jag starta en liten webbtjänst, men ofta räcker terminalen gott. Det är något tillfredsställande i att se modellen svara direkt utan fördröjningar.
Det som verkligen fick mig att fastna för llama.cpp är hur lätt och snabbt det är. Inga onödiga gränssnitt, inga tunga menyer och inga bakgrundsprocesser som drar kraft. Bara ren prestanda.
Jag kan bestämma exakt hur modellen ska köras. Vill jag köra allt på grafikkortet går det fint. Vill jag istället använda processorn för att testa stabiliteten kan jag göra det. Jag styr hur mycket minne som används och hur snabbt modellen svarar. Kort sagt, jag har kontrollen igen 😉
Llama.cpp kräver lite mer förståelse eftersom det är inte är ett snyggt GUI. Det är inte ett program man bara installerar och glömmer. Det är command line interface (CLI) så man behöver lära sig kommandon. Men det är också det som gör det roligt. När jag lärde mig hur det fungerade insåg jag att jag nu kunde köra AI modeller snabbare, stabilare och mer effektivt än någonsin tidigare.
För mig som inte vill vara beroende av molntjänster, prenumerationer eller dolda funktioner är det här ett av de bästa alternativen som finns. Kostnaden för API´requests till AI tjänster kan snabbt stiga. Här får man en bra labb-miljö och testa obehindrat. Det är som att byta från en trött moped till en riktig motorcykel. Lite mer att hålla koll på, men betydligt roligare och snabbare.
Att byta till llama.cpp var ett av de bästa besluten jag tagit när jag utforskat möjligheterna för lokal AI. Det gav mig kontroll, hastighet och enkelhet utan att behöva tumma på funktionaliteten. Det kräver lite mer av användaren, men ger också tillbaka i form av frihet och prestanda. Jag har helt enkelt slutat irritera mig på prestendatapp och börjat njuta av att lokalt köra AI i mitt home lab.
Yes det är 1 timme men han som pratar i den har riktigt bra koll på llama.cpp och helt klart värd att gå igenom. Han berättar också några problem han har haft och hur han löste de. T.ex varför inte saker laddas in i ramet när de borde etc.






