Lokálne LLM: Súkromie a výkon na vašom PC (Llama 3, Mistral) - Návod 2025
Cloudové AI ako ChatGPT, Claude alebo Gemini sú skvelé – pokiaľ vám nevadí, že všetky vaše dáta (zmluvy, lekárske správy, firemné stratégie) odchádzajú na servery v USA. V roku 2025 už to nemusíte riešiť. Lokálne LLM (Large Language Models) dosiahli kvalitu GPT-4 a bežia priamo na vašom počítači. Bez internetu. Bez predplatného. S úplným súkromím.
Prečo v roku 2025 bežať AI lokálne?
| Výhoda | Cloud (ChatGPT, Claude) | Lokálne LLM (2025) |
|---|---|---|
| Súkromie | Dáta idú na servery OpenAI/Anthropic | 100 % offline – nič neopustí váš PC |
| Cena | 20 – 200 €/mesiac | Zadarmo navždy |
| Rýchlosť | Závisí od internetu | Okamžitá odozva (aj v lietadle) |
| Cenzúra | Silné firemné filtre | Žiadne obmedzenia |
Ktorý hardware potrebujete v roku 2025?
1. NVIDIA GPU – stále kráľ (najlepší pomer cena/výkon)
- 8 GB VRAM (RTX 4060/4070 laptop) → Llama 3 8B Q5, Mistral 7B → 25–40 tokenov/s
- 12–16 GB VRAM (RTX 4070 Ti / 4080) → Llama 3 70B Q4, Mixtral 8x22B → 15–30 tokenov/s
- 24 GB VRAM (RTX 4090) → Llama 3 70B Q6, Llama 3.1 405B Q3 → takmer GPT-4 úroveň
2. Apple Silicon M1/M2/M3/M4 – tajná zbraň
Apple Unified Memory je v roku 2025 najlacnejší spôsob, ako spustiť obrovské modely:
- MacBook Pro M3 Max 128 GB → beží Llama 3 405B Q4
- Mac Studio M2 Ultra 192 GB → už teraz nahrádza 2× RTX 4090
3. Bez GPU? Stále sa dá (CPU + veľa RAM)
32–64 GB RAM + moderný procesor (Ryzen 9 / Intel i9) → Llama 3 8B Q4 beží 4–8 tokenov/s. Pomalé, ale použiteľné na analýzu dokumentov.
Top 7 lokálnych modelov, ktoré stoja za stiahnutie (december 2025)
| Model | Veľkosť | Kvalita (vs GPT-4) | Najlepšie na | Odporúčaná kvantizácia |
|---|---|---|---|---|
| Llama 3.1 70B | 40 GB | 95 % | Všeobecné úlohy, kód, logika | Q5_K_M / Q6_K |
| Mistral Large 2 | 73 GB | 96 % | Európske jazyky, kódovanie | Q4_K_M |
| Phi-3 Medium 14B | 8 GB | 85 % | Beží aj na 8 GB VRAM | Q6_K |
| Command R+ 104B | 59 GB | 94 % | RAG (práca s dokumentmi) | Q4_K_M |
Najjednoduchší spôsob spustenia (5 minút)
Odporúčanie č. 1: LM Studio (najkrajšie UI, aj pre úplných začiatočníkov)
- Choď na lmstudio.ai → Download (Windows/Mac/Linux)
- Po spustení klikni na 🔍 ikonu (ľavý panel)
- Napíš „llama3“ alebo „mistral“ → vyber model s označením
Q5_K_MaleboQ6_K - Klikni „Download“ (5–30 minút podľa veľkosti)
- Prejdi do „Chat“ → vyber stiahnutý model → začni písať
Vyzerá to úplne ako ChatGPT, len všetko beží na tvojom PC.
Odporúčanie č. 2: Ollama + Open WebUI (pre pokročilejších)
- ollama.com → Download
- V termináli:
ollama run llama3 - Pre pekné UI nainštaluj Open WebUI (docker alebo priamo)
Čo je kvantizácia a ktorú vybrať?
Q8 = takmer bez straty kvality Q6 = výborný kompromis Q5 = zlatý stred (najčastejšie odporúčané) Q4 = stále veľmi dobré Q3/Q2 = viditeľná strata inteligencie
Záver: Lokálne AI je už pre každého
V roku 2025 už nie je dôvod platiť 20 € mesačne za ChatGPT Plus, ak chcete súkromie a výkon. Za pár kliknutí máte doma AI, ktoré:
- čte vaše zmluvy a lekárske správy
- pomáha písať kód
- generuje marketingové texty
- a nikdy neodíde na internet
FAQ – najčastejšie otázky
Dá sa to spustiť na bežnom notebooku bez NVIDIA?
Áno – modely ako Phi-3 Medium alebo Llama 3 8B Q4 bežia aj na 16–32 GB RAM. Je to pomalšie, ale použiteľné.
Je to legálne?
Áno. Všetky uvedené modely majú open-weight licenciu (Meta, Mistral AI, Microsoft).
Kde nájdem najnovšie modely?
HuggingFace.co → filter „GGUF“ (formát pre lokálne spustenie)
Chceš sa naučiť lokálne AI používať na 100 % vo svojom biznise?
Pozri si náš vlajkový kurz AI prakticky za 30 dní → jeden celý týždeň je venovaný lokálnym modelom a automatizáciám.