A community initiative and deployment framework for running quantized LLMs, multi-agent frameworks, and Model Context Protocol (MCP) servers locally. Fully optimized for high efficiency, cheap APIs, and stable blackout-resilient performance in Ukraine.
Спільнота та набір конфігурацій для запуску квантованих локальних моделей, мультиагентних середовищ та серверів Model Context Protocol (MCP). Повна оптимізація під енергоефективність, дешеві API та стабільну роботу під час вимкнень світла.
We rely on vetted Western open-source stacks (Gemma 4, LLaMA, Phi-4) and allowed models (Qwen, DeepSeek) for local testing. Russian tools (YandexGPT, GigaChat) are under absolute lifetime bans.
Використовуємо перевірений західний стек (Gemma 4, LLaMA, Phi-4) та дозволені моделі (Qwen, DeepSeek) для локального тестування. Будь-які інструменти чи моделі з РФ (Yandex, Mail.ru) під довічною забороною.
Sensitive Ukrainian data must never leave the local perimeter. Run inference locally via Ollama or vLLM to keep your files secure.
Чутливі українські дані ніколи не повинні залишати ваш локальний периметр. Інференс на вашому залізі гарантує повну конфіденційність.
Aggressive quantization (GGUF Q4_K_M) and system level power limits ensure continuous operation from EcoFlow charging stations.
Агресивна квантизація та оптимізація лімітів живлення заліза забезпечує стабільну роботу локальної ШІ-лаби від інверторів та EcoFlow.
Measurements taken in July 2026. Target metric for blackout-readiness: tokens per second per Watt (t/s/W).
Виміри проведено у липні 2026 року. Головна метрика блекаут-лабораторії: кількість токенів на ватт (t/s/W).
Quantized model inference speed. Standard prompt: Transformer self-attention architecture description.
Швидкість інференсу на квантованих моделях. Стандартний промпт: опис архітектури self-attention.
| Model / GPU | VRAM Used | Prompt Eval (t/s) | Token Gen (t/s) | TDP (W) | t/s/W Efficiency | TTFT (ms) |
|---|---|---|---|---|---|---|
| BASELINE: GEMMA 4 12B (Q4_K_M) | ||||||
| RTX 3060 12GB (PL 90W) | 8.2 GB | 260 t/s | 23 t/s | 90 W | 0.26 t/s/W | 720 ms |
| RTX 4060 Ti 16GB | 8.2 GB | 380 t/s | 34 t/s | 165 W | 0.21 t/s/W | 510 ms |
| RTX 5070 12GB | 8.2 GB | 540 t/s | 48 t/s | 220 W | 0.22 t/s/W | 380 ms |
| RTX 3060 12GB (Standard) | 8.2 GB | 290 t/s | 26 t/s | 170 W | 0.15 t/s/W | 650 ms |
| RTX 4060 8GB / RTX 5060 8GB | — | ⚠️ Out of Memory (OOM) / Not enough VRAM for 12B+ models | ||||
| REASONING: PHI-4 14B (Q4_K_M) | ||||||
| RTX 3060 12GB (PL 90W) | 8.7 GB | 250 t/s | 16 t/s | 90 W | 0.18 t/s/W | 1350 ms |
| RTX 4060 Ti 16GB | 8.7 GB | 340 t/s | 22 t/s | 165 W | 0.13 t/s/W | 980 ms |
| RTX 5070 12GB | 8.7 GB | 520 t/s | 34 t/s | 220 W | 0.15 t/s/W | 650 ms |
| RTX 3060 12GB (Standard) | 8.7 GB | 280 t/s | 18 t/s | 170 W | 0.11 t/s/W | 1200 ms |
Unified Memory architecture efficiency. Unbeatable tokens/second per Watt ratios.
Ефективність архітектури об'єднаної пам'яті. Неперевершені показники енергоефективності.
| Processor / SoC | RAM Size | Gemma 4 12B tg | Phi-4 14B tg | Inference TDP | Best t/s/W Ratio | Gemma TTFT |
|---|---|---|---|---|---|---|
| Apple M4 Max | 48 / 64 GB | 46 t/s | 35 t/s | 40 W | 1.15 t/s/W | 390 ms |
| Apple M4 Pro | 24 GB | 31 t/s | 22 t/s | 30 W | 1.03 t/s/W | 520 ms |
| Apple M4 | 16 GB | 22 t/s | 15 t/s | 22 W | 1.00 t/s/W | 850 ms |
| Apple M3 | 16 GB | 18 t/s | — | 22 W | 0.82 t/s/W | 1100 ms |
| Apple M2 | 16 / 24 GB | 14 t/s | 12 t/s | 22 W | 0.64 t/s/W | 1450 ms |
| Apple M1 | 16 GB | 10 t/s | 8 t/s | 18 W | 0.56 t/s/W | 1800 ms |
Test configuration: Xeon E5-2666 v3 (10c/20t) + RTX 2080 Ti 11GB + 128GB RAM. High context MTP speculative decoding acceptance.
Специфікація: Xeon E5-2666 v3 (10c/20t) + RTX 2080 Ti 11GB + 128GB RAM. Тестування драфтера спекулятивного декодування MTP.
| MoE Model Name | File Size | Layers on GPU / CPU | Pure tg Speed (MTP) | MTP Draft Acceptance | KV-Cache Quant | TDP (Actual) |
|---|---|---|---|---|---|---|
| Gemma 4 26B MoE (Q4_K_M) | 16.8 GB | 14 on GPU / 34 on CPU | 35.09 t/s | 86.2% | q8_0 (Enabled) | 75 W |
| Qwen 3.6 35B MoE (Q4_K_M) | 22.0 GB | 14 on GPU / 50 on CPU | 25.20 t/s | 70.0% | q8_0 (Enabled) | 71 W |
| Ornith 1.0 35B MoE (Q6_K, Heavy) | 29.2 GB | 14 on GPU / 50 on CPU | 25.16 t/s | 97.5% | q8_0 (Enabled) | 71 W |
Higher is better. Measures generation tokens per second per total platform Watt draw.
Більше значення — краще. Відображає кількість генерованих токенів на 1 ватт споживання пристрою.
Measures delay before the first token response based on storage and memory types.
Час завантаження ваг моделі та RAG баз у пам'ять залежно від типу накопичувача.
| Configuration | Drive Type / Bus | Cold Start (12B LLM) | Cold Start (RAG Database) | Status / Recommendation |
|---|---|---|---|---|
| Apple M4 Pro + Unified Memory | Internal NVMe (Fast) | ~1.5s | ~4.0s | Excellent |
| RTX 3060 + NVMe SSD | NVMe Gen3 x4 | ~3.5s | ~8.0s | Standard |
| RTX 3060 + SATA SSD | SATA III | ~6.0s | ~14.0s | Acceptable |
| RTX 3060 + HDD 7200 RPM | SATA III HDD | ~18.0s | ~35.0s | Not Recommended |
| RTX 3060 + Swap Memory | Virtual RAM (VRAM overflow) | ~25.0s | ~45.0s | OOM Avoidance Only |
Select your Operating System and Deployment stack profile to get code snippets.
Оберіть вашу операційну систему та конфігурацію стеку для отримання конфігураційних файлів.
Perfect configuration for regular laptops and homelab servers. Zero cost, user-friendly interface.
Рекомендовано для початківців, домашніх ПК та серверів. Повністю безкоштовний ChatGPT інтерфейс.
Run the official installation script inside your terminal:
Виконайте офіційну команду встановлення в консолі:
Download highly optimized local models (Gemma 4, Qwen 3.6, DeepSeek-V4):
Стягніть квантовані локальні моделі (Gemma 4, Qwen 3.6, DeepSeek-V4):
Deploy the UI mapping container network to host ollama socket:
Створіть контейнер з автозапуском, приєднаний до локального хоста:
Production configurations used on Weby Homelab WS (Xeon + RTX 2080 Ti). Optimized for low VRAM and giant contexts.
Конфігурації нашої робочої станції WS. Максимальна швидкість інференсу за рахунок MTP та квантування KV-кешу.
Create file /etc/systemd/system/llama-server.service with KV caching and MTP draft enabled:
Запишіть сервіс у файл /etc/systemd/system/llama-server.service:
Place config at ~/.config/opencode/opencode.jsonc linking to local API node:
Налаштуйте клієнт у файлі ~/.config/opencode/opencode.jsonc:
Download and install the windows client using official package builder.
Автоматичне встановлення клієнта через офіційне джерело PowerShell.
Open PowerShell as Administrator and run the command:
Запустіть PowerShell від імені адміністратора та виконайте:
We highly recommend using WSL2 (Ubuntu 24.04) for running llama-server. Performance on native Windows is limited due to memory mapping restrictions.
Рекомендовано використовувати WSL2 (Ubuntu 24.04) для запуску професійного інференсу, оскільки нативний Windows має гірші показники роботи з пам'яттю.
Run in PowerShell as Administrator:
Виконайте в PowerShell від імені Адміністратора:
How to optimize your AI-HomeLab setup to run up to 45 hours on consumer charging stations during power blackouts.
Практичні гайди для зниження споживання енергії вашою ШІ-лабораторією з метою максимального продовження роботи від EcoFlow.
Standard models standby in VRAM consume 15-30W tax. Keep model in memory active only when generating to let GPU sleep:
Простій моделі у пам'яті споживає 15-30W. Задайте швидке вивантаження моделі в сон після завершення генерації:
Cut peak TDP spikes on Nvidia cards by 50% with only a 10% performance hit by setting power limit:
Обмеження енергоспоживання відеокарт без великої втрати швидкості генерації (до ліміту 80W/90W):
Apple Silicon hardware runs at 15-30W under heavy load, easily powered by typical 100W USB-C PD power banks for hours.
Архітектура Apple Silicon споживає всього 15-30W під навантаженням. Її можна живити годинами від звичайного повербанку з портом USB-C PD.