Sovereign Local-First AI Stack [07.2026] Суверенний Локальний ШІ Стек [07.2026]

Sovereign AI Laboratories
in Your Home

Name: AI-HomeLab
Author: Weby Homelab

Суверенна ШІ-Лабораторія
у Вашому Домі

A community initiative and deployment framework for running quantized LLMs, multi-agent frameworks, and Model Context Protocol (MCP) servers locally. Fully optimized for high efficiency, cheap APIs, and stable blackout-resilient performance in Ukraine.

Спільнота та набір конфігурацій для запуску квантованих локальних моделей, мультиагентних середовищ та серверів Model Context Protocol (MCP). Повна оптимізація під енергоефективність, дешеві API та стабільну роботу під час вимкнень світла.

Quick Start Guide Швидкий Старт Explore Benchmarks Результати Тестів

$curl -fsSL https://raw.githubusercontent.com/weby-homelab/AI-HOMELAB/main/configs/ollama/docker-compose.yml -o docker-compose.yml

Foundational Principles

Фундаментальні Принципи

🛡️

Data Hygiene

Технологічна Гігієна

We rely on vetted Western open-source stacks (Gemma 4, LLaMA, Phi-4) and allowed models (Qwen, DeepSeek) for local testing. Russian tools (YandexGPT, GigaChat) are under absolute lifetime bans.

Використовуємо перевірений західний стек (Gemma 4, LLaMA, Phi-4) та дозволені моделі (Qwen, DeepSeek) для локального тестування. Будь-які інструменти чи моделі з РФ (Yandex, Mail.ru) під довічною забороною.

🔒

Data Sovereignty

Суверенітет Даних

Sensitive Ukrainian data must never leave the local perimeter. Run inference locally via Ollama or vLLM to keep your files secure.

Чутливі українські дані ніколи не повинні залишати ваш локальний периметр. Інференс на вашому залізі гарантує повну конфіденційність.

🔋

Blackout Resilience

Блекаут-Резилієнтність

Aggressive quantization (GGUF Q4_K_M) and system level power limits ensure continuous operation from EcoFlow charging stations.

Агресивна квантизація та оптимізація лімітів живлення заліза забезпечує стабільну роботу локальної ШІ-лаби від інверторів та EcoFlow.

Performance & Energy Benchmarks

Порівняльні Тести та Енергоефективність

Measurements taken in July 2026. Target metric for blackout-readiness: tokens per second per Watt (t/s/W).

Виміри проведено у липні 2026 року. Головна метрика блекаут-лабораторії: кількість токенів на ватт (t/s/W).

NVIDIA Discrete GPU Performance

Продуктивність дискретних відеокарт NVIDIA

Quantized model inference speed. Standard prompt: Transformer self-attention architecture description.

Швидкість інференсу на квантованих моделях. Стандартний промпт: опис архітектури self-attention.

Model / GPU	VRAM Used	Prompt Eval (t/s)	Token Gen (t/s)	TDP (W)	t/s/W Efficiency	TTFT (ms)
BASELINE: GEMMA 4 12B (Q4_K_M)
RTX 3060 12GB (PL 90W)	8.2 GB	260 t/s	23 t/s	90 W	0.26 t/s/W	720 ms
RTX 4060 Ti 16GB	8.2 GB	380 t/s	34 t/s	165 W	0.21 t/s/W	510 ms
RTX 5070 12GB	8.2 GB	540 t/s	48 t/s	220 W	0.22 t/s/W	380 ms
RTX 3060 12GB (Standard)	8.2 GB	290 t/s	26 t/s	170 W	0.15 t/s/W	650 ms
RTX 4060 8GB / RTX 5060 8GB	—	⚠️ Out of Memory (OOM) / Not enough VRAM for 12B+ models
REASONING: PHI-4 14B (Q4_K_M)
RTX 3060 12GB (PL 90W)	8.7 GB	250 t/s	16 t/s	90 W	0.18 t/s/W	1350 ms
RTX 4060 Ti 16GB	8.7 GB	340 t/s	22 t/s	165 W	0.13 t/s/W	980 ms
RTX 5070 12GB	8.7 GB	520 t/s	34 t/s	220 W	0.15 t/s/W	650 ms
RTX 3060 12GB (Standard)	8.7 GB	280 t/s	18 t/s	170 W	0.11 t/s/W	1200 ms

Apple Silicon SoC Unified Memory Inference

Швидкість інференсу на чіпах Apple Silicon

Unified Memory architecture efficiency. Unbeatable tokens/second per Watt ratios.

Ефективність архітектури об'єднаної пам'яті. Неперевершені показники енергоефективності.

Processor / SoC	RAM Size	Gemma 4 12B tg	Phi-4 14B tg	Inference TDP	Best t/s/W Ratio	Gemma TTFT
Apple M4 Max	48 / 64 GB	46 t/s	35 t/s	40 W	1.15 t/s/W	390 ms
Apple M4 Pro	24 GB	31 t/s	22 t/s	30 W	1.03 t/s/W	520 ms
Apple M4	16 GB	22 t/s	15 t/s	22 W	1.00 t/s/W	850 ms
Apple M3	16 GB	18 t/s	—	22 W	0.82 t/s/W	1100 ms
Apple M2	16 / 24 GB	14 t/s	12 t/s	22 W	0.64 t/s/W	1450 ms
Apple M1	16 GB	10 t/s	8 t/s	18 W	0.56 t/s/W	1800 ms

Mixture of Experts (MoE) Benchmarks (WS Setup)

Оптимізація MoE моделей на робочій станції WS

Test configuration: Xeon E5-2666 v3 (10c/20t) + RTX 2080 Ti 11GB + 128GB RAM. High context MTP speculative decoding acceptance.

Специфікація: Xeon E5-2666 v3 (10c/20t) + RTX 2080 Ti 11GB + 128GB RAM. Тестування драфтера спекулятивного декодування MTP.

MoE Model Name	File Size	Layers on GPU / CPU	Pure tg Speed (MTP)	MTP Draft Acceptance	KV-Cache Quant	TDP (Actual)
Gemma 4 26B MoE (Q4_K_M)	16.8 GB	14 on GPU / 34 on CPU	35.09 t/s	86.2%	q8_0 (Enabled)	75 W
Qwen 3.6 35B MoE (Q4_K_M)	22.0 GB	14 on GPU / 50 on CPU	25.20 t/s	70.0%	q8_0 (Enabled)	71 W
Ornith 1.0 35B MoE (Q6_K, Heavy)	29.2 GB	14 on GPU / 50 on CPU	25.16 t/s	97.5%	q8_0 (Enabled)	71 W

Key Insight: Speculative decoding (MTP) with draft acceptance rate of 97.5% (Ornith 1.0) completely neutralizes the generation speed loss caused by offloading 80% of model layers to CPU on budget workstation hosts. Ключовий інсайт: Спекулятивне декодування MTP з високою точністю 97.5% (Ornith 1.0) дозволяє практично повністю компенсувати втрату швидкості генерації через оффлоад 80% шарів моделі на повільний CPU.

Energy Efficiency Ranking (tokens/sec per Watt)

Рейтинг енергоефективності інференсу (t/s/W)

Higher is better. Measures generation tokens per second per total platform Watt draw.

Більше значення — краще. Відображає кількість генерованих токенів на 1 ватт споживання пристрою.

Apple M4 Max 48GB 🏆 TOP 1.15 t/s/W

Apple M4 Pro 24GB 1.03 t/s/W

Apple M4 16GB 1.00 t/s/W

Apple M3 16GB 0.82 t/s/W

Apple M2 16GB 0.64 t/s/W

Apple M1 16GB 0.56 t/s/W

NVIDIA RTX 3060 12GB (PL 90W) GPU Eco 0.26 t/s/W

NVIDIA RTX 5070 12GB 0.22 t/s/W

NVIDIA RTX 4060 Ti 16GB 0.21 t/s/W

NVIDIA RTX 3060 12GB (Standard 170W) 0.15 t/s/W

Cold Start Latency Analysis

Аналіз швидкості холодного старту моделей

Measures delay before the first token response based on storage and memory types.

Час завантаження ваг моделі та RAG баз у пам'ять залежно від типу накопичувача.

Configuration	Drive Type / Bus	Cold Start (12B LLM)	Cold Start (RAG Database)	Status / Recommendation
Apple M4 Pro + Unified Memory	Internal NVMe (Fast)	~1.5s	~4.0s	Excellent
RTX 3060 + NVMe SSD	NVMe Gen3 x4	~3.5s	~8.0s	Standard
RTX 3060 + SATA SSD	SATA III	~6.0s	~14.0s	Acceptable
RTX 3060 + HDD 7200 RPM	SATA III HDD	~18.0s	~35.0s	Not Recommended
RTX 3060 + Swap Memory	Virtual RAM (VRAM overflow)	~25.0s	~45.0s	OOM Avoidance Only

Quick Start Guide

Швидкий Старт та Конфігурації

Select your Operating System and Deployment stack profile to get code snippets.

Оберіть вашу операційну систему та конфігурацію стеку для отримання конфігураційних файлів.

Standard Stack Deployment (Ollama + Open WebUI)

Стандартний ШІ-стек (Ollama + Open WebUI)

Perfect configuration for regular laptops and homelab servers. Zero cost, user-friendly interface.

Рекомендовано для початківців, домашніх ПК та серверів. Повністю безкоштовний ChatGPT інтерфейс.

Install Ollama Engine

Встановлення двигуна Ollama

Run the official installation script inside your terminal:

Виконайте офіційну команду встановлення в консолі:

curl -fsSL https://ollama.com/install.sh | sh

Pull Modern LLM Models

Завантаження сучасних LLM моделей

Download highly optimized local models (Gemma 4, Qwen 3.6, DeepSeek-V4):

Стягніть квантовані локальні моделі (Gemma 4, Qwen 3.6, DeepSeek-V4):

ollama pull gemma4:12b && ollama pull qwen3.6:14b && ollama pull deepseek-v4:flash

Run Open WebUI via Docker

Запуск веб-інтерфейсу в Docker

Deploy the UI mapping container network to host ollama socket:

Створіть контейнер з автозапуском, приєднаний до локального хоста:

docker run -d --name open-webui -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data -e OLLAMA_BASE_URL=http://host.docker.internal:11434 --restart always ghcr.io/open-webui/open-webui:main

Professional Workstation Stack (llama.cpp + OpenCode)

Професійний стек розробника (llama-server + OpenCode)

Production configurations used on Weby Homelab WS (Xeon + RTX 2080 Ti). Optimized for low VRAM and giant contexts.

Конфігурації нашої робочої станції WS. Максимальна швидкість інференсу за рахунок MTP та квантування KV-кешу.

Configure systemd service for llama-server

Створення systemd служби для llama-server

Create file /etc/systemd/system/llama-server.service with KV caching and MTP draft enabled:

Запишіть сервіс у файл /etc/systemd/system/llama-server.service:

[Unit]
Description=Llama.cpp Inference Server
After=network.target

[Service]
Type=simple
ExecStart=/root/llama.cpp/build/bin/llama-server \
  -m /root/llama-models/ornith-1.0-35B-it-Q6_K.gguf \
  --spec-type draft-mtp --spec-draft-n-max 2 \
  -ctk q8_0 -ctv q8_0 \
  -ngl 14 -t 10 -c 65536 -fa on --host 0.0.0.0 --port 8080
Restart=always
LimitMEMLOCK=infinity
Nice=-11

[Install]
WantedBy=multi-user.target

Configure OpenCode Client

Налаштування клієнта OpenCode

Place config at ~/.config/opencode/opencode.jsonc linking to local API node:

Налаштуйте клієнт у файлі ~/.config/opencode/opencode.jsonc:

{
  "model": "local-infrastructure/gemma-4-26b-it",
  "provider": {
    "local-infrastructure": {
      "npm": "@ai-sdk/openai-compatible",
      "name": "Local Infrastructure (WS)",
      "options": {
        "baseURL": "http://127.0.0.1:8080/v1",
        "apiKey": "sk-llama-cpp-local-token"
      },
      "models": {
        "gemma-4-26b-it": {
          "name": "Gemma-4 26B Local (MoE)",
          "limit": { "context": 65536, "output": 4096 }
        }
      }
    }
  }
}

Windows Ollama Setup

Встановлення Ollama на Windows

Download and install the windows client using official package builder.

Автоматичне встановлення клієнта через офіційне джерело PowerShell.

PowerShell Automated Downloader

Встановлення двигуна Ollama через PowerShell

Open PowerShell as Administrator and run the command:

Запустіть PowerShell від імені адміністратора та виконайте:

Start-BitsTransfer -Source "https://ollama.com/download/OllamaSetup.exe" -Destination "$env:USERPROFILE\Downloads\OllamaSetup.exe"; Start-Process -FilePath "$env:USERPROFILE\Downloads\OllamaSetup.exe" -ArgumentList "/silent" -Wait

Windows Professional Configuration

Професійна робота на Windows (WSL2)

We highly recommend using WSL2 (Ubuntu 24.04) for running llama-server. Performance on native Windows is limited due to memory mapping restrictions.

Рекомендовано використовувати WSL2 (Ubuntu 24.04) для запуску професійного інференсу, оскільки нативний Windows має гірші показники роботи з пам'яттю.

Enable WSL2

Увімкнення підсистеми WSL2

Run in PowerShell as Administrator:

Виконайте в PowerShell від імені Адміністратора:

wsl --install -d Ubuntu-24.04

Blackout Survival & Power Resiliency

Оптимізація Живлення та Робота при Блекаутах

How to optimize your AI-HomeLab setup to run up to 45 hours on consumer charging stations during power blackouts.

Практичні гайди для зниження споживання енергії вашою ШІ-лабораторією з метою максимального продовження роботи від EcoFlow.

⏱️ Immediate Memory Unload Швидке вивантаження з пам'яті

Standard models standby in VRAM consume 15-30W tax. Keep model in memory active only when generating to let GPU sleep:

Простій моделі у пам'яті споживає 15-30W. Задайте швидке вивантаження моделі в сон після завершення генерації:

export OLLAMA_KEEP_ALIVE=10s

⚡ GPU Power Limits (Nvidia) Ліміти споживання GPU

Cut peak TDP spikes on Nvidia cards by 50% with only a 10% performance hit by setting power limit:

Обмеження енергоспоживання відеокарт без великої втрати швидкості генерації (до ліміту 80W/90W):

sudo nvidia-smi -pl 80

🔋 Unified Apple Silicon Advantage Переваги Apple Silicon

Apple Silicon hardware runs at 15-30W under heavy load, easily powered by typical 100W USB-C PD power banks for hours.

Архітектура Apple Silicon споживає всього 15-30W під навантаженням. Її можна живити годинами від звичайного повербанку з портом USB-C PD.

🔋 Runtime Calculator Калькулятор Автономності

Hardware Config Profile Конфігурація Заліза

EcoFlow Charging Station Зарядна Станція EcoFlow

43.4

Estimated Hours of Continuous Work Розрахункових годин безперервної роботи

Sovereign AI Laboratoriesin Your Home

Суверенна ШІ-Лабораторіяу Вашому Домі