Lokaler LLM-Server mit llama.cpp, GPU-Beschleunigung und VS Code Integration

Lokales LLM als Copilot-Alternative: llama-server + AI Chat in VS Code

GitHub Copilot kostet Geld, schickt deinen Code in die Cloud und wird ab Juni 2026 richtig teuer. Mit einer halbwegs modernen NVIDIA-GPU lässt sich das komplett lokal lösen. In diesem Artikel zeige ich, wie ich llama.cpp als OpenAI-kompatibler API-Server nutze und ihn über die Continue.dev-Extension in VS Code sowie Open Code als CLI-Tool eingebunden habe – vollständig kostenlos, ohne API-Key und ohne Datenweitergabe. Mein System: Windows 11 | RTX 4090 (24 GB VRAM) | 64 GB DDR5 RAM | WSL2 ...

May 5, 2026 · 15 min · Tobias
Frigate Detections

Frigate NVR mit NVIDIA GPU einrichten

Was ist Frigate? Frigate ist ein Open-Source Network Video Recorder (NVR) mit KI-gestützter Objekterkennung. Anders als klassische Überwachungssysteme nutzt Frigate moderne Machine-Learning-Modelle wie YOLOv9, um Personen, Fahrzeuge und andere Objekte in Echtzeit zu erkennen. Mit einem KI-Beschleuniger wie einer handelsüblichen GPU läuft die Objekterkennung besonders performant. In diesem Artikel zeige ich, wie ich Frigate auf einem Ubuntu-System mit NVIDIA-GPU eingerichtet habe. Voraussetzungen Ubuntu Server (ich nutze Ubuntu 24.04) Nvidia-Grafikkarte mit mindestens 4GB VRAM (Ich nutze eine RTX 5060 Ti mit 16 GB VRAM) Docker und Docker Compose Ausreichend Speicherplatz für Aufnahmen 1. NVIDIA-Treiber installieren Zuerst prüfen wir, welche Treiber für deine GPU verfügbar sind: ...

December 28, 2025 · 11 min · Tobias