Tipps zur Einrichtung eines lokalen KI-Servers

In Ergänzung zu unserem vorangegangenen Beitrag haben wir noch ein paar Tips für Sie zur Installation eines eigenen KI-Chatbots.

Im Gegensatz zur verlinkten Anleitung bei Hetzner würden wir Ihnen betreff Open WebUI, falls Sie keine Docker-Installation wünschen, empfehlen, nicht mit git, sondern mit pip zu installieren. Die Docker Installation ist wohl am einfachsten und funktioniert auch einwandfrei. Vielleicht will man jedoch mehr Einblick in die Installation. Die hierzu im Artikel von Hetzner als Alternative vorgeschlagene git-Installation funktioniert zwar auch, aber spätestens beim ersten Update scheitert man unserer Erfahrung und das endet in einer Neu-Installation – bei der natürlich alle Einstellungen etc. verlorengehen. Hat man jedoch mit pip installiert, ist eine neue Open WebUI Version kein Problem.

Falls Sie Open WebUI mit pip installieren möchten, sollten Sie Python <=3.11 verwenden. Sollte Ihr System ein neueres Python haben, können Sie die V3.11 nachinstallieren mit „apt [bzw. dnf etc.] install python3.11″ und pip 3.11 mit „python3.11 -m ensurepip –upgrade“. Anschließend verwenden Sie  „python3.11 <script.py>“ und „pip3.11 <befehl>“ um die 3.11 Version auszuführen.

Zum Speicherbedarf. Ein System mit >= 12 GB VRAM kann Modelle bis 32b im Speicher der Grafikkarte ausführen. Falls das Modell in der Grafikkarte ausgeführt werden kann, ist das erheblich schneller als auf dem Mainboard. Und 32b ist bereits ein sehr gutes Modell mit hoher Qualität – insbesondere die für Programmierer sehr interessante, aus dem Vollmodell destillierte, Variante Qwen2.5-coder:32b hat sogar maximal 32b Parameter („b“ steht für englisch Billions, also Milliarden Parameter), kann also bereits mit einer relativ erschwinglichen Gamer-GPU in deren Speicher laufen.

Interessant i.d.Zshg. ist außerdem, um eines der großen bzw. vollständigen Modelle auszuführen, braucht man nicht unbedingt einen unbezahlbar teuren Grafikkartenpark. Auf einem System mit 512 GB RAM und einer hinreichend starken CPU lassen sich die vollen Modelle mit ca. 760b auch auf dem Mainboard einigermaßen performant ausführen, solange es nur um Inference (Antworten auf Fragen) geht. Klar ist das etwas langsam, aber als alleiniger Anwender erträglich und brauchbar. Training wäre allerdings eine ganz andere Sache …

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert