Die Zukunft der KI liegt nicht nur in den Händen der Tech-Riesen – sondern auch in denen von Entwicklern wie Georgi Gerganov, dem Mastermind hinter Ollama. Gerganov, ein bulgarischer Programmierer, hat mit seinem Framework llama.cpp die Grundlage dafür geschaffen, dass leistungsstarke Sprachmodelle (LLMs) lokal auf normaler Hardware laufen können. Tools wie Ollama, die auf llama.cpp aufbauen, ermöglichen es, Modelle wie LLaMA oder Mistral auf einem MacBook oder Linux-Server zu betreiben – ohne teure GPUs oder Cloud-Infrastruktur. Das ist ein Gamechanger für Unternehmen, die Wert auf Datenschutz und Unabhängigkeit legen. Gerganovs Vision: KI für alle zugänglich machen, nicht nur für die, die sich High-End-Hardware leisten können.
In die gleiche Kerbe schlägt eine neue Entwicklung von Microsoft: bitnet.cpp, ein Open-Source-Framework für 1-Bit-LLMs, das Inferenz auf CPUs revolutioniert. Bitnet.cpp nutzt 1-Bit-Quantisierung, um Modellgröße und Rechenaufwand drastisch zu reduzieren – und das bei beeindruckender Leistung. Ein 100-Milliarden-Parameter-Modell läuft auf einer einzigen CPU mit 5–7 Tokens pro Sekunde, und das mit bis zu 82 % weniger Energieverbrauch als herkömmliche Frameworks. Die neueste Veröffentlichung, BitNet b1.58 2B4T, zeigt, dass 1-Bit-Modelle in Effizienz und Genauigkeit mit Full-Precision-Modellen mithalten können.