Die KI-Welt hat einen neuen Star

https://qwenlm.github.io/blog/qwq-32b/

Scaling Reinforcement Learning (RL) has the potential to enhance model performance beyond conventional pretraining and post-training methods. Recent studies have demonstrated that RL can significantly improve the reasoning capabilities of models. For instance, DeepSeek R1 has achieved state-of-the-art performance by integrating cold-start data and multi-stage training, enabling deep thinking and complex reasoning.

Our research explores the scalability of Reinforcement Learning (RL) and its impact on enhancing the intelligence of large language models. We are excited to introduce QwQ-32B, a model with 32 billion parameters that achieves performance comparable to DeepSeek-R1, which boasts 671 billion parameters (with 37 billion activated). This remarkable outcome underscores the effectiveness of RL when applied to robust foundation models pretrained on extensive world knowledge.

Am 5. März 2025 stellte Alibabas Qwen-Team das Open-Source-Modell QwQ-32B vor. Mit nur 32 Milliarden Parametern konkurriert es mit Giganten wie DeepSeek-R1 (671 Milliarden Parameter) und übertrifft sogar OpenAIs o1-mini in Benchmarks wie Mathematik und Programmieren. Die enorme Leistung erzielt QwQ durch weiterentwickelte Software, und das Modell läuft flott bereits auf (für KI-Verhältnisse) kleiner Hardware (24GB VRAM).

Programmierer wissen es, verbesserter Code schlägt meistens verbesserte Hardware. Mit optimierten Abläufen, performanteren Algorithmen und schlankeren Datenstrukturen lassen sich oft drastische Performance-Steigerungen erzielen, weit über das hinaus, was (nur) neue Hardware bieten würde. Mir scheint, in der KI-Welt wird bisher bei den Platzhirschen zu viel auf immer noch größere und leistungsstärkere Hardware gesetzt, während das Potential, das in optimiertem Code liegt, ein wenig zu kurz kommt. Tja. Es stimmt mich schon etwas traurig, dass offenbar die Chinesen beginnen, auch in der Software-Entwicklung den Westen abzuhängen.

Schreibe einen Kommentar Antworten abbrechen