DeepSeek hat eine Funktion eingeführt, die es “Manifold-Constrained Hyperconnections” nennt, eine neue Routing-Schicht, die darauf abzielt, große neuronale Netze stabil zu halten, auch wenn sie an Größe, Verkehr und gegnerischer Last zunehmen.
Wie DeepSeek mit “Manifold Constraints” Hyperconnections eindämmt
DeepSeek verwendet bereits eine Mixture-of-Experts-Architektur, bei der nur eine Teilmenge der Parameter für jeden Token aktiviert wird. Manifold-Constrained-Hyperconnections verfeinern diese Routing-Ebene, indem sie die Interaktionen zwischen den Experten auf eine wohldefinierte geometrische Mannigfaltigkeit beschränken, anstatt auf einen frei geformten, variantenreichen Raum.
Das bedeutet, dass das Netzwerk, wenn es Informationen zwischen Experten weitergibt, diese Aktivierungen in eine begrenzte Region projiziert, in der es strenge Grenzen gibt, wie weit sie in Größe und Richtung abweichen können. Diese Projektion verringert das Risiko von “Verlustspitzen” und ausufernden Gradienten während des Trainings und der Inferenz, ein Problem, das das DeepSeek-Team bei seinen V3- und R1-Modellen als Kernpunkt der Stabilität hervorgehoben hat. Interne Tests haben laut den technischen Notizen des Unternehmens vollständige Trainingsläufe ohne die Art von katastrophaler Instabilität aufgezeichnet, die oft bei sehr großen Modellen mit aggressiven Optimierungsplänen auftritt.
Stabilität als erstklassiges Ziel
Die Einführung der mehrfach eingeschränkten Hyperconnections folgt auf eine Zeit, in der Sicherheitsforscher und Cloud-Infrastruktur-Analysten Schwachstellen im DeepSeek-Stack aufzeigten, darunter eine ungeschützte Analysedatenbank und die Anfälligkeit für Jailbreak-Angriffe. Diese Erkenntnisse machten deutlich, wie schnell eine steigende Nutzung sowohl das Modell als auch die umgebende Infrastruktur belasten kann, wenn Stabilität und Sicherheit nicht Hand in Hand gehen.
Indem DeepSeek das neue Routing-Schema als Stabilitätswerkzeug und nicht als reines Geschwindigkeitsupgrade bezeichnet, signalisiert das Unternehmen, dass es ein vorhersehbares Verhalten unter Last und nicht nur Benchmark-Gewinne anstrebt. In der Dokumentation des Unternehmens wird darauf hingewiesen, dass der Hyperconnection Manifold mit Multi-head Latent Attention und Lastausgleichsstrategien zusammenarbeitet, die bereits darauf abzielen, die Aktivierungsmuster der Experten gleichmäßig zu verteilen. Gemeinsam versuchen diese Elemente, den “Expertenkollaps” zu verhindern, bei dem einige wenige Komponenten den Datenverkehr dominieren und zu Single Points of Failure werden.
Wenn die vielschichtigen Hyperkonnektionen das halten, was sie versprechen, haben die Betreiber großer Modelle eine bessere Kontrolle darüber, wie Informationen durch ihre Netzwerke fließen, wenn der Datenverkehr ansteigt oder Angreifer nach Schwachstellen suchen. Diese Kontrolle ist wichtig für Sektoren wie Finanzen, Sicherheit und kritische Infrastrukturen, in denen unvorhersehbares Modellverhalten zu übergroßen Risiken führen kann.
Lies mehr: Die MSTR-Aktie war der größte Nachzügler im Nasdaq 100 Index: Wird sie sich 2026 wieder erholen?