Senior HPC and AI Network Software Architect

Senior HPC and AI Network Software Architect

Vollzeit 60000 - 80000 € / Jahr (geschätzt) Kein Homeoffice möglich
NVIDIA Gruppe

Auf einen Blick

  • Aufgaben: Entwickle skalierbare Softwarearchitekturen für KI-Training und -Inference.
  • Unternehmen: NVIDIA, ein führendes Unternehmen in Grafik- und KI-Technologie.
  • Vorteile: Wettbewerbsfähiges Gehalt, umfassende Sozialleistungen und flexible Arbeitsmöglichkeiten.
  • Weitere Informationen: Dynamisches Team mit innovativen Projekten und exzellenten Karrieremöglichkeiten.
  • Warum dieser Job: Gestalte die Zukunft der KI und arbeite an bahnbrechenden Technologien.
  • Qualifikationen: Ph.D. oder gleichwertige Erfahrung in Informatik und 5+ Jahre relevante Berufserfahrung.

Das prognostizierte Gehalt liegt zwischen 60000 - 80000 € pro Jahr.

NVIDIA hat die Computergraphik, das PC-Gaming und das beschleunigte Rechnen seit mehr als 25 Jahren transformiert. Heute nutzen wir das unbegrenzte Potenzial von KI, um die nächste Ära des Rechnens zu definieren. Wir suchen einen Senior HPC und AI Network Software Architect, der hilft, die nächste Generation skalierbarer KI-Infrastruktur aufzubauen. Die Rolle betont verteiltes Training, Echtzeitinferenz und Kommunikationseffizienz über große Systeme.

Was Sie tun werden:

  • Entwickeln und weiterentwickeln der Architektur skalierbarer Softwaresysteme für verteiltes KI-Training und -Inference, mit Fokus auf Durchsatz, Latenz, Resilienz und Speichereffizienz über Cluster-Scale-Deployments.
  • Entwickeln und bewerten von Next-Generation-Kommunikations- und Laufzeitfähigkeiten in Bibliotheken wie NCCL, UCX und UCC, die auf die sich entwickelnden Anforderungen von KI-Workloads zugeschnitten sind.
  • Zusammenarbeiten mit KI-Framework-Teams (z.B. TensorFlow, PyTorch, JAX) und internen Plattformteams, um Integrationen zu erstellen, neue Ansätze zu erkunden und die End-to-End-Leistung und Zuverlässigkeit zu verbessern.
  • Zusammenarbeiten an Hardware- und Systemebene über GPUs, DPUs und Interconnects, um die Datenbewegung zu beschleunigen und neue Fähigkeiten für Training, Inferenz und Modellbereitstellung im großen Maßstab zu ermöglichen.
  • Innovation in Laufzeitsystemen, Kommunikationsbibliotheken und KI-spezifischen Protokollschichten vorantreiben, um neue Ideen in praktische Fähigkeiten und robuste Implementierungen umzusetzen.

Was wir sehen müssen:

  • Ph.D. oder gleichwertige Berufserfahrung in Informatik, Computertechnik oder einem eng verwandten Bereich.
  • 5+ Jahre Erfahrung in der Systemprogrammierung, paralleler oder verteilter Verarbeitung, Hochleistungsnetzwerken oder großflächiger Datenbewegung, einschließlich Erfahrung im Entwerfen und Bauen komplexer Systeme.
  • Starker Programmierhintergrund in C++, Python und idealerweise CUDA oder anderen GPU-Programmiermodellen, mit nachweislicher Erfolgsbilanz beim Erstellen von produktionsrelevanter, leistungsorientierter Software.
  • Umfassende praktische Erfahrung mit KI-Frameworks (z.B. PyTorch, TensorFlow, JAX) und ein solides Verständnis dafür, wie Kommunikationsbibliotheken und Laufzeitsysteme großflächiges Training und Inferenz erleichtern.
  • Nachgewiesener Erfolg bei der Entwicklung und Verfeinerung von Hochdurchsatz-, Niedriglatenzsystemen, einschließlich der Fähigkeit, über Software-Stacks, Hardwarefähigkeiten und Systemengpässe hinweg zu argumentieren.
  • Starke Zusammenarbeit in einem multinationalen, interdisziplinären Umfeld, mit der Fähigkeit, Ideen beizutragen, Schwung aufzubauen und effektiv mit leitenden Ingenieuren, Forschern und Partnerteams zu arbeiten.

Wege, sich von der Masse abzuheben:

  • Tiefe Expertise mit NCCL, UCX, UCC oder ähnlichen Kommunikationsbibliotheken, die in großflächigen KI- und HPC-Workloads verwendet werden.
  • Starker Hintergrund in Netzwerken und Kommunikationsprotokollen, RDMA, kollektiven Kommunikationen, congestion-aware Transport oder accelerator-aware Networking.
  • Umfassendes Wissen über das Training und die Bereitstellung großer Modelle im großen Maßstab, einschließlich Kommunikationsengpässen, Planungsherausforderungen und systemweiten Trade-offs zwischen Rechenleistung, Speicher und Fabric.
  • Erfahrung in der Gestaltung von Hardware-Software-Co-Design für verteilte KI-Systeme, einschließlich Beiträgen, die GPU-, DPU-, Interconnect- oder Laufzeitfähigkeiten vorangebracht haben.
  • Vertrautheit mit der Infrastruktur für die Bereitstellung von LLMs oder transformerbasierten Modellen, einschließlich Sharding, Pipelining, Expertenparallelismus oder hybriden Parallelismus.

NVIDIA bietet wettbewerbsfähige Gehälter und ein umfassendes Leistungspaket. Ihr Grundgehalt wird basierend auf Ihrem Standort, Ihrer Erfahrung und dem Gehalt von Mitarbeitern in ähnlichen Positionen festgelegt.

Senior HPC and AI Network Software Architect Arbeitgeber: NVIDIA Gruppe

NVIDIA ist ein herausragender Arbeitgeber, der eine dynamische und unterstützende Arbeitsumgebung bietet, in der Innovation und Zusammenarbeit gefördert werden. Mit einem starken Fokus auf die Entwicklung von KI-Infrastrukturen und einer Kultur, die Vielfalt und Kreativität schätzt, haben Mitarbeiter die Möglichkeit, an bahnbrechenden Projekten zu arbeiten und ihre Fähigkeiten kontinuierlich weiterzuentwickeln. Die wettbewerbsfähigen Gehälter und umfassenden Sozialleistungen, kombiniert mit der Chance, an der Spitze der Technologie zu stehen, machen NVIDIA zu einem attraktiven Arbeitsplatz für talentierte Fachkräfte.

NVIDIA Gruppe

Kontaktdaten:

NVIDIA Gruppe Recruiting-Team

Wir glauben, dass du diese Fähigkeiten brauchst, um Senior HPC and AI Network Software Architect mit Bravour zu bestehen

HPC (High-Performance Computing)
AI (Künstliche Intelligenz)
Verteiltes Training
Echtzeit-Inferenz
Kommunikationseffizienz
C++ Programmierung
Python Programmierung