Senior Networking Solution Test Engineer – AI Cluster Debugging
Senior Networking Solution Test Engineer – AI Cluster Debugging

Senior Networking Solution Test Engineer – AI Cluster Debugging

Vollzeit 75000 - 95000 € / Jahr (geschätzt) Kein Home Office möglich
Go Premium
Nvidia

Auf einen Blick

  • Aufgaben: Entwickle und teste innovative Netzwerklösungen für KI-Cluster.
  • Arbeitgeber: NVIDIA, ein führendes Unternehmen in der Technologiebranche.
  • Mitarbeitervorteile: Attraktives Gehalt, Gesundheitsleistungen und ein inklusives Arbeitsumfeld.
  • Andere Informationen: Dynamisches Umfeld mit Möglichkeiten zur beruflichen Weiterentwicklung.
  • Warum dieser Job: Sei Teil eines Teams, das die Grenzen der Technologie verschiebt und echten Einfluss hat.
  • Gewünschte Qualifikationen: Erfahrung in Netzwerk- und Systemtests sowie starke Debugging-Fähigkeiten.

Das voraussichtliche Gehalt liegt zwischen 75000 - 95000 € pro Jahr.

Wir suchen einen Senior Networking Test Engineer mit starken Fähigkeiten im systemweiten Debugging, um unserem End-to-End-Verifizierungsteam beizutreten! Sie werden an bahnbrechenden NVLink-, Ethernet- und InfiniBand-basierten KI-Clustern arbeiten. Darüber hinaus werden Sie komplexe Probleme in Hardware, Systemsoftware und KI-Arbeitslasten übernehmen.

Verantwortlichkeiten

  • Entwerfen und Überprüfen von Test- und Produktanforderungen für das NVLink-, Ethernet- und InfiniBand/NIC/DPU/Switch-Portfolio mit Fokus auf das Verhalten großer KI-Cluster.
  • Aufbauen und Pflegen realistischer, kundenähnlicher Testumgebungen, einschließlich heterogener Hardware, OS-/Treiberkombinationen und komplexer Netzwerkstrukturen.
  • Eigenverantwortliches Troubleshooting des Clusters: Reproduzieren von Kundenszenarien, Triage über den gesamten Stack und Verfolgen von Problemen bis zur Ursache und Behebung.
  • Lesen und Verstehen relevanter Quellcodes zur Identifizierung von Defekten, Validierung von Korrekturen und Verbesserung von Protokollierung und Instrumentierung.
  • Eng mit Entwicklungsteams zusammenarbeiten, um NCCL, RoCE/RDMA und verwandte Netzwerkkomponenten mithilfe von Protokollen, Codeinspektion und gezielten Experimenten zu debuggen.
  • Tests definieren und das Automatisierungsteam anleiten, robuste, debugbare Suiten zu implementieren, die umsetzbare Protokolle, Metriken und Traces erzeugen.
  • Regression-, Leistungs-, Funktions- und Skalierungstests durchführen, Ergebnisse analysieren und klare, datengestützte Berichte an die Mitarbeiter bereitstellen.
  • Profilieren und Benchmarking von Deep-Learning-Trainings- und Inferenzarbeitslasten, Korrelation von modellbezogenen Metriken mit System- und Netzwerktelemetrie zur Aufdeckung von Engpässen.

Was wir sehen möchten

  • B.A./B.Sc. in Informatik, Elektrotechnik oder gleichwertige IT-/Netzwerk-/Systemerfahrung.
  • Über 8 Jahre praktische Erfahrung im Netzwerk- oder systemweiten Testen und Debuggen unter Linux.
  • Starke Linux-Netzwerk- und Debugging-Fähigkeiten (z.B. perf, tcpdump, ethtool, iproute2).
  • Nachweisliche Erfahrung im Debugging auf Produktionsniveau: Hypothesen bilden, Experimente durchführen und Probleme unter Druck bis zur Ursache verfolgen.
  • Expertise in der Validierung und Feinabstimmung von Host-NICs (Offloads, Warteschlangen, Interrupts, Firmware-/Treiberinteraktionen).
  • Starkes Wissen über KI-Netzwerkbibliotheken (wie NCCL) und Protokolle (wie RoCE und RDMA), einschließlich Leistungs- und Korrektheitsdebugging.
  • Fähigkeit, Quellcode (C/C++/Python oder ähnlich) zu lesen und zu verstehen sowie eng mit Entwicklern an Korrekturen zusammenzuarbeiten.
  • Solide Skript- und Automatisierungsfähigkeiten mit Bash/Python/Ansible für Setup, Protokollsammlung und Experimentorganisation.
  • Schneller Lerner, vertraut mit modernen KI-Tools und -Workflows, in der Lage, sich schnell anzupassen.
  • Exzellente analytische, problemlösende und Kommunikationsfähigkeiten, mit starkem Verantwortungsbewusstsein und einem kollaborativen Ansatz.

Wie Sie sich von der Masse abheben können

  • Praktisches Debugging von kollektiven Kommunikationsbibliotheken (z.B. NCCL) oder großangelegten LLM-Trainings-/Inferenzclustern.
  • Erfahrung mit großen Clusterumgebungen (von Dutzenden bis Tausenden von GPUs oder Knoten), einschließlich Vorfallreaktion und Nachanalyse.
  • Tiefe Expertise in der Feinabstimmung und dem Debugging von Staukontrolle und verlustfreiem Ethernet für KI-Arbeitslasten (z.B. DCQCN, ECN, PFC).
  • Vertrautheit mit NVIDIA-Netzwerktechnologien (z.B. BlueField/BF3, ConnectX NICs) und deren Software-Stack und Diagnosen.
  • Erfahrung im Debugging von Problemen, die mehrere Schichten (L2/L3, Transport, KI-Frameworks) umfassen, oder im Beitrag zu Open-Source-Netzwerk-/KI-Systemen.

Bei NVIDIA schätzen wir Vielfalt und setzen uns dafür ein, ein integratives Umfeld für alle Mitarbeiter zu schaffen. Wir diskriminieren nicht aufgrund von Rasse, Religion, Hautfarbe, nationaler Herkunft, Geschlecht, Geschlechtsidentität, sexueller Orientierung, Alter, Familienstand, Veteranenstatus oder Behinderungsstatus. Wir bieten angemessene Vorkehrungen, um sicherzustellen, dass alle Personen am Bewerbungs- oder Interviewprozess teilnehmen, wesentliche Arbeitsfunktionen ausführen und andere Vorteile und Privilegien der Beschäftigung erhalten können. Treten Sie uns bei und werden Sie Teil eines Teams, das die Grenzen der Technologie verschiebt und einen echten Einfluss auf die Welt hat.

Senior Networking Solution Test Engineer – AI Cluster Debugging Arbeitgeber: Nvidia

NVIDIA ist ein hervorragender Arbeitgeber, der innovative Technologien im Bereich KI und Netzwerklösungen vorantreibt. Unsere Unternehmenskultur fördert Zusammenarbeit und Vielfalt, während wir unseren Mitarbeitern zahlreiche Möglichkeiten zur beruflichen Weiterentwicklung bieten. In einer dynamischen Umgebung, die sich auf große AI-Cluster konzentriert, profitieren Sie von einem inspirierenden Arbeitsumfeld und der Chance, an bahnbrechenden Projekten zu arbeiten.
Nvidia

Kontaktperson:

Nvidia HR Team

StudySmarter Bewerbungstipps 🤫

So bekommst du den Job: Senior Networking Solution Test Engineer – AI Cluster Debugging

Tipp Nummer 1

Mach dir eine Liste von Fragen, die du im Vorstellungsgespräch stellen möchtest. Das zeigt dein Interesse und hilft dir, herauszufinden, ob das Unternehmen wirklich zu dir passt.

Tipp Nummer 2

Bereite dich darauf vor, deine technischen Fähigkeiten zu demonstrieren. Sei bereit, über spezifische Projekte zu sprechen, an denen du gearbeitet hast, und wie du Probleme gelöst hast.

Tipp Nummer 3

Netzwerke mit anderen in der Branche! Nutze Plattformen wie LinkedIn, um Kontakte zu knüpfen und mehr über die Unternehmenskultur zu erfahren. Oft gibt es Insider-Tipps, die dir helfen können.

Tipp Nummer 4

Bewirb dich direkt über unsere Website! So zeigst du dein Engagement und erhöhst deine Chancen, von den richtigen Leuten gesehen zu werden.

Diese Fähigkeiten machen dich zur top Bewerber*in für die Stelle: Senior Networking Solution Test Engineer – AI Cluster Debugging

System-Level Debugging
NVLink
Ethernet
InfiniBand
Linux Networking
Debugging Skills
NCCL
RoCE
RDMA
C/C++/Python
Scripting Skills
Bash
Ansible
Performance Testing
Data Analysis

Tipps für deine Bewerbung 🫡

Mach deine Hausaufgaben!: Bevor du deine Bewerbung abschickst, schau dir unsere Website genau an. Verstehe, was wir bei StudySmarter machen und wie du ins Team passt. Das zeigt uns, dass du wirklich interessiert bist!

Sei konkret!: Wenn du über deine Erfahrungen sprichst, sei so konkret wie möglich. Nenne Beispiele aus deiner bisherigen Arbeit, die zeigen, wie du komplexe Probleme gelöst hast. Das hilft uns, ein besseres Bild von deinen Fähigkeiten zu bekommen.

Zeig deine Leidenschaft!: Wir suchen nach Leuten, die für das, was sie tun, brennen. Lass in deiner Bewerbung durchscheinen, warum du dich für Networking und AI interessierst und was dich motiviert, Teil unseres Teams zu werden.

Korrekturlesen nicht vergessen!: Bevor du deine Bewerbung absendest, lies sie nochmal durch oder lass jemand anderen drüber schauen. Rechtschreibfehler oder unklare Formulierungen können einen schlechten Eindruck hinterlassen. Wir wollen die beste Version von dir sehen!

Wie du dich auf ein Vorstellungsgespräch bei Nvidia vorbereitest

Verstehe die Technologien

Mach dich mit NVLink, Ethernet und InfiniBand vertraut. Zeige im Interview, dass du die Grundlagen dieser Technologien verstehst und wie sie in großen AI-Clustern eingesetzt werden. Das wird dir helfen, deine Expertise zu demonstrieren.

Praktische Beispiele vorbereiten

Bereite konkrete Beispiele aus deiner bisherigen Berufserfahrung vor, die deine Fähigkeiten im Debugging und in der Fehlersuche zeigen. Erkläre, wie du komplexe Probleme gelöst hast und welche Tools du dabei verwendet hast.

Fragen zur Zusammenarbeit stellen

Da enge Zusammenarbeit mit Entwicklungsteams wichtig ist, stelle Fragen, die dein Interesse an Teamarbeit und Kommunikation zeigen. Frage nach den Herausforderungen, die das Team bei der Zusammenarbeit hat, und wie du dazu beitragen kannst, diese zu überwinden.

Analytische Fähigkeiten betonen

Hebe deine analytischen Fähigkeiten hervor, indem du erklärst, wie du Daten analysierst und Probleme systematisch angehst. Bereite dich darauf vor, spezifische Methoden zu erläutern, die du zur Fehlerdiagnose und -behebung verwendest.

Senior Networking Solution Test Engineer – AI Cluster Debugging
Nvidia
Premium gehen

Schneller zum Traumjob mit Premium

Deine Bewerbung wird als „Top Bewerbung“ bei unseren Partnern gekennzeichnet
Individuelles Feedback zu Lebenslauf und Anschreiben, einschließlich der Anpassung an spezifische Stellenanforderungen
Gehöre zu den ersten Bewerbern für neue Stellen mit unserem AI Bewerbungsassistenten
1:1 Unterstützung und Karriereberatung durch unsere Career Coaches
Premium gehen

Geld-zurück-Garantie, wenn du innerhalb von 6 Monaten keinen Job findest

>