Senior Performance Engineer- Pre-training(f/m/d)

Senior Performance Engineer- Pre-training(f/m/d)

Heidelberg Vollzeit 60000 - 80000 € / Jahr (geschätzt) Kein Homeoffice möglich
Aleph Alpha

Auf einen Blick

  • Aufgaben: Optimiere Systeme für das Training von KI-Modellen und steigere die Effizienz.
  • Unternehmen: Aleph Alpha, ein innovatives Unternehmen in Heidelberg, das an der Spitze der KI-Forschung steht.
  • Vorteile: 30 Tage Urlaub, Fitnessangebote, mentale Gesundheitsunterstützung und flexible Arbeitszeiten.
  • Weitere Informationen: Flache Hierarchien und ein unterstützendes Team für schnelles Entscheiden und Wachstum.
  • Warum dieser Job: Werde Teil einer KI-Revolution und arbeite an spannenden Projekten mit modernster Technologie.
  • Qualifikationen: Erfahrung in Python, PyTorch und verteilten Systemen ist erforderlich.

Das prognostizierte Gehalt liegt zwischen 60000 - 80000 € pro Jahr.

Unsere Mission

Aleph Alpha ist eines der wenigen Unternehmen in Europa, das ernsthafte Vortrainings von Fundamentmodellen durchführt. Unsere Kunden - in den Bereichen Finanzen, Fertigung und öffentliche Verwaltung - benötigen Modelle, die Deutsch verstehen, die europäischen regulatorischen Anforderungen entsprechen und zuverlässig in risikobehafteten Umgebungen arbeiten. Wir bauen das in Heidelberg auf.

Wir stellen einen Performance Engineer ein, um unser Team für die Effizienz des Vortrainings zu erweitern. Wenn Sie begeistert sind, Modelle schneller zu machen, ist dies die richtige Rolle für Sie!

Teamkultur

Bei Aleph Alpha fördern wir eine Kultur, die auf Eigenverantwortung, Autonomie und Empowerment basiert. Teams und Einzelpersonen werden vertraut, Verantwortung für ihre Arbeit zu übernehmen und einen bedeutenden Einfluss auszuüben. Wir pflegen eine flache Organisationsstruktur mit effizientem, unterstützendem Management, das schnelle Entscheidungen, offene Kommunikation und ein starkes Gefühl gemeinsamer Ziele ermöglicht.

Über die Rolle:

Sie werden die Systeme entwickeln, die erforderlich sind, um Fundamentmodelle in großem Maßstab zu trainieren. Ihr Ziel ist es, die Hardwareauslastung und den Trainingsdurchsatz auf unseren großen GPU-Clustern (Tausende von NVIDIA Blackwell GPUs) zu maximieren. Sie arbeiten an der Schnittstelle von Deep-Learning-Frameworks, verteilten Systemen und GPU-Mikroarchitekturen und beseitigen Engpässe von der Python-Schicht bis zum GPU-Kernel.

Ihre Verantwortlichkeiten:

  • End-to-End-Optimierung: Profilieren von Trainingsschleifen mit PyTorch Profiler, Nsight Systems und Nsight Compute, um System- und Kernel-Engpässe zu identifizieren und den Modell-Durchsatz zu maximieren.
  • Verteilte Strategie und Topologie: Konfigurieren und Abstimmen von zusammengesetzten Parallelitätsstrategien (z.B. TP, DP, HSDP/FSDP, EP), Optimierung des Lastenausgleichs, Minimierung kritischer Engpässe und Verwaltung von Kommunikations-zu-Berechnungs-Handelsmöglichkeiten für das Training großer LLMs.
  • Hardware-bewusstes Modellieren: Zusammenarbeit mit KI-Forschern zur Definition von Modellarchitekturen für Hardwareeffizienz, ohne die Konvergenz zu beeinträchtigen.

Ihr Profil

Grundlegende Qualifikationen:

  • Sie sind versiert in Python und der PyTorch-Bibliothek.
  • Sie haben einen starken Ingenieurhintergrund in parallelen und/oder verteilten Systemen mit nachweislicher Erfolgsbilanz.
  • Sie haben praktische Erfahrung mit modernen maschinellen Lerntechniken (insbesondere großen Sprachmodellen und ihrem Lebenszyklus).
  • Sie verstehen das CUDA-Programmiermodell tiefgehend.
  • Sie haben Erfahrung in der verteilten Programmierung mit APIs wie NCCL oder MPI.
  • Sie haben Erfahrung in der Analyse von Profilierungsdaten mit Tools wie PyTorch Profiler und Nvidia Nsight.

Bitte beachten Sie, dass diese Rolle regelmäßige persönliche Zusammenarbeit in Heidelberg als Mitglied des Training Efficiency Teams erfordert.

Bevorzugte Qualifikationen:

  • Beiträge zu modernen verteilten Trainingsframeworks (z.B. TorchTitan, Megatron-LM, DeepSpeed).
  • Vertrautheit mit Formaten für niedrigpräzises Training (MXFP4, MXFP8) und deren Auswirkungen auf numerische Stabilität und Durchsatz.
  • Ein tiefes Verständnis der NCCL-Kommunikationsprimitive, NVSHMEM oder CUDA IPC und deren Leistung.
  • Eine nachweisliche Erfolgsbilanz bei der Implementierung und Optimierung des Trainings moderner transformerbasierter Modelle.
  • Eine nachweisliche Erfolgsbilanz bei der Arbeit an der NVIDIA Blackwell-Architektur.

Vergütung und Vorteile:

  • Werden Sie Teil einer KI-Revolution!
  • 30 Tage bezahlter Urlaub
  • Zugang zu einer Vielzahl von Fitness- und Wellnessangeboten über Wellhub
  • Unterstützung der psychischen Gesundheit durch nilo.health
  • Substantielle subventionierte betriebliche Altersvorsorge für Ihre zukünftige Sicherheit
  • Subventioniertes deutschlandweites Verkehrsticket
  • Budget für zusätzliche technische Ausrüstung
  • Flexible Arbeitszeiten für eine bessere Work-Life-Balance und hybrides Arbeitsmodell
  • Virtuelles Aktienoptionsprogramm
  • JobRad® Fahrrad-Leasing

Senior Performance Engineer- Pre-training(f/m/d) Arbeitgeber: Aleph Alpha

Aleph Alpha ist ein herausragender Arbeitgeber, der eine Kultur der Eigenverantwortung und Autonomie fördert. Mit einem flachen Organisationsaufbau und einem unterstützenden Management ermöglicht das Unternehmen schnelle Entscheidungen und offene Kommunikation. Die Mitarbeiter profitieren von 30 Tagen Urlaub, flexiblen Arbeitszeiten, umfangreichen Gesundheitsangeboten und einer attraktiven Altersvorsorge, während sie an der Spitze der KI-Revolution in Heidelberg arbeiten.

Aleph Alpha

Kontaktdaten:

Aleph Alpha Recruiting-Team

StudySmarter Expertenrat🤫

Wir sind der Meinung, dass Sie so Senior Performance Engineer- Pre-training(f/m/d) erhalten könnten

Tipp Nummer 1

Sei proaktiv! Nutze LinkedIn und andere Netzwerke, um mit Leuten aus der Branche in Kontakt zu treten. Frag nach Informationen über die Firma und zeig dein Interesse an der Position.

Tipp Nummer 2

Bereite dich auf technische Interviews vor! Übe deine Fähigkeiten in Python und PyTorch, und sei bereit, deine Erfahrungen mit verteilten Systemen zu teilen. Zeig, dass du die Herausforderungen der Rolle verstehst.

Tipp Nummer 3

Nutze unsere Website für die Bewerbung! Wir haben ein einfaches Bewerbungsformular, das dir hilft, schnell und unkompliziert deine Unterlagen einzureichen. So bist du schneller im Rennen!

Tipp Nummer 4

Zeige deine Leidenschaft für KI! Sprich über Projekte, an denen du gearbeitet hast, und wie du zur Effizienzsteigerung von Modellen beigetragen hast. Das wird uns überzeugen, dass du die richtige Person für unser Team bist.

Wir glauben, dass du diese Fähigkeiten brauchst, um Senior Performance Engineer- Pre-training(f/m/d) mit Bravour zu bestehen

Python
PyTorch
Parallel Systems Engineering
Distributed Systems
CUDA Programming Model
NCCL
MPI

Einige Tipps für deine Bewerbung 🫡

Sei du selbst!:Wir wollen dich kennenlernen, also sei authentisch in deiner Bewerbung. Zeig uns, wer du bist und was dich motiviert, Teil unseres Teams zu werden!

Pass deine Unterlagen an:Schau dir die Stellenbeschreibung genau an und passe deinen Lebenslauf sowie dein Anschreiben an. Hebe relevante Erfahrungen hervor, die zu den Anforderungen passen – das macht einen großen Unterschied!

Zeig deine Leidenschaft:Erzähle uns, warum du dich für die Rolle als Performance Engineer interessierst. Deine Begeisterung für die Arbeit mit KI und Modellen sollte in deiner Bewerbung deutlich werden!

Bewirb dich über unsere Website:Um sicherzustellen, dass wir deine Bewerbung schnell und effizient bearbeiten können, bewirb dich bitte direkt über unsere Website. So bist du auf der sicheren Seite!

Wie man sich auf ein Vorstellungsgespräch bei Aleph Alpha vorbereitet

Verstehe die Technologie

Mach dich mit den Technologien und Tools vertraut, die in der Stellenbeschreibung erwähnt werden, wie PyTorch, CUDA und verteilte Systeme. Zeige im Interview, dass du nicht nur die Grundlagen verstehst, sondern auch, wie sie in der Praxis angewendet werden.

Bereite konkrete Beispiele vor

Denke an spezifische Projekte oder Erfahrungen, die deine Fähigkeiten in der Optimierung von Trainingsprozessen und der Arbeit mit großen GPU-Clustern demonstrieren. Konkrete Beispiele helfen, deine Kompetenz zu untermauern und machen dich für das Team greifbarer.

Fragen stellen

Bereite einige Fragen vor, die du dem Interviewer stellen kannst. Das zeigt dein Interesse an der Rolle und am Unternehmen. Frage nach den aktuellen Herausforderungen im Team oder wie sie den Erfolg bei der Optimierung von Modellen messen.

Kulturelle Passung

Informiere dich über die Unternehmenskultur von Aleph Alpha und überlege, wie du dich in das Team einfügen kannst. Betone im Interview, dass du Wert auf Eigenverantwortung und offene Kommunikation legst, um zu zeigen, dass du gut ins Team passt.