Senior Performance Engineer- Pre-training(f/m/d)

Senior Performance Engineer- Pre-training(f/m/d)

Heidelberg Vollzeit 60000 - 80000 € / Jahr (geschätzt) Homeoffice (teilweise)
alephalpha

Auf einen Blick

  • Aufgaben: Optimiere Systeme für das Training von KI-Modellen und steigere die Effizienz.
  • Unternehmen: Aleph Alpha, ein innovatives Unternehmen in Heidelberg, das an der Spitze der KI-Forschung steht.
  • Vorteile: 30 Tage Urlaub, Fitnessangebote, mentale Gesundheitsunterstützung und flexible Arbeitszeiten.
  • Weitere Informationen: Flache Hierarchien und ein unterstützendes Team für schnelles Entscheiden und offene Kommunikation.
  • Warum dieser Job: Werde Teil einer KI-Revolution und arbeite an spannenden Projekten mit modernster Technologie.
  • Qualifikationen: Erfahrung in Python, PyTorch und verteilten Systemen ist erforderlich.

Das prognostizierte Gehalt liegt zwischen 60000 - 80000 € pro Jahr.

Unsere Mission

Aleph Alpha ist eines der wenigen Unternehmen in Europa, das ernsthafte Vortrainingsmodelle entwickelt. Unsere Kunden - in den Bereichen Finanzen, Fertigung und öffentliche Verwaltung - benötigen Modelle, die Deutsch verstehen, die europäischen Vorschriften entsprechen und zuverlässig in kritischen Anwendungen funktionieren. Wir bauen das in Heidelberg auf.

Wir stellen einen Performance Engineer ein, um unser Team für die Effizienz des Vortrainings zu erweitern. Wenn Sie begeistert sind, Modelle schneller zu machen, ist dies die richtige Rolle für Sie!

Teamkultur

Bei Aleph Alpha fördern wir eine Kultur, die auf Eigenverantwortung, Autonomie und Empowerment basiert. Teams und Einzelpersonen werden ermutigt, Verantwortung für ihre Arbeit zu übernehmen und einen bedeutenden Einfluss auszuüben. Wir pflegen eine flache Organisationsstruktur mit effizientem, unterstützendem Management, das schnelle Entscheidungen, offene Kommunikation und ein starkes Gefühl von gemeinsamem Zweck ermöglicht.

Über die Rolle

Sie werden die Systeme entwickeln, die erforderlich sind, um Grundmodelle in großem Maßstab zu trainieren. Ihr Ziel ist es, die Hardwareauslastung und den Trainingsdurchsatz auf unseren großen GPU-Clustern (Tausende von NVIDIA Blackwell GPUs) zu maximieren. Sie arbeiten an der Schnittstelle von Deep-Learning-Frameworks, verteilten Systemen und GPU-Mikroarchitekturen und beseitigen Engpässe von der Python-Schicht bis zum GPU-Kernel.

Ihre Verantwortlichkeiten

  • End-to-End-Optimierung: Profilierung von Trainingsschleifen mit PyTorch Profiler, Nsight Systems und Nsight Compute zur Identifizierung von System- und Kernelengpässen, um den Modell-Durchsatz zu maximieren.
  • Verteilte Strategie und Topologie: Konfiguration und Feinabstimmung von zusammengesetzten Parallelitätsstrategien (z.B. TP, DP, HSDP/FSDP, EP), Optimierung des Lastenausgleichs, Minimierung kritischer Engpässe und Verwaltung von Kommunikations-zu-Berechnungs-Handelsmöglichkeiten für das Training großer LLMs.
  • Hardware-bewusstes Modellieren: Zusammenarbeit mit KI-Forschern zur Definition von Modellarchitekturen für Hardwareeffizienz, ohne die Konvergenz zu beeinträchtigen.

Ihr Profil

Grundqualifikationen

  • Sie sind versiert in Python und der PyTorch-Bibliothek.
  • Sie haben einen starken Ingenieurhintergrund in parallelen und/oder verteilten Systemen mit nachweislicher Erfolgsbilanz.
  • Sie haben praktische Erfahrung mit modernen maschinellen Lerntechniken (insbesondere großen Sprachmodellen und ihrem Lebenszyklus).
  • Sie verstehen das CUDA-Programmiermodell tiefgehend.
  • Sie haben Erfahrung in der verteilten Programmierung mit APIs wie NCCL oder MPI.
  • Sie haben Erfahrung in der Analyse von Profilierungsdaten mit Tools wie PyTorch Profiler und Nvidia Nsight.

Bitte beachten Sie, dass diese Rolle regelmäßige persönliche Zusammenarbeit in Heidelberg als Mitglied des Training Efficiency Teams erfordert.

Bevorzugte Qualifikationen

  • Beiträge zu modernen verteilten Trainingsframeworks (z.B. TorchTitan, Megatron-LM, DeepSpeed).
  • Vertrautheit mit Formaten für das Training mit niedriger Präzision (MXFP4, MXFP8) und deren Auswirkungen auf numerische Stabilität und Durchsatz.
  • Ein tiefes Verständnis der NCCL-Kommunikationsprimitive, NVSHMEM oder CUDA IPC und deren Leistung.
  • Eine nachweisliche Erfolgsbilanz bei der Implementierung und Optimierung des Trainings moderner transformerbasierter Modelle.
  • Eine nachweisliche Erfolgsbilanz bei der Arbeit an der NVIDIA Blackwell-Architektur.

Vergütung und Vorteile

  • Werden Sie Teil einer KI-Revolution!
  • 30 Tage bezahlter Urlaub
  • Zugang zu einer Vielzahl von Fitness- und Wellnessangeboten über Wellhub
  • Unterstützung der psychischen Gesundheit durch nilo.health
  • Substantielle subventionierte betriebliche Altersvorsorge für Ihre zukünftige Sicherheit
  • Subventioniertes deutschlandweites Verkehrsticket
  • Budget für zusätzliche technische Ausrüstung
  • Flexible Arbeitszeiten für eine bessere Work-Life-Balance und hybrides Arbeitsmodell
  • Virtuelles Aktienoptionsprogramm
  • JobRad Fahrrad-Leasing

Senior Performance Engineer- Pre-training(f/m/d) Arbeitgeber: alephalpha

Aleph Alpha ist ein herausragender Arbeitgeber, der eine Kultur der Eigenverantwortung und Autonomie fördert. Mit einem flachen Organisationsaufbau und einem unterstützenden Management ermöglicht das Unternehmen schnelle Entscheidungen und offene Kommunikation. Die Mitarbeiter profitieren von umfangreichen Wachstums- und Entwicklungsmöglichkeiten sowie attraktiven Benefits wie 30 Tagen Urlaub, flexiblen Arbeitszeiten und einem Virtual Stock Option Plan, während sie an der Spitze der KI-Revolution in Heidelberg arbeiten.

alephalpha

Kontaktdaten:

alephalpha Recruiting-Team

StudySmarter Expertenrat🤫

Wir sind der Meinung, dass Sie so Senior Performance Engineer- Pre-training(f/m/d) erhalten könnten

Tipp Nummer 1

Mach dir ein starkes Netzwerk! Nutze Plattformen wie LinkedIn, um mit Leuten aus der Branche in Kontakt zu treten. Lass uns wissen, wenn du Fragen hast oder Unterstützung brauchst!

Tipp Nummer 2

Bereite dich auf technische Interviews vor! Übe deine Fähigkeiten in Python und PyTorch, denn die werden oft getestet. Wir können dir helfen, die besten Ressourcen zu finden!

Tipp Nummer 3

Sei bereit, über deine bisherigen Projekte zu sprechen! Zeige, wie du Probleme gelöst hast und welche Erfolge du erzielt hast. Das macht einen großen Eindruck auf die Arbeitgeber!

Tipp Nummer 4

Bewirb dich direkt über unsere Website! So kannst du sicherstellen, dass deine Bewerbung die richtigen Leute erreicht. Und wir freuen uns immer über neue Talente in unserem Team!

Wir glauben, dass du diese Fähigkeiten brauchst, um Senior Performance Engineer- Pre-training(f/m/d) mit Bravour zu bestehen

Python
PyTorch
Parallel Systems
Distributed Systems
CUDA Programming Model
NCCL
MPI

Einige Tipps für deine Bewerbung 🫡

Sei authentisch!:Zeig uns, wer du wirklich bist! Deine Persönlichkeit und Leidenschaft für das, was du tust, sollten in deiner Bewerbung deutlich werden. Lass uns wissen, warum du dich für die Rolle als Performance Engineer interessierst und was dich motiviert.

Betone deine Erfahrungen:Erzähle uns von deinen bisherigen Projekten und Erfahrungen, die relevant für die Stelle sind. Besonders wichtig sind deine Kenntnisse in Python, PyTorch und verteilten Systemen. Zeig uns, wie du Herausforderungen gemeistert hast und welche Erfolge du erzielt hast!

Mach es übersichtlich:Halte deine Bewerbung klar und strukturiert. Verwende Absätze und Aufzählungen, um wichtige Informationen hervorzuheben. So können wir schnell erkennen, dass du der richtige Kandidat für unser Team bist!

Bewirb dich über unsere Website:Wir empfehlen dir, deine Bewerbung direkt über unsere Website einzureichen. So stellst du sicher, dass sie schnell bei uns ankommt und du alle notwendigen Informationen bereitstellst. Wir freuen uns darauf, von dir zu hören!

Wie man sich auf ein Vorstellungsgespräch bei alephalpha vorbereitet

Verstehe die Technologie

Mach dich mit den Technologien und Tools vertraut, die in der Stellenbeschreibung erwähnt werden, wie PyTorch, CUDA und verteilte Systeme. Zeige im Interview, dass du nicht nur die Grundlagen verstehst, sondern auch, wie du diese Technologien zur Optimierung von Modellen einsetzen kannst.

Bereite konkrete Beispiele vor

Denke an spezifische Projekte oder Erfahrungen, die deine Fähigkeiten in der End-to-End-Optimierung und im Umgang mit großen GPU-Clustern demonstrieren. Sei bereit, über Herausforderungen zu sprechen, die du gemeistert hast, und wie du zur Effizienzsteigerung beigetragen hast.

Fragen stellen

Bereite einige durchdachte Fragen vor, die zeigen, dass du dich mit der Unternehmenskultur und den Zielen von Aleph Alpha auseinandergesetzt hast. Fragen zur Teamdynamik oder zu aktuellen Projekten können dir helfen, ein besseres Bild von der Rolle und dem Unternehmen zu bekommen.

Zeige deine Leidenschaft

Lass deine Begeisterung für KI und maschinelles Lernen durchscheinen. Erkläre, warum du dich für diese Position interessierst und wie du zur Mission von Aleph Alpha beitragen möchtest. Deine Motivation kann einen großen Unterschied machen!