Senior ML Infrastructure Engineer
Senior ML Infrastructure Engineer

Senior ML Infrastructure Engineer

Berlin Vollzeit 80000 - 110000 € / Jahr (geschätzt) Home Office möglich (teilweise)
Go Premium
P

Auf einen Blick

  • Aufgaben: Entwickle und optimiere GPU-Infrastruktur für bahnbrechende tabellarische KI-Modelle.
  • Arbeitgeber: Führendes Unternehmen im Bereich strukturierte Daten-Maschinenlernen mit innovativer Kultur.
  • Mitarbeitervorteile: Wettbewerbsfähiges Gehalt, Gesundheitsleistungen, flexible Arbeitszeiten und Weiterbildungsmöglichkeiten.
  • Warum dieser Job: Sei Teil eines Teams, das die nächste Generation von KI-Infrastruktur gestaltet und echte Auswirkungen hat.
  • Gewünschte Qualifikationen: Mindestens 5 Jahre Erfahrung in der GPU-Infrastruktur und tiefes Verständnis für Slurm und Cluster-Management.
  • Andere Informationen: Dynamisches Umfeld mit hervorragenden Karrierechancen und einem inklusiven Team.

Das voraussichtliche Gehalt liegt zwischen 80000 - 110000 € pro Jahr.

Wer wir sind: Foundation-Modelle haben Text und Bilder transformiert, aber strukturierte Daten - die größte und bedeutendste Datenmodalität der Welt - sind unberührt geblieben. Tabellen steuern jede klinische Studie, jedes Finanzmodell, jedes wissenschaftliche Experiment und jede Geschäftsentscheidung. Niemand hat ein Foundation-Modell entwickelt, das sie wirklich versteht. Bis jetzt. Was LLMs für Sprache getan haben, tun wir für Tabellen.

Momentum: Wir haben tabellarische Foundation-Modelle pioniert und sind nun die weltweit führende Organisation im Bereich strukturiertes Daten-ML. Unser TabPFN v2-Modell wurde in Nature veröffentlicht und hat einen neuen Stand der Technik für tabulares maschinelles Lernen gesetzt. Seit seiner Veröffentlichung haben wir die Modellfähigkeiten um mehr als das 20-fache skaliert, über 3 Millionen Downloads erreicht, mehr als 6.000 GitHub-Sterne erhalten und sehen eine beschleunigte Akzeptanz in Forschung und Industrie - von der Erkennung von Lungenerkrankungen mit Oxford Cancer Analytics bis zur Verhinderung von Zugausfällen mit Hitachi und der Verbesserung von Entscheidungen in klinischen Studien mit BostonGene.

Die schwierigste Arbeit liegt vor uns. Wir skalieren tabellarische Foundation-Modelle, um Millionen von Zeilen, Tausende von Merkmalen, Echtzeitinferenz und völlig neue Datenmodalitäten zu bewältigen - während wir die Infrastruktur aufbauen, um sie in Produktion in einigen der anspruchsvollsten Branchen der Erde einzusetzen. Dies sind offene Probleme, an denen sonst niemand auf diesem Niveau arbeitet.

Unser Team: Wir sind ein kleines, hochselektives Team von über 20 Ingenieuren und Forschern, ausgewählt aus über 5.000 Bewerbungen, mit Hintergründen von Google, Apple, Amazon, Microsoft, G-Research, Jane Street, Goldman Sachs und CERN, geleitet von Frank Hutter, Noah Hollmann und Sauraj Gambhir und beraten von weltweit führenden KI-Forschern wie Bernhard Schölkopf und Turing-Preisträger Yann LeCun. Wir liefern schnell, schaffen erstklassige Forschung und halten uns gegenseitig an einen extrem hohen Standard.

Über die Rolle: Wir geben jährlich mehrere Millionen Euro für GPU-Compute aus, um tabellarische Foundation-Modelle zu trainieren. Das ist kein Ziel, sondern das, was wir heute betreiben, und es wächst. Die Person, die diese Infrastruktur besitzt, trifft Entscheidungen im Wert von Millionen von Euro: Clusterarchitektur, Planungseffizienz, Anbieterstrategie, Hardwareauswahl. Ein falscher Anruf kostet sechsstellige Beträge.

Heute betreiben wir Slurm auf GCP über mehrere Cluster. Wir skalieren auf eine Multi-Cluster-, Multi-Anbieter-Infrastruktur und bewerten neue Hardwaregenerationen, sobald sie verfügbar sind. Sie besitzen den gesamten Stack, von Clusterbetrieb und Kostenoptimierung bis hin zur Leistung des verteilten Trainings und der Tool-Schicht, die es den Forschern ermöglicht, schnell zu arbeiten. Sie arbeiten direkt mit dem Forschungsteam zusammen und verstehen, was sie gut machen, um Infrastrukturentscheidungen zu treffen, die ihnen tatsächlich helfen. Und das ist keine reine Unterstützungsrolle. Wir betreiben eine offene Umgebung. Wenn Sie die nächste SOTA-tabellarische Architektur in petto haben, legen Sie los und trainieren Sie sie.

Woran Sie arbeiten werden:

  • Besitzen und weiterentwickeln der Multi-Cluster-GPU-Infrastruktur. Slurm auf GCP heute, Multi-Anbieter und neue Hardware morgen. Architektur, Planung, Zuverlässigkeit, Kostenoptimierung.
  • GPU-Nutzung und Trainingseffizienz steigern: Profilierung, Speicheroptimierung, Kommunikationsengpässe, systemweites Debugging des verteilten Trainings über große Läufe.
  • Architektur der nächsten Generation unserer Infrastruktur: Multi-Cluster-Orchestrierung, neue GPU-Generationen, Anbieter-Diversifizierung, Kapazitätsplanung gegen wachsende Compute-Anforderungen.
  • Aufbau der Entwicklerproduktivitätsschicht: CI-Pipelines, Experimentverfolgung, Modellregistrierung, Datenverarbeitung und interne Tools, die die Geschwindigkeit der Forschungsiteration hoch halten.
  • Besitzen des Compute-Budgets. Sie verstehen die Kosten pro FLOP über Anbieter und Hardware und hassen verschwendete Rechenleistung.

Technologiestack: Slurm, GCP, Docker, wandb, GitHub Actions, uv, PyTorch, Triton.

Sie könnten gut passen, wenn Sie:

  • Über 5 Jahre Erfahrung im Aufbau und Betrieb von Produktions-GPU-Infrastrukturen oder verteilten Trainingssystemen in großem Maßstab haben. In einem großen KI-Labor, einem gut finanzierten ML-Startup oder einer HPC-Umgebung.
  • Tiefgehende praktische Erfahrung mit Slurm und Clusterverwaltung haben. Sie haben Planungsfehler debuggt, die Nutzung über Multi-Tenant-GPU-Workloads optimiert und Infrastruktur betrieben, bei der Ausfallzeiten echte Kosten verursachen.
  • Expertenniveau im Systemdenken: Speicherbandbreite, GPU-Profilierung. Sie denken über Hardware nach, nicht über Konfigurationen.
  • Starke Python-Kenntnisse und echte Vertrautheit mit den Interna von PyTorch. Genug, um einen Trainingslauf zu profilieren und zu sagen, ob der Engpass beim Laden von Daten, der Kommunikation oder der Berechnung liegt.
  • Eine Erfolgsbilanz bei der Treffen von Infrastrukturentscheidungen, die das Trainingstempo oder die Kosteneffizienz messbar verbessert haben.
  • Starke Fähigkeiten im Bereich KI-Tools. Sie verwenden Claude Code, Cursor oder ähnliche Werkzeuge fließend, um schnell zu arbeiten, ohne die Qualität zu opfern.

Bonus:

  • Erfahrung im Betrieb mit GPU-Ausgaben im Bereich von mehreren Millionen.
  • Multi-Cloud- oder hybride HPC/Cloud-Infrastruktur-Erfahrung.
  • Erfahrung mit Triton, CUDA oder benutzerdefinierten Kernen.
  • Erfahrung im Skalieren von Einzelclustern auf Multi-Cluster-Orchestrierung.
  • Hintergrund im Aufbau von Experimentverfolgung, Modellregistrierung oder ML-Pipeline-Tools.

Unsere Verpflichtungen: Wir glauben, dass die besten Produkte und Teams aus einer breiten Palette von Perspektiven, Erfahrungen und Hintergründen entstehen. Deshalb begrüßen wir Bewerbungen von Menschen aller Identitäten und Lebenswege, insbesondere von Personen, die sich jemals durch „nicht alle Kästchen abhaken“ entmutigt gefühlt haben. Wir verpflichten uns, eine sichere, integrative Umgebung zu schaffen und Chancengleichheit unabhängig von Geschlecht, sexueller Orientierung, Herkunft, Behinderungen oder anderen Eigenschaften, die Sie ausmachen, zu gewährleisten.

Senior ML Infrastructure Engineer Arbeitgeber: Prior Labs

Als führendes Unternehmen im Bereich der strukturierten Daten-Maschinenlernen bieten wir nicht nur die Möglichkeit, an bahnbrechenden Technologien zu arbeiten, sondern auch ein dynamisches und unterstützendes Arbeitsumfeld. Unsere Mitarbeiter profitieren von einer offenen Kultur, in der Innovation gefördert wird, sowie von umfangreichen Wachstums- und Entwicklungsmöglichkeiten innerhalb eines hochqualifizierten Teams. Mit einem klaren Fokus auf Diversität und Inklusion schaffen wir eine Atmosphäre, in der jeder seine einzigartigen Perspektiven einbringen kann.
P

Kontaktperson:

Prior Labs HR Team

StudySmarter Bewerbungstipps 🤫

So bekommst du den Job: Senior ML Infrastructure Engineer

Tipp Nummer 1

Netzwerken ist der Schlüssel! Nutze Plattformen wie LinkedIn, um mit Leuten aus der Branche in Kontakt zu treten. Lass uns wissen, wenn du Fragen hast oder Unterstützung brauchst!

Tipp Nummer 2

Bereite dich auf technische Interviews vor! Übe mit Coding-Challenges und Systemdesign-Fragen, die für die Rolle eines Senior ML Infrastructure Engineer relevant sind. Wir haben Ressourcen, die dir helfen können!

Tipp Nummer 3

Sei bereit, deine Erfahrungen und Erfolge zu teilen! Zeige, wie du Infrastrukturentscheidungen getroffen hast, die den Trainingsthroughput verbessert haben. Das wird Eindruck machen!

Tipp Nummer 4

Bewirb dich direkt über unsere Website! So kannst du sicherstellen, dass deine Bewerbung die richtigen Leute erreicht. Wir freuen uns darauf, von dir zu hören!

Diese Fähigkeiten machen dich zur top Bewerber*in für die Stelle: Senior ML Infrastructure Engineer

GPU-Infrastrukturmanagement
Slurm
GCP
Docker
PyTorch
Triton
Distributed Training
System-Level Debugging
Kostenoptimierung
Architektur von Multi-Cluster-Systemen
Experimentverfolgung
Modellregistrierung
Entwicklung von CI-Pipelines
Python
Hardware-Profiling

Tipps für deine Bewerbung 🫡

Sei du selbst!: Wenn du deine Bewerbung schreibst, sei authentisch und zeig uns, wer du wirklich bist. Wir suchen nach Menschen, die nicht nur die richtigen Fähigkeiten haben, sondern auch gut ins Team passen.

Mach es konkret!: Verwende konkrete Beispiele aus deiner bisherigen Erfahrung, um zu zeigen, wie du Herausforderungen gemeistert hast. Das hilft uns, deine Fähigkeiten besser einzuschätzen und zu verstehen, wie du in unser Team passt.

Zeig dein Interesse!: Erkläre, warum du gerade bei uns arbeiten möchtest und was dich an unserer Mission reizt. Wir lieben es, wenn Bewerber sich mit unserem Unternehmen identifizieren und unsere Vision teilen.

Bewirb dich über unsere Website!: Um sicherzustellen, dass deine Bewerbung direkt bei uns landet, bewirb dich bitte über unsere Website. So können wir deine Unterlagen schnell und unkompliziert bearbeiten.

Wie du dich auf ein Vorstellungsgespräch bei Prior Labs vorbereitest

Verstehe die Infrastruktur

Mach dich mit der aktuellen GPU-Infrastruktur und den verwendeten Technologien wie Slurm und GCP vertraut. Zeige im Interview, dass du nicht nur die Grundlagen verstehst, sondern auch, wie du diese Technologien optimieren kannst, um die Effizienz zu steigern.

Bereite konkrete Beispiele vor

Denke an spezifische Situationen aus deiner Vergangenheit, in denen du Infrastrukturentscheidungen getroffen hast, die die Leistung oder Kosteneffizienz verbessert haben. Diese Beispiele helfen dir, deine Fähigkeiten und Erfahrungen greifbar zu machen.

Zeige dein technisches Know-how

Sei bereit, technische Fragen zu beantworten, die sich auf GPU-Profiling, Speicherbandbreite und Systemebene Debugging beziehen. Du solltest in der Lage sein, über deine Erfahrungen mit Python und PyTorch zu sprechen und wie du Bottlenecks identifiziert und gelöst hast.

Frage nach der Teamdynamik

Stelle Fragen zur Teamkultur und wie die Zusammenarbeit zwischen Ingenieuren und Forschern aussieht. Das zeigt dein Interesse an einer offenen Umgebung und dass du bereit bist, aktiv zur Teamdynamik beizutragen.

Senior ML Infrastructure Engineer
Prior Labs
Standort: Berlin
Premium gehen

Schneller zum Traumjob mit Premium

Deine Bewerbung wird als „Top Bewerbung“ bei unseren Partnern gekennzeichnet
Individuelles Feedback zu Lebenslauf und Anschreiben, einschließlich der Anpassung an spezifische Stellenanforderungen
Gehöre zu den ersten Bewerbern für neue Stellen mit unserem AI Bewerbungsassistenten
1:1 Unterstützung und Karriereberatung durch unsere Career Coaches
Premium gehen

Geld-zurück-Garantie, wenn du innerhalb von 6 Monaten keinen Job findest

>