Auf einen Blick
- Aufgaben: Entwickle und optimiere GPU-Infrastruktur für bahnbrechende tabellarische KI-Modelle.
- Arbeitgeber: Führendes Unternehmen im Bereich strukturierte Daten-Maschinenlernen mit innovativer Kultur.
- Mitarbeitervorteile: Wettbewerbsfähiges Gehalt, Gesundheitsleistungen, flexible Arbeitszeiten und Weiterbildungsmöglichkeiten.
- Warum dieser Job: Sei Teil eines Teams, das die nächste Generation von KI-Infrastruktur gestaltet und echte Auswirkungen hat.
- Gewünschte Qualifikationen: Mindestens 5 Jahre Erfahrung in der GPU-Infrastruktur und tiefes Verständnis für Slurm und Cluster-Management.
- Andere Informationen: Dynamisches Umfeld mit hervorragenden Karrierechancen und einem inklusiven Team.
Das voraussichtliche Gehalt liegt zwischen 80000 - 110000 € pro Jahr.
Wer wir sind: Foundation-Modelle haben Text und Bilder transformiert, aber strukturierte Daten - die größte und bedeutendste Datenmodalität der Welt - sind unberührt geblieben. Tabellen steuern jede klinische Studie, jedes Finanzmodell, jedes wissenschaftliche Experiment und jede Geschäftsentscheidung. Niemand hat ein Foundation-Modell entwickelt, das sie wirklich versteht. Bis jetzt. Was LLMs für Sprache getan haben, tun wir für Tabellen.
Momentum: Wir haben tabellarische Foundation-Modelle pioniert und sind nun die weltweit führende Organisation im Bereich strukturiertes Daten-ML. Unser TabPFN v2-Modell wurde in Nature veröffentlicht und hat einen neuen Stand der Technik für tabulares maschinelles Lernen gesetzt. Seit seiner Veröffentlichung haben wir die Modellfähigkeiten um mehr als das 20-fache skaliert, über 3 Millionen Downloads erreicht, mehr als 6.000 GitHub-Sterne erhalten und sehen eine beschleunigte Akzeptanz in Forschung und Industrie - von der Erkennung von Lungenerkrankungen mit Oxford Cancer Analytics bis zur Verhinderung von Zugausfällen mit Hitachi und der Verbesserung von Entscheidungen in klinischen Studien mit BostonGene.
Die schwierigste Arbeit liegt vor uns. Wir skalieren tabellarische Foundation-Modelle, um Millionen von Zeilen, Tausende von Merkmalen, Echtzeitinferenz und völlig neue Datenmodalitäten zu bewältigen - während wir die Infrastruktur aufbauen, um sie in Produktion in einigen der anspruchsvollsten Branchen der Erde einzusetzen. Dies sind offene Probleme, an denen sonst niemand auf diesem Niveau arbeitet.
Unser Team: Wir sind ein kleines, hochselektives Team von über 20 Ingenieuren und Forschern, ausgewählt aus über 5.000 Bewerbungen, mit Hintergründen von Google, Apple, Amazon, Microsoft, G-Research, Jane Street, Goldman Sachs und CERN, geleitet von Frank Hutter, Noah Hollmann und Sauraj Gambhir und beraten von weltweit führenden KI-Forschern wie Bernhard Schölkopf und Turing-Preisträger Yann LeCun. Wir liefern schnell, schaffen erstklassige Forschung und halten uns gegenseitig an einen extrem hohen Standard.
Über die Rolle: Wir geben jährlich mehrere Millionen Euro für GPU-Compute aus, um tabellarische Foundation-Modelle zu trainieren. Das ist kein Ziel, sondern das, was wir heute betreiben, und es wächst. Die Person, die diese Infrastruktur besitzt, trifft Entscheidungen im Wert von Millionen von Euro: Clusterarchitektur, Planungseffizienz, Anbieterstrategie, Hardwareauswahl. Ein falscher Anruf kostet sechsstellige Beträge.
Heute betreiben wir Slurm auf GCP über mehrere Cluster. Wir skalieren auf eine Multi-Cluster-, Multi-Provider-Infrastruktur und bewerten neue Hardwaregenerationen, sobald sie verfügbar sind. Sie besitzen den gesamten Stack, von Clusteroperationen und Kostenoptimierung bis hin zur Leistung des verteilten Trainings und der Tool-Schicht, die es den Forschern ermöglicht, schnell zu arbeiten. Sie arbeiten direkt mit dem Forschungsteam zusammen und verstehen, was sie gut machen, um Infrastrukturentscheidungen zu treffen, die ihnen tatsächlich helfen. Und das ist keine reine Unterstützungsrolle. Wir betreiben eine offene Umgebung. Wenn Sie die nächste SOTA-tabellarische Architektur in petto haben, legen Sie los und trainieren Sie sie.
Woran Sie arbeiten werden:
- Besitzen und weiterentwickeln der Multi-Cluster-GPU-Infrastruktur. Slurm auf GCP heute, Multi-Provider und neue Hardware morgen. Architektur, Planung, Zuverlässigkeit, Kostenoptimierung.
- GPU-Nutzung und Trainingseffizienz steigern: Profilierung, Speicheroptimierung, Kommunikationsengpässe, systemweites Debugging des verteilten Trainings über große Läufe.
- Architektur der nächsten Generation unserer Infrastruktur: Multi-Cluster-Orchestrierung, neue GPU-Generationen, Anbieter-Diversifizierung, Kapazitätsplanung gegen wachsende Compute-Anforderungen.
- Aufbau der Entwicklerproduktivitätsschicht: CI-Pipelines, Experimentverfolgung, Modellregistrierung, Datenverarbeitung und interne Tools, die die Geschwindigkeit der Forschungsiteration hoch halten.
- Besitzen des Compute-Budgets. Sie verstehen die Kosten pro FLOP über Anbieter und Hardware und hassen verschwendete Rechenleistung.
Technologiestack: Slurm, GCP, Docker, wandb, GitHub Actions, uv, PyTorch, Triton.
Sie könnten gut passen, wenn Sie:
- Über 5 Jahre Erfahrung im Aufbau und Betrieb von Produktions-GPU-Infrastrukturen oder verteilten Trainingssystemen in großem Maßstab haben. In einem großen KI-Labor, einem gut finanzierten ML-Startup oder einer HPC-Umgebung.
- Tiefgehende praktische Erfahrung mit Slurm und Clusterverwaltung haben. Sie haben Planungsfehler debuggt, die Nutzung über Multi-Tenant-GPU-Workloads optimiert und Infrastruktur betrieben, bei der Ausfallzeiten echte Kosten verursachen.
- Expertenniveau im Systemdenken: Speicherbandbreite, GPU-Profilierung. Sie denken über Hardware nach, nicht über Konfigurationen.
- Starke Python-Kenntnisse und echte Vertrautheit mit den Interna von PyTorch. Genug, um einen Trainingslauf zu profilieren und zu sagen, ob der Engpass beim Laden von Daten, der Kommunikation oder der Berechnung liegt.
- Eine Erfolgsbilanz bei der Treffen von Infrastrukturentscheidungen, die das Trainingstempo oder die Kosteneffizienz messbar verbessert haben.
- Starke Fähigkeiten im Bereich KI-Tools. Sie verwenden Claude Code, Cursor oder ähnliche Werkzeuge fließend, um schnell zu arbeiten, ohne die Qualität zu opfern.
Bonus:
- Erfahrung im Betrieb von GPU-Ausgaben im zweistelligen Millionenbereich.
- Multi-Cloud- oder hybride HPC/Cloud-Infrastruktur-Erfahrung.
- Erfahrung mit Triton, CUDA oder benutzerdefinierten Kernen.
- Erfahrung im Skalieren von Einzelclustern auf Multi-Cluster-Orchestrierung.
- Hintergrund im Aufbau von Experimentverfolgung, Modellregistrierung oder ML-Pipeline-Tools.
Unsere Verpflichtungen: Wir glauben, dass die besten Produkte und Teams aus einer Vielzahl von Perspektiven, Erfahrungen und Hintergründen entstehen. Deshalb begrüßen wir Bewerbungen von Menschen aller Identitäten und Lebenswege, insbesondere von Personen, die sich jemals durch „nicht alle Kästchen abhaken“ entmutigt gefühlt haben. Wir verpflichten uns, eine sichere, integrative Umgebung zu schaffen und Chancengleichheit unabhängig von Geschlecht, sexueller Orientierung, Herkunft, Behinderungen oder anderen Eigenschaften, die Sie ausmachen, zu gewährleisten.
Senior ML Infrastructure Engineer Arbeitgeber: Prior Labs
Kontaktperson:
Prior Labs HR Team
StudySmarter Bewerbungstipps 🤫
So bekommst du den Job: Senior ML Infrastructure Engineer
✨Tipp Nummer 1
Netzwerken ist der Schlüssel! Nutze Plattformen wie LinkedIn, um mit Leuten aus der Branche in Kontakt zu treten. Lass uns wissen, wenn du Fragen hast oder Unterstützung brauchst!
✨Tipp Nummer 2
Bereite dich auf technische Interviews vor! Übe mit Coding-Challenges und Systemdesign-Fragen, die für die Rolle als Senior ML Infrastructure Engineer relevant sind. Wir haben Ressourcen, die dir helfen können!
✨Tipp Nummer 3
Sei bereit, deine Projekte und Erfahrungen zu präsentieren! Zeige, wie du Infrastrukturprobleme gelöst hast und welche Tools du verwendet hast. Das wird dir helfen, dich von anderen Bewerbern abzuheben.
✨Tipp Nummer 4
Bewirb dich direkt über unsere Website! So kannst du sicherstellen, dass deine Bewerbung die richtige Person erreicht. Und hey, wir freuen uns immer über neue Talente, die unser Team verstärken!
Diese Fähigkeiten machen dich zur top Bewerber*in für die Stelle: Senior ML Infrastructure Engineer
Tipps für deine Bewerbung 🫡
Sei authentisch!: Wenn du deine Bewerbung schreibst, sei einfach du selbst. Zeig uns, wer du bist und was dich motiviert. Wir suchen nach echten Persönlichkeiten, die zu unserem Team passen.
Mach es konkret!: Verwende konkrete Beispiele aus deiner bisherigen Erfahrung, um deine Fähigkeiten zu untermauern. Erzähl uns von Projekten, an denen du gearbeitet hast, und wie du Herausforderungen gemeistert hast. Das macht deine Bewerbung lebendig!
Pass auf die Details auf!: Achte darauf, dass deine Bewerbung gut strukturiert und fehlerfrei ist. Ein klarer und professioneller Auftritt zeigt uns, dass du dir Mühe gibst und die Position ernst nimmst.
Bewirb dich über unsere Website!: Wir empfehlen dir, deine Bewerbung direkt über unsere Website einzureichen. So stellst du sicher, dass sie schnell bei uns ankommt und wir sie zügig bearbeiten können. Wir freuen uns auf deine Unterlagen!
Wie du dich auf ein Vorstellungsgespräch bei Prior Labs vorbereitest
✨Verstehe die Infrastruktur
Mach dich mit der aktuellen GPU-Infrastruktur und den verwendeten Technologien wie Slurm und GCP vertraut. Zeige im Interview, dass du nicht nur die Grundlagen verstehst, sondern auch, wie du diese Technologien optimieren kannst, um die Effizienz zu steigern.
✨Bereite konkrete Beispiele vor
Denke an spezifische Situationen aus deiner Vergangenheit, in denen du Infrastrukturentscheidungen getroffen hast, die die Leistung oder Kosteneffizienz verbessert haben. Diese Beispiele helfen dir, deine Erfahrungen greifbar zu machen und zeigen, dass du die Anforderungen der Rolle verstehst.
✨Zeige dein technisches Know-how
Sei bereit, technische Fragen zu beantworten, insbesondere zu Themen wie GPU-Profiling, Speicherbandbreite und verteiltem Training. Du solltest in der Lage sein, über deine Erfahrungen mit Python und PyTorch zu sprechen und wie du Bottlenecks identifiziert und behoben hast.
✨Frage nach der Teamdynamik
Stelle Fragen zur Teamkultur und wie die Zusammenarbeit zwischen Ingenieuren und Forschern aussieht. Das zeigt dein Interesse an einer offenen Umgebung und dass du bereit bist, aktiv zur Teamdynamik beizutragen.