Member of Technical Staff - Infrastructure Engineer
Member of Technical Staff - Infrastructure Engineer

Member of Technical Staff - Infrastructure Engineer

Freiburg im Breisgau Vollzeit 43200 - 72000 € / Jahr (geschätzt) Kein Home Office möglich
Go Premium
B

Auf einen Blick

  • Aufgaben: Entwickle und pflege große ML-Trainingscluster für innovative KI-Modelle.
  • Arbeitgeber: Black Forest Labs, ein bahnbrechendes Startup im Bereich generative Modelle.
  • Mitarbeitervorteile: Wettbewerbsfähiges Gehalt, flexible Arbeitszeiten und Möglichkeiten zur beruflichen Weiterentwicklung.
  • Warum dieser Job: Arbeite an der Spitze der Technologie und forme die Zukunft der KI.
  • Gewünschte Qualifikationen: Erfahrung mit SLURM-Clustern und GPU-Management erforderlich.
  • Andere Informationen: Dynamisches Umfeld mit großartigen Wachstumschancen.

Das voraussichtliche Gehalt liegt zwischen 43200 - 72000 € pro Jahr.

Black Forest Labs ist ein innovatives Startup, das generative Bild- und Videomodelle entwickelt. Unser Team, das Stable Diffusion, Stable Video Diffusion und FLUX.1 erfunden hat, sucht derzeit einen starken Kandidaten, der uns bei der Entwicklung und Wartung unserer großen GPU-Trainingscluster unterstützt.

Rolle & Verantwortlichkeiten

  • Entwurf, Bereitstellung und Wartung von großangelegten ML-Trainingsclustern, die SLURM für die verteilte Arbeitslastorchestrierung verwenden.
  • Implementierung umfassender Knoten-Gesundheitsüberwachungssysteme mit automatisierten Fehlererkennungs- und Wiederherstellungsabläufen.
  • Partnerschaft mit Cloud- und Co-Location-Anbietern zur Gewährleistung der Verfügbarkeit und Leistung der Cluster.
  • Festlegung und Durchsetzung von Sicherheitsbest Practices über den gesamten ML-Infrastruktur-Stack (Netzwerk, Speicher, Rechenleistung).
  • Entwicklung und Wartung von entwicklerorientierten Tools und APIs, die ML-Workflows optimieren und die Produktivität der Forscher verbessern.
  • Direkte Zusammenarbeit mit ML-Forschungsteams, um rechnerische Anforderungen in Infrastrukturfähigkeiten und Kapazitätsplanung zu übersetzen.

Erforderliche Erfahrungen

  • Produktionserfahrung in der Verwaltung von SLURM-Clustern im großen Maßstab, einschließlich Job-Scheduling-Richtlinien, Ressourcenallokation und Föderation.
  • Praktische Erfahrung mit Docker, Enroot/Pyxis oder ähnlichen Container-Laufzeiten in HPC-Umgebungen.
  • Nachweisliche Erfolge in der Verwaltung von GPU-Clustern, einschließlich Treiberverwaltung und DCGM-Überwachung.

Bevorzugte Qualifikationen

  • Verständnis von verteilten Trainingsmustern, Checkpointing-Strategien und Optimierung von Datenpipelines.
  • Erfahrung mit Kubernetes für containerisierte Workloads, insbesondere für Inferenz- oder gemischte Rechenumgebungen.
  • Erfahrung mit Hochleistungsinterconnects (InfiniBand, RoCE) und NCCL-Optimierung für das Training mit mehreren Knoten.
  • Erfolgreiche Verwaltung von über 1000 GPU-Trainingsläufen mit tiefem Verständnis von Fehlermodi und Wiederherstellungsmustern.
  • Vertrautheit mit Hochleistungs-Speicherlösungen (VAST, Blob-Speicher) und deren Leistungsmerkmalen für ML-Workloads.
  • Erfahrung in der Ausführung hybrider Trainings-/Inferenzinfrastrukturen mit angemessener Ressourcenisolierung.
  • Starke Skriptfähigkeiten (Python, Bash) und Erfahrung mit Infrastructure-as-Code.

Member of Technical Staff - Infrastructure Engineer Arbeitgeber: Black Forest Labs Inc.

Black Forest Labs ist ein innovatives Start-up, das an der Spitze der generativen Bild- und Videomodelle steht. Wir bieten eine dynamische Arbeitsumgebung, in der Kreativität und technisches Know-how geschätzt werden, und fördern aktiv das Wachstum unserer Mitarbeiter durch spannende Projekte und enge Zusammenarbeit mit Forschungsteams. Unsere modernen Büros in einer inspirierenden Lage bieten nicht nur Zugang zu den neuesten Technologien, sondern auch ein unterstützendes Team, das sich für den Erfolg jedes Einzelnen einsetzt.
B

Kontaktperson:

Black Forest Labs Inc. HR Team

StudySmarter Bewerbungstipps 🤫

So bekommst du den Job: Member of Technical Staff - Infrastructure Engineer

Tipp Nummer 1

Netzwerken ist der Schlüssel! Nutze Plattformen wie LinkedIn, um mit Leuten aus der Branche in Kontakt zu treten. Lass uns wissen, wenn du Fragen hast oder Unterstützung brauchst!

Tipp Nummer 2

Bereite dich auf technische Interviews vor, indem du deine Kenntnisse über SLURM und GPU-Cluster auffrischst. Mach ein paar Mock-Interviews mit Freunden oder nutze Online-Ressourcen, um dein Wissen zu testen.

Tipp Nummer 3

Zeige deine Leidenschaft für ML und Infrastruktur! Teile Projekte oder Erfahrungen, die du gemacht hast, um zu zeigen, dass du wirklich für die Rolle brennst. Das kann einen großen Unterschied machen!

Tipp Nummer 4

Bewirb dich direkt über unsere Website! So kannst du sicherstellen, dass deine Bewerbung die richtigen Leute erreicht. Und hey, wir freuen uns immer über neue Talente, die unser Team verstärken!

Diese Fähigkeiten machen dich zur top Bewerber*in für die Stelle: Member of Technical Staff - Infrastructure Engineer

SLURM
Docker
Enroot/Pyxis
GPU Cluster Management
Driver Management
DCGM Monitoring
Distributed Training Patterns
Checkpointing Strategies
Data Pipeline Optimization
Kubernetes
High-Performance Interconnects
NCCL Optimization
High-Performance Storage Solutions
Scripting Skills (Python, Bash)
Infrastructure-as-Code

Tipps für deine Bewerbung 🫡

Sei du selbst!: Wenn du dich bei uns bewirbst, zeig uns, wer du wirklich bist! Lass deine Persönlichkeit durchscheinen und erzähl uns von deinen Erfahrungen und Leidenschaften im Bereich Infrastruktur und ML. Wir suchen nach echten Menschen, nicht nur nach Lebensläufen.

Pass auf die Details auf!: Achte darauf, dass deine Bewerbung gut strukturiert und fehlerfrei ist. Wir lieben es, wenn alles klar und übersichtlich ist. Ein paar kleine Tippfehler können einen großen Unterschied machen, also nimm dir die Zeit, alles sorgfältig zu überprüfen.

Zeig deine technischen Skills!: In deiner Bewerbung solltest du unbedingt deine Erfahrungen mit SLURM, Docker und GPU-Clustern hervorheben. Erzähl uns von konkreten Projekten, an denen du gearbeitet hast, und wie du Herausforderungen gemeistert hast. Das gibt uns einen tollen Einblick in dein Können!

Bewirb dich über unsere Website!: Wir empfehlen dir, deine Bewerbung direkt über unsere Website einzureichen. So stellst du sicher, dass sie schnell und effizient bei uns ankommt. Außerdem kannst du dort auch mehr über unser Team und unsere Projekte erfahren!

Wie du dich auf ein Vorstellungsgespräch bei Black Forest Labs Inc. vorbereitest

Verstehe die technischen Anforderungen

Mach dich mit den spezifischen Technologien und Tools vertraut, die in der Stellenbeschreibung erwähnt werden, wie SLURM, Docker und GPU-Cluster. Zeige im Interview, dass du praktische Erfahrungen hast und bereit bist, diese Kenntnisse einzubringen.

Bereite Beispiele vor

Denke an konkrete Beispiele aus deiner bisherigen Arbeit, die deine Fähigkeiten im Umgang mit großen ML-Trainingsclustern und der Implementierung von Überwachungssystemen zeigen. Diese Geschichten helfen dir, deine Erfahrungen greifbar zu machen und deine Problemlösungsfähigkeiten zu demonstrieren.

Fragen stellen

Bereite einige Fragen vor, die du dem Interviewer stellen kannst. Das zeigt dein Interesse an der Rolle und dem Unternehmen. Frage nach den aktuellen Herausforderungen, die das Team hat, oder wie sie die Zusammenarbeit zwischen Forschung und Infrastruktur gestalten.

Sicherheit und Best Practices

Informiere dich über Sicherheitspraktiken in der ML-Infrastruktur und sei bereit, darüber zu sprechen, wie du diese in deinen bisherigen Projekten umgesetzt hast. Sicherheit ist ein wichtiger Aspekt, und dein Wissen darüber kann dich von anderen Kandidaten abheben.

Member of Technical Staff - Infrastructure Engineer
Black Forest Labs Inc.
Standort: Freiburg im Breisgau
Premium gehen

Schneller zum Traumjob mit Premium

Deine Bewerbung wird als „Top Bewerbung“ bei unseren Partnern gekennzeichnet
Individuelles Feedback zu Lebenslauf und Anschreiben, einschließlich der Anpassung an spezifische Stellenanforderungen
Gehöre zu den ersten Bewerbern für neue Stellen mit unserem AI Bewerbungsassistenten
1:1 Unterstützung und Karriereberatung durch unsere Career Coaches
Premium gehen

Geld-zurück-Garantie, wenn du innerhalb von 6 Monaten keinen Job findest

>