Auf einen Blick
- Aufgaben: Entwickle und pflege große ML-Trainingscluster für innovative KI-Modelle.
- Arbeitgeber: Black Forest Labs, ein bahnbrechendes Startup im Bereich generative Modelle.
- Mitarbeitervorteile: Wettbewerbsfähiges Gehalt, flexible Arbeitszeiten und Möglichkeiten zur beruflichen Weiterentwicklung.
- Warum dieser Job: Arbeite an der Spitze der Technologie und forme die Zukunft der KI.
- Gewünschte Qualifikationen: Erfahrung mit SLURM-Clustern und GPU-Management erforderlich.
- Andere Informationen: Dynamisches Umfeld mit großartigen Wachstumschancen.
Das voraussichtliche Gehalt liegt zwischen 43200 - 72000 € pro Jahr.
Black Forest Labs ist ein innovatives Startup, das generative Bild- und Videomodelle entwickelt. Unser Team, das Stable Diffusion, Stable Video Diffusion und FLUX.1 erfunden hat, sucht derzeit einen starken Kandidaten, der uns bei der Entwicklung und Wartung unserer großen GPU-Trainingscluster unterstützt.
Rolle & Verantwortlichkeiten
- Entwurf, Bereitstellung und Wartung von großangelegten ML-Trainingsclustern, die SLURM für die verteilte Arbeitslastorchestrierung verwenden.
- Implementierung umfassender Knoten-Gesundheitsüberwachungssysteme mit automatisierten Fehlererkennungs- und Wiederherstellungsabläufen.
- Partnerschaft mit Cloud- und Co-Location-Anbietern zur Gewährleistung der Verfügbarkeit und Leistung der Cluster.
- Festlegung und Durchsetzung von Sicherheitsbest Practices über den gesamten ML-Infrastruktur-Stack (Netzwerk, Speicher, Rechenleistung).
- Entwicklung und Wartung von entwicklerorientierten Tools und APIs, die ML-Workflows optimieren und die Produktivität der Forscher verbessern.
- Direkte Zusammenarbeit mit ML-Forschungsteams, um rechnerische Anforderungen in Infrastrukturfähigkeiten und Kapazitätsplanung zu übersetzen.
Erforderliche Erfahrungen
- Produktionserfahrung in der Verwaltung von SLURM-Clustern im großen Maßstab, einschließlich Job-Scheduling-Richtlinien, Ressourcenallokation und Föderation.
- Praktische Erfahrung mit Docker, Enroot/Pyxis oder ähnlichen Container-Laufzeiten in HPC-Umgebungen.
- Nachweisliche Erfolge in der Verwaltung von GPU-Clustern, einschließlich Treiberverwaltung und DCGM-Überwachung.
Bevorzugte Qualifikationen
- Verständnis von verteilten Trainingsmustern, Checkpointing-Strategien und Optimierung von Datenpipelines.
- Erfahrung mit Kubernetes für containerisierte Workloads, insbesondere für Inferenz- oder gemischte Rechenumgebungen.
- Erfahrung mit Hochleistungsinterconnects (InfiniBand, RoCE) und NCCL-Optimierung für das Training mit mehreren Knoten.
- Erfolgreiche Verwaltung von über 1000 GPU-Trainingsläufen mit tiefem Verständnis von Fehlermodi und Wiederherstellungsmustern.
- Vertrautheit mit Hochleistungs-Speicherlösungen (VAST, Blob-Speicher) und deren Leistungsmerkmalen für ML-Workloads.
- Erfahrung in der Ausführung hybrider Trainings-/Inferenzinfrastrukturen mit angemessener Ressourcenisolierung.
- Starke Skriptfähigkeiten (Python, Bash) und Erfahrung mit Infrastructure-as-Code.
Member of Technical Staff - Infrastructure Engineer Arbeitgeber: Black Forest Labs Inc.
Kontaktperson:
Black Forest Labs Inc. HR Team
StudySmarter Bewerbungstipps 🤫
So bekommst du den Job: Member of Technical Staff - Infrastructure Engineer
✨Tipp Nummer 1
Netzwerken ist der Schlüssel! Nutze Plattformen wie LinkedIn, um mit Leuten aus der Branche in Kontakt zu treten. Lass uns wissen, wenn du Fragen hast oder Unterstützung brauchst!
✨Tipp Nummer 2
Bereite dich auf technische Interviews vor, indem du deine Kenntnisse über SLURM und GPU-Cluster auffrischst. Mach ein paar Mock-Interviews mit Freunden oder nutze Online-Ressourcen, um dein Wissen zu testen.
✨Tipp Nummer 3
Zeige deine Leidenschaft für ML und Infrastruktur! Teile Projekte oder Erfahrungen, die du gemacht hast, um zu zeigen, dass du wirklich für die Rolle brennst. Das kann einen großen Unterschied machen!
✨Tipp Nummer 4
Bewirb dich direkt über unsere Website! So kannst du sicherstellen, dass deine Bewerbung die richtigen Leute erreicht. Und hey, wir freuen uns immer über neue Talente, die unser Team verstärken!
Diese Fähigkeiten machen dich zur top Bewerber*in für die Stelle: Member of Technical Staff - Infrastructure Engineer
Tipps für deine Bewerbung 🫡
Sei du selbst!: Wenn du dich bei uns bewirbst, zeig uns, wer du wirklich bist! Lass deine Persönlichkeit durchscheinen und erzähl uns von deinen Erfahrungen und Leidenschaften im Bereich Infrastruktur und ML. Wir suchen nach echten Menschen, nicht nur nach Lebensläufen.
Pass auf die Details auf!: Achte darauf, dass deine Bewerbung gut strukturiert und fehlerfrei ist. Wir lieben es, wenn alles klar und übersichtlich ist. Ein paar kleine Tippfehler können einen großen Unterschied machen, also nimm dir die Zeit, alles sorgfältig zu überprüfen.
Zeig deine technischen Skills!: In deiner Bewerbung solltest du unbedingt deine Erfahrungen mit SLURM, Docker und GPU-Clustern hervorheben. Erzähl uns von konkreten Projekten, an denen du gearbeitet hast, und wie du Herausforderungen gemeistert hast. Das gibt uns einen tollen Einblick in dein Können!
Bewirb dich über unsere Website!: Wir empfehlen dir, deine Bewerbung direkt über unsere Website einzureichen. So stellst du sicher, dass sie schnell und effizient bei uns ankommt. Außerdem kannst du dort auch mehr über unser Team und unsere Projekte erfahren!
Wie du dich auf ein Vorstellungsgespräch bei Black Forest Labs Inc. vorbereitest
✨Verstehe die technischen Anforderungen
Mach dich mit den spezifischen Technologien und Tools vertraut, die in der Stellenbeschreibung erwähnt werden, wie SLURM, Docker und GPU-Cluster. Zeige im Interview, dass du praktische Erfahrungen hast und bereit bist, diese Kenntnisse einzubringen.
✨Bereite Beispiele vor
Denke an konkrete Beispiele aus deiner bisherigen Arbeit, die deine Fähigkeiten im Umgang mit großen ML-Trainingsclustern und der Implementierung von Überwachungssystemen zeigen. Diese Geschichten helfen dir, deine Erfahrungen greifbar zu machen und deine Problemlösungsfähigkeiten zu demonstrieren.
✨Fragen stellen
Bereite einige Fragen vor, die du dem Interviewer stellen kannst. Das zeigt dein Interesse an der Rolle und dem Unternehmen. Frage nach den aktuellen Herausforderungen, die das Team hat, oder wie sie die Zusammenarbeit zwischen Forschung und Infrastruktur gestalten.
✨Sicherheit und Best Practices
Informiere dich über Sicherheitspraktiken in der ML-Infrastruktur und sei bereit, darüber zu sprechen, wie du diese in deinen bisherigen Projekten umgesetzt hast. Sicherheit ist ein wichtiger Aspekt, und dein Wissen darüber kann dich von anderen Kandidaten abheben.