Auf einen Blick
- Aufgaben: Bau und Betrieb von Trainingsinfrastruktur für humanoide Roboter.
- Unternehmen: Flexion, ein innovatives Unternehmen im Bereich Robotik und KI.
- Vorteile: Wettbewerbsfähiges Gehalt und ein dynamisches Team.
- Weitere Informationen: Erlebe ein energisches Team mit einer Handlungsorientierung.
- Warum dieser Job: Sei Teil der nächsten Generation von humanoiden Robotern und mache einen echten Unterschied.
- Qualifikationen: 3+ Jahre Erfahrung in der Infrastruktur für Deep Learning Systeme.
Das prognostizierte Gehalt liegt zwischen 60000 - 80000 € pro Jahr.
Über Flexion
Bei Flexion entwickeln wir die Intelligenzschicht, die die nächste Generation humanoider Roboter antreibt. Unsere Mission ist es, den Übergang von fragilen Prototypen zur realen Bereitstellung humanoider Roboter zu beschleunigen. Wir wurden von führenden Wissenschaftlern im Bereich Robotik und Verstärkungslernen (ehemals Nvidia, ehemals ETH Zürich) gegründet und von führenden internationalen VC-Firmen unterstützt. In nur wenigen Monaten sind wir von unserem ersten Code zu realen humanoiden Fähigkeiten übergegangen.
Die Rolle
Als ML Infrastructure Engineer bei Flexion werden Sie uns helfen, unsere Kern-Compute- und Datenplattformen auszubauen. Wir bauen das Gehirn für humanoide Roboter, was das Training großangelegter Grundmodelle mit riesigen Datenmengen umfasst. Sie entwerfen Trainingscluster, architektonisieren die Pipelines, die Daten von Simulatoren und Robotern in das Modelltraining übertragen, und erstellen die Werkzeuge, die unseren KI-Ingenieuren ermöglichen, schnell zu trainieren, zu bewerten und zu iterieren.
Sie werden Teil des erfahrenen Infrastrukturteams von Flexion (ehemals Google, Meta, Amazon) und übernehmen eine bedeutende Verantwortung für die Systeme hinter unserer Datensammlung, dem Training und den Experimentierabläufen: von strategischen Infrastrukturentscheidungen, Cluster-Orchestrierung und Optimierung des verteilten Trainings bis hin zu Datenplattformen, CI und Experimentierwerkzeugen. Dies ist eine Senior-Position vor Ort in unserem Büro in Zürich.
Hauptverantwortlichkeiten
- Aufbau und Betrieb der Trainingsinfrastruktur: Entwurf, Bereitstellung und Wartung von GPU-Compute-Clustern für das großangelegte Modelltraining über mehrere Cloud-Anbieter hinweg, einschließlich Job-Scheduling (Slurm, Kubernetes).
- Architektur von Datenplattformen und -pipelines: Aufbau der Speicher-, Verarbeitungs- und Bereitstellungsschichten, die den gesamten Datenlebenszyklus abdecken: von Simulatorausgaben und Robotertelemetrie bis hin zu Trainingsdatensätzen. Dazu gehört der Aufbau von Infrastrukturen mit Objektspeicher (S3), parallelen Dateisystemen (Lustre) und gängigen Datenformaten (Parquet, WebDataset, LeRobot). Verwendung verteilter Verarbeitungsframeworks (Ray, Spark) zur Transformation und Validierung von Daten im großen Maßstab.
- Optimierung des verteilten Trainings: Zusammenarbeit mit unseren KI-Ingenieuren zur Skalierung von Arbeitslasten über Multi-Node-GPU-Cluster, Profilierung und Verbesserung des Durchsatzes, der Geräteauslastung und der Kommunikationseffizienz. Dazu gehört die Optimierung unseres verteilten IsaacLab-basierten Sim-to-Real-Trainings.
- Bewertung und Annahme neuer Plattformen: Vergleich von Cloud-Anbietern, GPU-aaS-Plattformen und aufkommenden Werkzeugen, wobei Sie die Entscheidungen darüber treffen, was wir annehmen, während wir unseren Compute-Fußabdruck erweitern.
Qualifikationen
- 3+ Jahre Berufserfahrung im Aufbau und Betrieb von Infrastrukturen für großangelegte Deep-Learning-Systeme.
- Praktische Erfahrung im Training oder in der Unterstützung des Trainings großer Modelle (Milliarden von Parametern) in verteilten Multi-Node-GPU-Setups sowie ein tiefes Verständnis der zugrunde liegenden Konzepte (DDP, FSDP, NCCL).
- Starke Erfahrung mit mindestens einer großen Cloud-Plattform (AWS oder GCP), einschließlich Compute-Bereitstellung und Netzwerk.
- Erfahrung mit Job-Scheduling- und Orchestrierungstools: Slurm, Kubernetes oder beides.
- Erfahrung im Aufbau von Datenpipelines und im Management von großangelegtem Speicher – einschließlich Objektspeichern (S3 oder gleichwertig) und Vertrautheit mit Hochleistungs- oder parallelen Dateisystemen (z.B. Lustre).
- Kenntnisse in Python und praktische Kenntnisse in PyTorch.
- Eigenverantwortliche Denkweise: Komfortabel bei der Entscheidungsfindung über Architektur, Setzen von Richtungen und eigenständiger Lieferung in einem sich schnell bewegenden Umfeld.
Schön zu haben
- Erfahrung mit verteilten Datenverarbeitungsframeworks (Ray, Spark).
- Vertrautheit mit gängigen Datenformaten (Parquet, WebDataset, LeRobot).
- Erfahrung mit zusätzlichen GPU-Cloud-Anbietern (Lambda Labs, CoreWeave, RunPod, Nebius oder ähnliches).
- Erfahrung im Management von On-Premise-Compute-Infrastrukturen.
- Vertrautheit mit Robotersimulationsumgebungen (IsaacLab, IsaacGym, MuJoCo).
- Erfahrung mit Infrastructure-as-Code und Konfigurationsmanagement (Terraform, Ansible).
- Vertrautheit mit Experiment-Tracking-Plattformen (Weights & Biases, MLflow).
- Erfahrung mit GPU-Programmierung und -Profilierung (CUDA, Nsight).
Vorteile
- Wettbewerbsfähiges Vergütungspaket
- Ein Platz in der ersten Reihe eines der ehrgeizigsten Robotikunternehmen Europas
- Ein energiegeladenes, kollaboratives Team mit einer Neigung zum Handeln
ML Infra Engineer Arbeitgeber: Flexion
Flexion ist ein herausragender Arbeitgeber, der Ihnen die Möglichkeit bietet, an der Spitze der Robotiktechnologie zu arbeiten. In einem dynamischen und kollaborativen Umfeld in Zürich profitieren Sie von einem wettbewerbsfähigen Vergütungspaket und haben die Chance, Ihre Fähigkeiten in einem Team von Experten weiterzuentwickeln. Hier können Sie bedeutende Beiträge leisten und Teil einer aufregenden Reise zur Entwicklung humanoider Roboter sein.
StudySmarter Expertenrat🤫
Wir sind der Meinung, dass Sie so ML Infra Engineer erhalten könnten
✨Tipp Nummer 1
Netzwerken ist der Schlüssel! Nutze Plattformen wie LinkedIn, um mit Leuten aus der Branche in Kontakt zu treten. Frag nach Insights über die Firma und zeig dein Interesse an der Position.
✨Tipp Nummer 2
Bereite dich auf technische Interviews vor! Übe Coding-Challenges und vertiefe dein Wissen über ML-Infrastruktur. Zeig, dass du nicht nur die Theorie kennst, sondern auch praktisch anwenden kannst.
✨Tipp Nummer 3
Sei proaktiv! Wenn du eine interessante Stelle siehst, bewirb dich direkt über unsere Website. Warte nicht darauf, dass die Firma dich kontaktiert – zeig Initiative!
✨Tipp Nummer 4
Mach dir Gedanken über deine Fragen im Interview! Zeig, dass du wirklich an der Rolle interessiert bist, indem du klärende Fragen zur Unternehmenskultur und den Projekten stellst, an denen du arbeiten würdest.
Wir glauben, dass du diese Fähigkeiten brauchst, um ML Infra Engineer mit Bravour zu bestehen
Einige Tipps für deine Bewerbung 🫡
Sei du selbst!:Wenn du deine Bewerbung schreibst, sei authentisch und zeig uns, wer du wirklich bist. Wir suchen nach Menschen, die Leidenschaft für ihre Arbeit haben und bereit sind, sich in unser Team einzubringen.
Mach es konkret!:Verwende konkrete Beispiele aus deiner bisherigen Erfahrung, um zu zeigen, wie du die Anforderungen der Stelle erfüllst. Erzähl uns von Projekten, an denen du gearbeitet hast, und den Technologien, die du verwendet hast.
Achte auf die Details!:Stell sicher, dass deine Bewerbung gut strukturiert und fehlerfrei ist. Ein klarer und professioneller Auftritt macht einen großen Unterschied und zeigt, dass du dir Mühe gibst.
Bewirb dich über unsere Website!:Wir empfehlen dir, deine Bewerbung direkt über unsere Website einzureichen. So stellst du sicher, dass sie schnell und effizient bei uns ankommt. Wir freuen uns darauf, von dir zu hören!
Wie man sich auf ein Vorstellungsgespräch bei Flexion vorbereitet
✨Verstehe die Technologie
Mach dich mit den Technologien und Tools vertraut, die Flexion verwendet. Informiere dich über GPU-Cluster, Job-Scheduling-Tools wie Slurm und Kubernetes sowie über Datenverarbeitungssysteme wie Ray oder Spark. Zeige im Interview, dass du nicht nur die Theorie verstehst, sondern auch praktische Erfahrungen hast.
✨Bereite konkrete Beispiele vor
Denke an spezifische Projekte oder Herausforderungen, die du in der Vergangenheit gemeistert hast. Sei bereit, darüber zu sprechen, wie du große Modelle trainiert oder Infrastruktur für Deep Learning-Systeme aufgebaut hast. Konkrete Beispiele helfen, deine Fähigkeiten zu untermauern und zeigen, dass du die Anforderungen der Rolle verstehst.
✨Zeige dein Ownership-Mindset
Flexion sucht nach jemandem, der Verantwortung übernehmen kann. Bereite dich darauf vor, zu erklären, wie du in der Vergangenheit Entscheidungen getroffen hast, die den Erfolg eines Projekts beeinflusst haben. Betone deine Fähigkeit, in einem dynamischen Umfeld selbstständig zu arbeiten und strategische Entscheidungen zu treffen.
✨Fragen stellen
Bereite einige durchdachte Fragen vor, die dein Interesse an der Rolle und dem Unternehmen zeigen. Frage nach den aktuellen Herausforderungen, mit denen das Team konfrontiert ist, oder nach den Technologien, die sie in Zukunft einsetzen möchten. Das zeigt, dass du proaktiv bist und wirklich an der Position interessiert bist.