Auf einen Blick
- Aufgaben: Bau die Infrastruktur für humanoide Roboter und optimiere große Datenmodelle.
- Unternehmen: Flexion, ein innovatives Unternehmen im Bereich Robotik mit führenden Wissenschaftlern.
- Vorteile: Wettbewerbsfähiges Gehalt, spannende Projekte und ein dynamisches Team.
- Weitere Informationen: Wachstumsorientierte Umgebung mit vielen Entwicklungsmöglichkeiten.
- Warum dieser Job: Sei Teil der Zukunft der Robotik und arbeite an bahnbrechenden Technologien.
- Qualifikationen: Erfahrung in der Infrastruktur für Deep Learning und Cloud-Plattformen erforderlich.
Das prognostizierte Gehalt liegt zwischen 55000 - 75000 € pro Jahr.
Bei Flexion bauen wir die Intelligenzschicht, die die nächste Generation humanoider Roboter antreibt. Unsere Mission ist es, den Übergang von fragilen Prototypen zur realen Bereitstellung humanoider Roboter zu beschleunigen. Wir sind von führenden Wissenschaftlern im Bereich Robotik und Verstärkungslernen gegründet worden und werden von führenden internationalen VC-Firmen unterstützt.
Als ML Infrastructure Engineer bei Flexion werden Sie uns helfen, unsere Kern-Compute- und Datenplattformen auszubauen. Wir entwickeln das Gehirn für humanoide Roboter, was das Training großangelegter grundlegender Modelle mit riesigen Datenmengen umfasst. Sie entwerfen Trainingscluster, architektonisieren die Pipelines, die Daten von Simulatoren und Robotern in das Modelltraining übertragen, und erstellen die Werkzeuge, die unseren KI-Ingenieuren ermöglichen, schnell zu trainieren, zu bewerten und zu iterieren.
Sie werden Teil des erfahrenen Infrastrukturteams von Flexion (ehemals Google, Meta, Amazon) und übernehmen eine bedeutende Verantwortung für die Systeme hinter unserer Datensammlung, dem Training und den Experimentierabläufen: von strategischen Infrastrukturentscheidungen über Cluster-Orchestrierung und Optimierung des verteilten Trainings bis hin zu Datenplattformen, CI und Experimentierwerkzeugen. Dies ist eine Senior-Position vor Ort in unserem Büro in Zürich.
Hauptverantwortlichkeiten
- Aufbau und Betrieb der Trainingsinfrastruktur: Entwurf, Bereitstellung und Wartung von GPU-Compute-Clustern für das großangelegte Modelltraining über mehrere Cloud-Anbieter hinweg, einschließlich Job-Scheduling (Slurm, Kubernetes).
- Architektur von Datenplattformen und -pipelines: Aufbau der Speicher-, Verarbeitungs- und Bereitstellungsschichten, die den gesamten Datenlebenszyklus abdecken: von Simulatorausgaben und Robotertelmetrie bis hin zu Trainingsdatensätzen. Dazu gehört der Aufbau von Infrastrukturen mit Objektspeichern (S3), parallelen Dateisystemen (Lustre) und gängigen Datenformaten (Parquet, WebDataset, LeRobot). Verwendung verteilter Verarbeitungsframeworks (Ray, Spark) zur Transformation und Validierung von Daten im großen Maßstab.
- Optimierung des verteilten Trainings: Zusammenarbeit mit unseren KI-Ingenieuren zur Skalierung von Arbeitslasten über Multi-Node-GPU-Cluster, Profilierung und Verbesserung des Durchsatzes, der Geräteauslastung und der Kommunikationseffizienz. Dazu gehört die Optimierung unseres verteilten IsaacLab-basierten Sim-to-Real-Trainings.
- Bewertung und Annahme neuer Plattformen: Vergleich von Cloud-Anbietern, GPU-aaS-Plattformen und aufkommenden Werkzeugen, wobei Sie die Entscheidungen darüber treffen, was wir annehmen, während wir unseren Compute-Fußabdruck erweitern.
Qualifikationen
- Über 3 Jahre Berufserfahrung im Aufbau und Betrieb von Infrastrukturen für großangelegte Deep-Learning-Systeme.
- Praktische Erfahrung im Training oder in der Unterstützung des Trainings großer Modelle (Milliarden von Parametern) in verteilten Multi-Node-GPU-Setups sowie ein tiefes Verständnis der zugrunde liegenden Konzepte (DDP, FSDP, NCCL).
- Starke Erfahrung mit mindestens einer großen Cloud-Plattform (AWS oder GCP), einschließlich Compute-Bereitstellung und Netzwerk.
- Erfahrung mit Job-Scheduling- und Orchestrierungstools: Slurm, Kubernetes oder beides.
- Erfahrung im Aufbau von Datenpipelines und im Management von großangelegtem Speicher – einschließlich Objektspeichern (S3 oder gleichwertig) und Vertrautheit mit Hochleistungs- oder parallelen Dateisystemen (z.B. Lustre).
- Kenntnisse in Python und praktische Kenntnisse in PyTorch.
- Eigenverantwortliche Denkweise: Komfortabel bei der Entscheidungsfindung über Architektur, Setzen von Richtungen und eigenständiger Lieferung in einem schnelllebigen Umfeld.
Nice to Have
- Erfahrung mit verteilten Datenverarbeitungsframeworks (Ray, Spark).
- Vertrautheit mit gängigen Datenformaten (Parquet, WebDataset, LeRobot).
- Erfahrung mit zusätzlichen GPU-Cloud-Anbietern (Lambda Labs, CoreWeave, RunPod, Nebius oder ähnliches).
- Erfahrung im Management von On-Premise-Compute-Infrastrukturen.
- Vertrautheit mit Robotersimulationsumgebungen (IsaacLab, IsaacGym, MuJoCo).
- Erfahrung mit Infrastructure-as-Code und Konfigurationsmanagement (Terraform, Ansible).
- Vertrautheit mit Experiment-Tracking-Plattformen (Weights & Biases, MLflow).
- Erfahrung mit GPU-Programmierung und -Profilierung (CUDA, Nsight).
Vorteile
- Wettbewerbsfähiges Vergütungspaket.
- Ein Platz in der ersten Reihe eines der ehrgeizigsten Robotikunternehmen Europas.
- Ein energiegeladenes, kollaboratives Team mit einer Handlungsorientierung.
ML Infra Engineer Arbeitgeber: Flexion
Flexion ist ein herausragender Arbeitgeber, der Ihnen die Möglichkeit bietet, an der Spitze der Robotiktechnologie zu arbeiten. In einem dynamischen und kollaborativen Team in Zürich profitieren Sie von einem wettbewerbsfähigen Vergütungspaket und haben die Chance, Ihre Fähigkeiten in einem innovativen Umfeld weiterzuentwickeln. Hier können Sie nicht nur an bedeutenden Projekten mitwirken, sondern auch aktiv zur Gestaltung der Zukunft humanoider Roboter beitragen.