Auf einen Blick
- Aufgaben: Bau die Infrastruktur für KI-Modelle und optimiere Trainingsprozesse für humanoide Roboter.
- Unternehmen: Flexion, ein innovatives Unternehmen im Bereich humanoider Robotik mit führenden Wissenschaftlern.
- Vorteile: Attraktives Gehalt, Gesundheitsleistungen und die Möglichkeit, an der Spitze der Technologie zu arbeiten.
- Weitere Informationen: Dynamisches Arbeitsumfeld in Zürich mit großartigen Entwicklungsmöglichkeiten.
- Warum dieser Job: Gestalte die Zukunft der Robotik und arbeite mit einem erfahrenen Team von Experten.
- Qualifikationen: Mindestens 3 Jahre Erfahrung in der Infrastruktur für Deep Learning Systeme und starke Python-Kenntnisse.
Das prognostizierte Gehalt liegt zwischen 55000 - 70000 € pro Jahr.
Über Flexion
Bei Flexion bauen wir die Intelligenzschicht, die die nächste Generation humanoider Roboter antreibt. Unsere Mission ist es, den Übergang von fragilen Prototypen zur realen Bereitstellung humanoider Roboter zu beschleunigen. Wir wurden von führenden Wissenschaftlern im Bereich Robotik und Verstärkungslernen (ehemals Nvidia, ehemals ETH Zürich) gegründet und von führenden internationalen VC-Firmen unterstützt. In nur wenigen Monaten haben wir von unserem ersten Code bis zur Bereitstellung echter humanoider Fähigkeiten Fortschritte gemacht.
Die Rolle
Als ML Infrastructure Engineer bei Flexion werden Sie uns helfen, unsere Kern-Compute- und Datenplattformen auszubauen. Wir entwickeln das Gehirn für humanoide Roboter, was das Training großangelegter grundlegender Modelle mit riesigen Datenmengen umfasst. Sie entwerfen Trainingscluster, architektonisieren die Pipelines, die Daten von Simulatoren und Robotern in das Modelltraining übertragen, und erstellen die Werkzeuge, die unseren KI-Ingenieuren ermöglichen, schnell zu trainieren, zu bewerten und zu iterieren. Sie werden Teil des erfahrenen Infrastrukturteams von Flexion (ehemals Google, Meta, Amazon) und übernehmen eine bedeutende Verantwortung für die Systeme hinter unserer Datensammlung, dem Training und den Experimentierabläufen: von strategischen Infrastrukturentscheidungen, Cluster-Orchestrierung und Optimierung des verteilten Trainings bis hin zu Datenplattformen, CI und Experimentierwerkzeugen. Dies ist eine Senior-Position vor Ort in unserem Büro in Zürich.
Hauptverantwortlichkeiten
- Aufbau und Betrieb der Trainingsinfrastruktur: Entwurf, Bereitstellung und Wartung von GPU-Compute-Clustern für das großangelegte Modelltraining über mehrere Cloud-Anbieter hinweg, einschließlich Job-Scheduling (Slurm, Kubernetes).
- Architektur von Datenplattformen und -pipelines: Aufbau der Speicher-, Verarbeitungs- und Servierschichten, die den gesamten Datenlebenszyklus abdecken: von Simulatorausgaben und Robotertelmetrie bis hin zu Trainingsdatensätzen. Dazu gehört der Aufbau von Infrastrukturen mit Objektspeicher (S3), parallelen Dateisystemen (Lustre) und gängigen Datenformaten (Parquet, WebDataset, LeRobot).
- Verwendung verteilter Verarbeitungsframeworks (Ray, Spark), um Daten in großem Maßstab zu transformieren und zu validieren.
- Optimierung des verteilten Trainings: Zusammenarbeit mit unseren KI-Ingenieuren, um Arbeitslasten über Multi-Node-GPU-Cluster zu skalieren, Profilierung und Verbesserung des Durchsatzes, der Geräteauslastung und der Kommunikationseffizienz. Dazu gehört die Optimierung unseres verteilten IsaacLab-basierten Sim-to-Real-Trainings.
- Bewertung und Annahme neuer Plattformen: Vergleich von Cloud-Anbietern, GPUaaS-Plattformen und aufkommenden Werkzeugen, wobei Sie die Entscheidungen darüber treffen, was wir annehmen, während wir unseren Compute-Fußabdruck erweitern.
3+ Jahre Berufserfahrung im Aufbau und Betrieb von Infrastrukturen für großangelegte Deep-Learning-Systeme. Praktische Erfahrung im Training oder in der Unterstützung des Trainings großer Modelle (Milliarden von Parametern) in verteilten Multi-Node-GPU-Setups sowie ein tiefes Verständnis der zugrunde liegenden Konzepte (DDP, FSDP, NCCL). Starke Erfahrung mit mindestens einer großen Cloud-Plattform (AWS oder GCP), einschließlich Compute-Provisionierung und Netzwerk. Erfahrung mit Job-Scheduling- und Orchestrierungstools: Slurm, Kubernetes oder beides. Erfahrung im Aufbau von Datenpipelines und im Management von großangelegtem Speicher – einschließlich Objektspeichern (S3 oder gleichwertig) und Vertrautheit mit Hochleistungs- oder parallelen Dateisystemen (z. B. Lustre). Kenntnisse in Python und praktische Kenntnisse in PyTorch. Eigenverantwortung: Komfortabel bei der Entscheidungsfindung über Architektur, Setzen von Richtungen und eigenständiger Lieferung in einem sich schnell bewegenden Umfeld.
Schön zu haben
- Erfahrung mit verteilten Datenverarbeitungsframeworks (Ray, Spark).
- Vertrautheit mit gängigen Datenformaten (Parquet, WebDataset, LeRobot).
- Erfahrung mit zusätzlichen GPU-Cloud-Anbietern (Lambda Labs, CoreWeave, RunPod, Nebius oder ähnliches).
- Erfahrung im Management von On-Premise-Compute-Infrastrukturen.
- Vertrautheit mit Robotersimulationsumgebungen (IsaacLab, IsaacGym, MuJoCo).
- Erfahrung mit Infrastructure-as-Code und Konfigurationsmanagement (Terraform, Ansible).
- Vertrautheit mit Experiment-Tracking-Plattformen.
ML Infra Engineer Arbeitgeber: Flexion Robotics
Flexion ist ein herausragender Arbeitgeber, der innovative Technologien im Bereich humanoider Roboter entwickelt. Mit einem dynamischen Team von Experten aus führenden Unternehmen wie Google und Amazon bieten wir eine inspirierende Arbeitsumgebung in Zürich, die Kreativität und Eigenverantwortung fördert. Unsere Mitarbeiter profitieren von umfangreichen Wachstums- und Entwicklungsmöglichkeiten sowie von einer Kultur, die Zusammenarbeit und den Austausch von Ideen schätzt.