ML Infra Engineer

ML Infra Engineer

Zürich Vollzeit 60000 - 80000 € / Jahr (geschätzt) Kein Homeoffice möglich
F

Auf einen Blick

  • Aufgaben: Bau und Betrieb von Trainingsinfrastrukturen für humanoide Roboter.
  • Unternehmen: Flexion, ein innovatives Unternehmen im Bereich Robotik mit führenden Wissenschaftlern.
  • Vorteile: Wettbewerbsfähiges Gehalt und die Möglichkeit, an spannenden Projekten zu arbeiten.
  • Weitere Informationen: Dynamisches Team mit Fokus auf Zusammenarbeit und Innovation.
  • Warum dieser Job: Sei Teil der nächsten Generation von humanoiden Robotern und gestalte die Zukunft mit.
  • Qualifikationen: 3+ Jahre Erfahrung in der Infrastruktur für Deep Learning Systeme.

Das prognostizierte Gehalt liegt zwischen 60000 - 80000 € pro Jahr.

Über Flexion

Bei Flexion entwickeln wir die Intelligenzschicht, die die nächste Generation humanoider Roboter antreibt. Unsere Mission ist es, den Übergang von fragilen Prototypen zur realen Bereitstellung humanoider Roboter zu beschleunigen. Wir wurden von führenden Wissenschaftlern im Bereich Robotik und Verstärkungslernen (ehemals Nvidia, ehemals ETH Zürich) gegründet und von führenden internationalen VC-Firmen unterstützt. In nur wenigen Monaten haben wir von unserem ersten Code bis zur Bereitstellung echter humanoider Fähigkeiten Fortschritte gemacht.

Die Rolle

Als ML Infrastructure Engineer bei Flexion werden Sie uns helfen, unsere Kern-Compute- und Datenplattformen auszubauen. Wir bauen das Gehirn für humanoide Roboter, was das Training großangelegter Grundmodelle mit riesigen Datenmengen umfasst. Sie entwerfen Trainingscluster, architektonisieren die Pipelines, die Daten von Simulatoren und Robotern in das Modelltraining übertragen, und erstellen die Werkzeuge, die unseren KI-Ingenieuren ermöglichen, schnell zu trainieren, zu bewerten und zu iterieren.

Sie werden Teil des erfahrenen Infrastrukturteams von Flexion (ehemals Google, Meta, Amazon) und übernehmen eine bedeutende Verantwortung für die Systeme hinter unserer Datensammlung, dem Training und den Experimentierabläufen: von strategischen Infrastrukturentscheidungen, Cluster-Orchestrierung und Optimierung des verteilten Trainings bis hin zu Datenplattformen, CI und Experimentierwerkzeugen. Dies ist eine Senior-Position vor Ort in unserem Büro in Zürich.

Hauptverantwortlichkeiten

  • Aufbau und Betrieb der Trainingsinfrastruktur: Entwurf, Bereitstellung und Wartung von GPU-Compute-Clustern für das großangelegte Modelltraining über mehrere Cloud-Anbieter hinweg, einschließlich Job-Scheduling (Slurm, Kubernetes).
  • Architektur von Datenplattformen und Pipelines: Aufbau der Speicher-, Verarbeitungs- und Bereitstellungsschichten, die den gesamten Datenlebenszyklus abdecken: von Simulatorausgaben und Robotertelemetrie bis hin zu Trainingsdatensätzen. Dazu gehört der Aufbau von Infrastrukturen mit Objektspeicher (S3), parallelen Dateisystemen (Lustre) und gängigen Datenformaten (Parquet, WebDataset, LeRobot). Verwendung verteilter Verarbeitungsframeworks (Ray, Spark) zur Transformation und Validierung von Daten im großen Maßstab.
  • Optimierung des verteilten Trainings: Zusammenarbeit mit unseren KI-Ingenieuren zur Skalierung von Arbeitslasten über Multi-Node-GPU-Cluster, Profilierung und Verbesserung des Durchsatzes, der Geräteauslastung und der Kommunikationseffizienz. Dazu gehört die Optimierung unseres verteilten IsaacLab-basierten Sim-to-Real-Trainings.
  • Bewertung und Annahme neuer Plattformen: Vergleich von Cloud-Anbietern, GPUaaS-Plattformen und aufkommenden Werkzeugen, wobei Sie die Entscheidungen darüber treffen, was wir annehmen, während wir unseren Compute-Fußabdruck erweitern.

Anforderungen

  • 3+ Jahre Berufserfahrung im Aufbau und Betrieb von Infrastrukturen für großangelegte Deep-Learning-Systeme.
  • Praktische Erfahrung im Training oder in der Unterstützung des Trainings großer Modelle (Milliarden von Parametern) in verteilten Multi-Node-GPU-Setups sowie ein tiefes Verständnis der zugrunde liegenden Konzepte (DDP, FSDP, NCCL).
  • Starke Erfahrung mit mindestens einer großen Cloud-Plattform (AWS oder GCP), einschließlich Compute-Bereitstellung und Netzwerk.
  • Erfahrung mit Job-Scheduling- und Orchestrierungstools: Slurm, Kubernetes oder beides.
  • Erfahrung im Aufbau von Datenpipelines und im Management von großangelegtem Speicher – einschließlich Objektspeichern (S3 oder gleichwertig) und Vertrautheit mit Hochleistungs- oder parallelen Dateisystemen (z.B. Lustre).
  • Kenntnisse in Python und praktische Kenntnisse von PyTorch.
  • Eigenverantwortliche Denkweise: Komfortabel bei der Entscheidungsfindung über Architektur, Festlegung der Richtung und eigenständiger Lieferung in einem sich schnell bewegenden Umfeld.

Schön zu haben

  • Erfahrung mit verteilten Datenverarbeitungsframeworks (Ray, Spark).
  • Vertrautheit mit gängigen Datenformaten (Parquet, WebDataset, LeRobot).
  • Erfahrung mit zusätzlichen GPU-Cloud-Anbietern (Lambda Labs, CoreWeave, RunPod, Nebius oder ähnliches).
  • Erfahrung im Management von On-Premise-Compute-Infrastrukturen.
  • Vertrautheit mit Robotersimulationsumgebungen (IsaacLab, IsaacGym, MuJoCo).
  • Erfahrung mit Infrastructure-as-Code und Konfigurationsmanagement (Terraform, Ansible).
  • Vertrautheit mit Experiment-Tracking-Plattformen (Weights & Biases, MLflow).
  • Erfahrung mit GPU-Programmierung und -Profilierung (CUDA, Nsight).

Vorteile

  • Wettbewerbsfähiges Vergütungspaket
  • Ein Platz in der ersten Reihe eines der ehrgeizigsten Robotikunternehmen Europas
  • Ein energiegeladenes, kollaboratives Team mit einer Neigung zum Handeln

ML Infra Engineer Arbeitgeber: Flexion Robotics

Flexion ist ein herausragender Arbeitgeber, der Ihnen die Möglichkeit bietet, an der Spitze der Robotiktechnologie zu arbeiten. In einem dynamischen und kollaborativen Umfeld in Zürich profitieren Sie von einem wettbewerbsfähigen Vergütungspaket und haben die Chance, Ihre Fähigkeiten in einem Team von erfahrenen Fachleuten weiterzuentwickeln. Bei Flexion fördern wir eine Kultur des Eigentums und der Eigenverantwortung, was Ihnen ermöglicht, bedeutende Entscheidungen zu treffen und direkt zum Erfolg unserer innovativen Projekte beizutragen.

F

Kontaktdaten:

Flexion Robotics Recruiting-Team

StudySmarter Expertenrat🤫

Wir sind der Meinung, dass Sie so ML Infra Engineer erhalten könnten

Tipp Nummer 1

Netzwerken ist der Schlüssel! Nutze Plattformen wie LinkedIn, um mit Leuten aus der Branche in Kontakt zu treten. Frag nach Informationen über die Firma und zeig dein Interesse an der Position.

Tipp Nummer 2

Bereite dich auf technische Interviews vor! Übe Coding-Challenges und vertiefe dein Wissen über ML-Infrastruktur. Zeig, dass du nicht nur die Theorie beherrschst, sondern auch praktische Lösungen anbieten kannst.

Tipp Nummer 3

Sei proaktiv! Wenn du eine interessante Stelle siehst, bewirb dich direkt über unsere Website. Zeig, dass du bereit bist, Verantwortung zu übernehmen und Teil unseres Teams zu werden.

Tipp Nummer 4

Mach dir Gedanken über deine Fragen im Interview! Zeige, dass du dich mit der Firma und ihrer Mission auseinandergesetzt hast. Das hinterlässt einen bleibenden Eindruck und zeigt dein Engagement.

Wir glauben, dass du diese Fähigkeiten brauchst, um ML Infra Engineer mit Bravour zu bestehen

GPU-Compute-Cluster-Design
Job Scheduling (Slurm, Kubernetes)
Data Pipeline-Architektur
Objektspeicher (S3)
Parallel-Dateisysteme (Lustre)
Distributed Processing Frameworks (Ray, Spark)
Multi-Node GPU-Setups

Einige Tipps für deine Bewerbung 🫡

Sei du selbst!:Wenn du deine Bewerbung schreibst, sei authentisch und zeig uns, wer du wirklich bist. Wir suchen nach Menschen, die nicht nur die richtigen Fähigkeiten haben, sondern auch gut ins Team passen.

Mach es konkret!:Verwende konkrete Beispiele aus deiner bisherigen Erfahrung, um zu zeigen, wie du die Anforderungen der Stelle erfüllst. Erzähl uns von Projekten, an denen du gearbeitet hast, und den Herausforderungen, die du gemeistert hast.

Achte auf die Details!:Stell sicher, dass deine Bewerbung gut strukturiert und fehlerfrei ist. Ein klarer und professioneller Auftritt zeigt uns, dass du dir Mühe gibst und die Position ernst nimmst.

Bewirb dich über unsere Website!:Wir empfehlen dir, deine Bewerbung direkt über unsere Website einzureichen. So kannst du sicherstellen, dass wir alle Informationen erhalten und du die besten Chancen hast, gesehen zu werden.

Wie man sich auf ein Vorstellungsgespräch bei Flexion Robotics vorbereitet

Verstehe die Technologie

Mach dich mit den Technologien und Tools vertraut, die Flexion verwendet. Informiere dich über GPU-Cluster, Job-Scheduling-Tools wie Slurm oder Kubernetes und die Datenformate, die in der Rolle wichtig sind. Zeige im Interview, dass du nicht nur die Theorie verstehst, sondern auch praktische Erfahrungen hast.

Bereite konkrete Beispiele vor

Denke an spezifische Projekte oder Herausforderungen, die du in der Vergangenheit gemeistert hast. Sei bereit, darüber zu sprechen, wie du große Modelle trainiert, Datenpipelines aufgebaut oder verteilte Trainingsoptimierungen durchgeführt hast. Konkrete Beispiele helfen, deine Fähigkeiten zu untermauern.

Zeige deine Problemlösungsfähigkeiten

Flexion sucht nach jemandem, der eigenständig Entscheidungen treffen kann. Bereite dich darauf vor, Fragen zu beantworten, die deine Fähigkeit zur Problemlösung und Entscheidungsfindung testen. Überlege dir, wie du in der Vergangenheit technische Herausforderungen angegangen bist und welche Lösungen du gefunden hast.

Fragen stellen

Nutze die Gelegenheit, um Fragen zu stellen. Zeige dein Interesse an der Unternehmenskultur, den Projekten und den Herausforderungen, denen sich das Team gegenübersieht. Gut durchdachte Fragen können dir helfen, einen positiven Eindruck zu hinterlassen und gleichzeitig mehr über die Rolle zu erfahren.