Machine Learning Systems & Infrastructure Engineer

Jobbörse

Unternehmen

spAItial AI

Machine Learning Systems & Infrastructure Engineer

München Vollzeit 60000 - 80000 € / Jahr (geschätzt) Homeoffice (teilweise)

Auf einen Blick

Aufgaben: Entwickle und betreibe ML-Systeme für generative 3D-Modelle und Datenpipelines.
Unternehmen: SpAItial, ein innovatives Unternehmen im Bereich generative KI und Computer Vision.
Vorteile: Wettbewerbsfähiges Gehalt, flexible Arbeitszeiten und ein kreatives Arbeitsumfeld.
Weitere Informationen: Dynamisches Team mit Fokus auf Zusammenarbeit und persönlichem Wachstum.
Warum dieser Job: Sei Teil der Zukunft von 3D-Technologien und arbeite an spannenden Herausforderungen.
Qualifikationen: Erfahrung in Python und modernen ML-Trainingsstacks erforderlich.

Das prognostizierte Gehalt liegt zwischen 60000 - 80000 € pro Jahr.

SpAItial ist Pionier der nächsten Generation von Weltmodellen und erweitert die Grenzen von generativer KI, Computer Vision und Simulation. Wir bewegen uns über 2D-Pixel hinaus, um Modelle zu entwickeln, die die Physik und Geometrie unserer Welt nativ verstehen. Unsere Mission ist es, zu redefinieren, wie Branchen, von Robotik und AR/VR bis hin zu Gaming und Kino, physikalisch fundierte 3D-Umgebungen generieren und interagieren. Wir suchen mutige, innovative Personen, die von einer Leidenschaft für die Lösung schwieriger Probleme in generativer 3D-KI angetrieben werden. Sie sollten in einer Umgebung gedeihen, in der Kreativität auf technische Herausforderungen trifft, Stolz auf Handwerk haben und eng mit einem kleinen Team zusammenarbeiten, das Grenzsysteme aufbaut.

Wir suchen einen Machine Learning Systems & Infrastructure Engineer, der die Systeme entwickelt und besitzt, die rohe Echtzeitdaten in trainierte Weltmodelle und zuverlässige Produktionsendpunkte umwandeln. Sie werden skalierbare Trainingsstacks, Datenaufnahme-Pipelines, Experiment-Orchestrierung und Modellbereitstellung für große, diffusionsbasierte generative Modelle entwerfen, implementieren und betreiben. Die Rolle ist praktisch und code-lastig — Sie werden im selben Monorepo wie das Forschungsteam arbeiten, hauptsächlich in Python, und sollten ebenso komfortabel sein, eine Trainerklasse oder einen Datensatzlader zu refaktorisieren, wie Sie es sind, Terraform zu schreiben.

Verantwortlichkeiten

Besitzen und weiterentwickeln der ML-Systeme, die das Training, die Bewertung und die Bereitstellung großer Grundmodelle ermöglichen — Trainer, Datensatzlader, Checkpointing und Experiment-Orchestrierungscode.
Ermöglichung des verteilten Trainings: Verbesserung der Hochdurchsatz-Trainingsstacks (z.B. PyTorch DDP/FSDP, NCCL) hinsichtlich Leistung, Stabilität und Reproduzierbarkeit, einschließlich unterbrechungssicherem und fragmentiertem Checkpointing.
Daten Systeme und Pipelines: Aufbau von End-to-End-Python-Pipelines, die Drittanbieter-Erfassungsquellen in saubere, versionierte Trainingsdatensätze umwandeln — einschließlich Scraping (z.B. Playwright) und Vorverarbeitung — und Optimierung des zugrunde liegenden Speichers im Petabyte-Maßstab (Objektspeicher, Fuse-Mounts, Caching-Schichten, gemeinsame Dateisysteme und relationale / analytische / eingebettete Metadatenspeicher).
ML-Workflow-Orchestrierung und -Bereitstellung: Betrieb der Systeme, die Forscher verwenden, um Experimente, Datenjobs und Produktionsendpunkte zu starten — Workflow-Engines (z.B. Kubeflow Pipelines, Airflow), GPU-Planer (z.B. Volcano, Slurm), Experiment-Tracker (z.B. MLflow, Weights & Biases) und verwaltete Inferenzplattformen (z.B. Modal, Triton) — und Pflege eines Launcher-SDK für Ein-Kommando-Ausführungen.
Containerisierung und Verpackung: Auslieferung von Workloads mit Docker und Kubernetes; Pflege von IaC (Terraform) für die Oberflächen, die Sie besitzen, und CI/CD-Pipelines, einschließlich selbstgehosteter GPU-Runner.
Beobachtbarkeit und Zuverlässigkeit: Überwachung, Protokollierung und Alarmierung für Jobleistung, Gesundheit der Datenpipeline und Kosten (z.B. Prometheus/Grafana, OpenTelemetry); Definition von SLOs und Incident-Response für die Systeme, die Sie besitzen.
Sicherheit und Zugriff: Verwaltung von Geheimnissen, IAM und Netzwerkgrenzen (z.B. Tailscale, Cloud VPC) für die Systeme, die Sie besitzen.
Zusammenarbeit: Partnerschaft mit ML-Forschern, Ingenieuren und dem Plattformteam, um das Training und die Datenarbeit zu entblocken und die Entwicklererfahrung zu verbessern.

Wesentliche Qualifikationen

3+ Jahre Erfahrung in der Produktion von qualitativ hochwertigem Python in einem großen, mehrautoren Codebase, mit starken SWE-Grundlagen (Erfahrung mit ML-Systemen stark bevorzugt).
Praktische Erfahrung mit modernen ML-Trainingsstacks (PyTorch; DDP/FSDP oder vergleichbar); haben persönlich verteilte Jobs über viele GPUs und Knoten debuggt.
Haben nicht triviale End-to-End-Datenpipelines in großem Maßstab ausgeliefert — Aufnahme, Transformation, Validierung, Versionierung, Neuveröffentlichung — idealerweise einschließlich realer Quellen mit Ratenlimits, Authentifizierung oder nicht dokumentierten APIs.
Praktische Erfahrung mit GPU-Computing und Leistungsdebugging (CUDA/NCCL, GPU-Nutzung, Netzwerkengpässe, Profilierung).
Grundkenntnisse in Cloud-Umgebungen (AWS, GCP oder Azure), einschließlich Objektspeicher, IAM und Kostenbewusstsein.
Versiert im Umgang mit Containern (Docker, Kubernetes) und sicher im Lesen und Schreiben von IaC (Terraform) für die Oberflächen, die Sie ausliefern.
Starkes Wissen darüber, wie man große Datensätze im großen Maßstab speichert und abfragt: SQL-Grundlagen; relationale (z.B. Postgres), analytische (z.B. BigQuery, Snowflake) und eingebettete (z.B. SQLite) Speicher; und Objektspeicher mit Caching-Schichten.
Vertrautheit mit ML-Workflow-Orchestrierung und Experimentverfolgung (z.B. Kubeflow Pipelines, MLflow).
Erfahrung mit Überwachungs- und Beobachtbarkeitstools (z.B. Prometheus/Grafana, OpenTelemetry) und CI/CD für Infrastruktur und ML-Workflows (z.B. GitHub Actions).

Chancengleichheit

Bei SpAItial setzen wir uns dafür ein, einen vielfältigen und integrativen Arbeitsplatz zu schaffen. Wir begrüßen Bewerbungen von Menschen aus allen Hintergründen, Erfahrungen und Perspektiven. Wir sind ein Arbeitgeber, der Chancengleichheit bietet, und stellen sicher, dass alle Kandidaten während des Rekrutierungsprozesses fair behandelt werden.

Machine Learning Systems & Infrastructure Engineer Arbeitgeber: spAItial AI

SpAItial ist ein hervorragender Arbeitgeber, der innovative Talente sucht, um die nächste Generation von Weltmodellen im Bereich generative KI zu entwickeln. Mit einem kreativen und kollaborativen Arbeitsumfeld in einer dynamischen Branche bieten wir nicht nur spannende Herausforderungen, sondern auch umfangreiche Möglichkeiten zur beruflichen Weiterentwicklung und zum Wachstum. Unsere Mitarbeiter profitieren von flexiblen Arbeitsbedingungen, modernster Technologie und einem starken Fokus auf Diversität und Inklusion.

Kontaktdaten:

spAItial AI Recruiting-Team

Profil von spAItial AI anzeigen

StudySmarter Expertenrat🤫

Wir sind der Meinung, dass Sie so Machine Learning Systems & Infrastructure Engineer erhalten könnten

✨Netzwerken ist der Schlüssel

Nutze Plattformen wie LinkedIn, um mit Leuten aus der Branche in Kontakt zu treten. Stell Fragen, teile deine Ideen und zeig dein Interesse an Machine Learning und Infrastruktur – das kann dir helfen, die richtigen Türen zu öffnen!

✨Praktische Erfahrungen sammeln

Beteilige dich an Open-Source-Projekten oder erstelle eigene Projekte, die deine Fähigkeiten im Bereich ML-Systeme und Infrastruktur zeigen. Das gibt dir nicht nur praktische Erfahrung, sondern auch etwas Greifbares, das du potenziellen Arbeitgebern präsentieren kannst.

✨Vorbereitung auf technische Interviews

Mach dich mit typischen technischen Fragen und Herausforderungen vertraut, die in Interviews für Machine Learning Positionen gestellt werden. Übe das Lösen von Problemen in Python und sei bereit, deine Denkweise während des Prozesses zu erklären.

✨Bewirb dich direkt über unsere Website

Wenn du dich für eine Stelle bei SpAItial interessierst, bewirb dich direkt über unsere Website. So zeigst du dein echtes Interesse und erhöhst deine Chancen, von unserem Team wahrgenommen zu werden!

Wir glauben, dass du diese Fähigkeiten brauchst, um Machine Learning Systems & Infrastructure Engineer mit Bravour zu bestehen

Python

ML-Systeme

PyTorch

DDP/FSDP

Datenpipelines

Docker

Kubernetes

Terraform

Cloud-Umgebungen (AWS, GCP, Azure)

SQL

Monitoring-Tools (Prometheus, Grafana)

Experiment-Tracking (Kubeflow Pipelines, MLflow)

GPU-Computing

Debugging von verteilten Jobs

Sicherheitsmanagement (IAM, Netzwerkgrenzen)

Einige Tipps für deine Bewerbung 🫡

Sei kreativ und zeig deine Leidenschaft!:Wenn du dich bewirbst, lass deine Persönlichkeit durchscheinen! Zeig uns, warum du für die Rolle als Machine Learning Systems & Infrastructure Engineer brennst und was dich an generativer KI fasziniert. Kreativität ist hier gefragt!

Mach es konkret!:Verwende konkrete Beispiele aus deiner bisherigen Erfahrung, um zu zeigen, wie du mit großen Datenpipelines oder ML-Systemen gearbeitet hast. Wir wollen sehen, dass du nicht nur theoretisches Wissen hast, sondern auch praktische Fähigkeiten!

Pass auf die Details auf!:Achte darauf, dass deine Bewerbung gut strukturiert und fehlerfrei ist. Ein klarer und präziser Schreibstil zeigt uns, dass du Wert auf Qualität legst – genau wie wir bei StudySmarter!

Bewirb dich über unsere Website!:Der einfachste Weg, um Teil unseres Teams zu werden, ist, dich direkt über unsere Website zu bewerben. So stellst du sicher, dass deine Bewerbung schnell und unkompliziert bei uns ankommt!

Wie man sich auf ein Vorstellungsgespräch bei spAItial AI vorbereitet

✨Verstehe die Technologien

Mach dich mit den Technologien und Tools vertraut, die in der Stellenbeschreibung erwähnt werden, wie Python, PyTorch, Docker und Kubernetes. Zeige im Interview, dass du praktische Erfahrungen mit diesen Technologien hast und bereit bist, sie anzuwenden.

✨Bereite konkrete Beispiele vor

Denke an spezifische Projekte oder Herausforderungen, die du in der Vergangenheit gemeistert hast, insbesondere solche, die mit ML-Systemen und Datenpipelines zu tun haben. Sei bereit, diese Beispiele zu erläutern und zu zeigen, wie du Probleme gelöst hast.

✨Zeige deine Teamfähigkeit

Da die Rolle enge Zusammenarbeit mit anderen Ingenieuren und Forschern erfordert, ist es wichtig, deine Teamarbeit und Kommunikationsfähigkeiten zu betonen. Bereite Beispiele vor, in denen du erfolgreich im Team gearbeitet hast, um Herausforderungen zu bewältigen.

✨Fragen stellen

Bereite einige durchdachte Fragen vor, die du dem Interviewer stellen kannst. Das zeigt dein Interesse an der Position und hilft dir, mehr über die Unternehmenskultur und die Erwartungen an die Rolle zu erfahren.

Machine Learning Systems & Infrastructure Engineer

spAItial AI

Standort: München

Machine Learning Systems & Infrastructure Engineer

Auf einen Blick

Machine Learning Systems & Infrastructure Engineer Arbeitgeber: spAItial AI

StudySmarter Expertenrat🤫

Wir glauben, dass du diese Fähigkeiten brauchst, um Machine Learning Systems & Infrastructure Engineer mit Bravour zu bestehen

Einige Tipps für deine Bewerbung 🫡

Wie man sich auf ein Vorstellungsgespräch bei spAItial AI vorbereitet

Unternehmen

Produkt

Help