Auf einen Blick
- Aufgaben: Entwickle und betreibe ML-Systeme für generative 3D-Modelle und Datenpipelines.
- Unternehmen: SpAItial, ein innovatives Unternehmen im Bereich generative KI.
- Vorteile: Wettbewerbsfähiges Gehalt, flexible Arbeitszeiten und ein kreatives Umfeld.
- Weitere Informationen: Dynamisches Team mit Fokus auf Vielfalt und Inklusion.
- Warum dieser Job: Gestalte die Zukunft der 3D-Technologie und arbeite an spannenden Herausforderungen.
- Qualifikationen: Erfahrung in Python und modernen ML-Trainingsstacks erforderlich.
Das prognostizierte Gehalt liegt zwischen 60000 - 80000 € pro Jahr.
SpAItial ist Pionier der nächsten Generation von Weltmodellen und erweitert die Grenzen von generativer KI, Computer Vision und Simulation. Wir gehen über 2D-Pixel hinaus, um Modelle zu entwickeln, die die Physik und Geometrie unserer Welt nativ verstehen. Unsere Mission ist es, die Art und Weise, wie Branchen von Robotik und AR/VR bis hin zu Gaming und Kino physikalisch fundierte 3D-Umgebungen generieren und interagieren, neu zu definieren.
Wir suchen mutige, innovative Personen, die von einer Leidenschaft für die Lösung schwieriger Probleme in generativer 3D-KI angetrieben werden. Sie sollten in einer Umgebung gedeihen, in der Kreativität auf technische Herausforderungen trifft, Stolz auf Handwerk empfinden und eng mit einem kleinen Team zusammenarbeiten, das an fortschrittlichen Systemen arbeitet.
Wir suchen einen Machine Learning Systems & Infrastructure Engineer, der die Systeme entwickelt und besitzt, die rohe reale Daten in trainierte Weltmodelle und zuverlässige Produktionsendpunkte umwandeln. Sie werden skalierbare Trainingsstacks, Datenaufnahme-Pipelines, Experiment-Orchestrierung und Modellbereitstellung für große, diffusionsbasierte generative Modelle entwerfen, implementieren und betreiben. Die Rolle ist praktisch und code-lastig — Sie werden im selben Monorepo wie das Forschungsteam arbeiten, hauptsächlich in Python, und sollten ebenso komfortabel sein, eine Trainerklasse oder einen Datensatzlader zu refaktorisieren, wie Sie Terraform schreiben.
Verantwortlichkeiten
- Besitzen und weiterentwickeln der ML-Systeme, die das Training, die Bewertung und die Bereitstellung großer Grundmodelle ermöglichen — Trainer, Datensatzlader, Checkpointing und Experiment-Orchestrierungscode.
- Ermöglichung des verteilten Trainings: Verbesserung der Hochdurchsatz-Trainingsstacks (z.B. PyTorch DDP/FSDP, NCCL) hinsichtlich Leistung, Stabilität und Reproduzierbarkeit, einschließlich unterbrechungssicherem und fragmentiertem Checkpointing.
- Daten Systeme und Pipelines: Aufbau von End-to-End-Python-Pipelines, die Drittanbieter-Erfassungsquellen in saubere, versionierte Trainingsdatensätze umwandeln — einschließlich Scraping (z.B. Playwright) und Vorverarbeitung — und Optimierung des zugrunde liegenden Speichers im Petabyte-Maßstab (Objektspeicher, Fuse-Mounts, Caching-Schichten, gemeinsame Dateisysteme und relationale / analytische / eingebettete Metadatenspeicher).
- ML-Workflow-Orchestrierung und -Bereitstellung: Betrieb der Systeme, die Forscher verwenden, um Experimente, Datenjobs und Produktionsendpunkte zu starten — Workflow-Engines (z.B. Kubeflow Pipelines, Airflow), GPU-Planer (z.B. Volcano, Slurm), Experiment-Tracker (z.B. MLflow, Weights & Biases) und verwaltete Inferenzplattformen (z.B. Modal, Triton) — und Pflege eines Launcher-SDK für Ein-Kommando-Ausführungen.
- Containerisierung und Verpackung: Ausliefern von Workloads mit Docker und Kubernetes; Pflege von IaC (Terraform) für die Oberflächen, die Sie besitzen, und CI/CD-Pipelines, einschließlich selbst gehosteter GPU-Runner.
- Beobachtbarkeit und Zuverlässigkeit: Überwachung, Protokollierung und Alarmierung für die Jobleistung, die Gesundheit der Datenpipeline und Kosten (z.B. Prometheus/Grafana, OpenTelemetry); Definition von SLOs und Incident-Response für die Systeme, die Sie besitzen.
- Sicherheit und Zugriff: Verwaltung von Geheimnissen, IAM und Netzwerkgrenzen (z.B. Tailscale, Cloud VPC) für die Systeme, die Sie besitzen.
- Zusammenarbeit: Partnerschaft mit ML-Forschern, Ingenieuren und dem Plattformteam, um das Training und die Datenarbeit zu entblocken und die Entwicklererfahrung zu verbessern.
Wichtige Qualifikationen
- 3+ Jahre Erfahrung in der Produktion von qualitativ hochwertigem Python in einem großen, mehrautoren Codebase, mit starken SWE-Grundlagen (Erfahrung mit ML-Systemen stark bevorzugt).
- Praktische Erfahrung mit modernen ML-Trainingsstacks (PyTorch; DDP/FSDP oder vergleichbar); haben persönlich verteilte Jobs über viele GPUs und Knoten debuggt.
- Haben nicht triviale End-to-End-Datenpipelines in großem Maßstab ausgeliefert — Aufnahme, Transformation, Validierung, Versionierung, erneute Veröffentlichung — idealerweise einschließlich realer Quellen mit Ratenlimits, Authentifizierung oder nicht dokumentierten APIs.
- Praktische Erfahrung mit GPU-Computing und Leistungsdebugging (CUDA/NCCL, GPU-Auslastung, Netzwerkengpässe, Profilierung).
- Grundkenntnisse in Cloud-Umgebungen (AWS, GCP oder Azure), einschließlich Objektspeicher, IAM und Kostenbewusstsein.
- Versiert im Umgang mit Containern (Docker, Kubernetes) und sicher im Lesen und Schreiben von IaC (Terraform) für die Oberflächen, die Sie ausliefern.
- Starkes Wissen darüber, wie man große Datensätze im großen Maßstab speichert und abfragt: SQL-Grundlagen; relationale (z.B. Postgres), analytische (z.B. BigQuery, Snowflake) und eingebettete (z.B. SQLite) Speicher; und Objektspeicher mit Caching-Schichten. Vertrautheit mit ML-Workflow-Orchestrierung und Experiment-Tracking (z.B. Kubeflow Pipelines, MLflow).
- Erfahrung mit Überwachungs- und Beobachtungswerkzeugen (z.B. Prometheus/Grafana, OpenTelemetry) und CI/CD für Infrastruktur und ML-Workflows (z.B. GitHub Actions).
Bei SpAItial setzen wir uns dafür ein, einen vielfältigen und integrativen Arbeitsplatz zu schaffen. Wir begrüßen Bewerbungen von Menschen aus allen Hintergründen, Erfahrungen und Perspektiven. Wir sind ein Arbeitgeber, der Chancengleichheit bietet, und stellen sicher, dass alle Kandidaten während des Rekrutierungsprozesses fair behandelt werden.
Machine Learning Systems & Infrastructure Engineer Arbeitgeber: Spaitial
SpAItial ist ein hervorragender Arbeitgeber, der innovative Talente sucht, um die nächste Generation von Weltmodellen im Bereich generative KI zu entwickeln. Mit einem dynamischen und kreativen Arbeitsumfeld in London oder München bietet das Unternehmen nicht nur wettbewerbsfähige Vergütungen, sondern auch umfangreiche Möglichkeiten zur beruflichen Weiterentwicklung und Zusammenarbeit in einem engagierten Team. Die Unternehmenskultur fördert Vielfalt und Inklusion, was SpAItial zu einem attraktiven Ort für alle macht, die an bedeutungsvoller und herausfordernder Arbeit interessiert sind.
StudySmarter Expertenrat🤫
Wir sind der Meinung, dass Sie so Machine Learning Systems & Infrastructure Engineer erhalten könnten
✨Tipp Nummer 1
Netzwerken ist der Schlüssel! Nutze Plattformen wie LinkedIn, um mit Leuten aus der Branche in Kontakt zu treten. Frag nach informellen Gesprächen oder Mentoring – viele sind bereit, ihre Erfahrungen zu teilen.
✨Tipp Nummer 2
Bereite dich auf technische Interviews vor! Übe Coding-Challenges und sei bereit, deine Denkweise zu erklären. Zeig, dass du nicht nur die Lösungen kennst, sondern auch verstehst, warum sie funktionieren.
✨Tipp Nummer 3
Sei proaktiv und zeig dein Interesse! Wenn du eine Stelle im Auge hast, zögere nicht, direkt bei den Verantwortlichen nachzufragen. Ein persönlicher Kontakt kann oft den Unterschied machen.
✨Tipp Nummer 4
Nutze unsere Website für Bewerbungen! Wir haben viele spannende Stellenangebote, die darauf warten, von dir entdeckt zu werden. Mach den ersten Schritt und bewirb dich direkt bei uns!
Wir glauben, dass du diese Fähigkeiten brauchst, um Machine Learning Systems & Infrastructure Engineer mit Bravour zu bestehen
Einige Tipps für deine Bewerbung 🫡
Sei kreativ und zeig deine Leidenschaft!:Wenn du deine Bewerbung schreibst, lass deine Begeisterung für Machine Learning und generative AI durchscheinen. Erzähl uns, warum du dich für diese Technologien interessierst und wie du sie in der Praxis angewendet hast.
Mach es persönlich!:Vermeide Standardfloskeln und passe deine Bewerbung an die Stelle an, auf die du dich bewirbst. Zeig uns, dass du die Stellenbeschreibung gelesen hast und erkläre, wie deine Erfahrungen und Fähigkeiten perfekt zu unserem Team passen.
Beweise deine technischen Fähigkeiten!:Da wir einen Code-heavy Job anbieten, solltest du Beispiele für deine Programmierkenntnisse in Python und deine Erfahrungen mit ML-Systemen einbringen. Zeig uns, was du kannst, indem du konkrete Projekte oder Herausforderungen beschreibst, die du gemeistert hast.
Bewirb dich über unsere Website!:Wir empfehlen dir, deine Bewerbung direkt über unsere Website einzureichen. So stellst du sicher, dass sie schnell und effizient bei uns ankommt. Wir freuen uns darauf, von dir zu hören!
Wie man sich auf ein Vorstellungsgespräch bei Spaitial vorbereitet
✨Verstehe die Technologien
Mach dich mit den Technologien und Tools vertraut, die in der Stellenbeschreibung erwähnt werden, wie Python, PyTorch, Docker und Kubernetes. Zeige im Interview, dass du nicht nur theoretisches Wissen hast, sondern auch praktische Erfahrungen mit diesen Technologien.
✨Bereite konkrete Beispiele vor
Überlege dir spezifische Projekte oder Herausforderungen, die du in der Vergangenheit gemeistert hast, insbesondere solche, die mit ML-Systemen und Datenpipelines zu tun haben. Sei bereit, diese Beispiele im Detail zu erläutern und zu zeigen, wie du Probleme gelöst hast.
✨Zeige deine Teamfähigkeit
Da die Rolle enge Zusammenarbeit mit anderen Ingenieuren und Forschern erfordert, ist es wichtig, deine Teamarbeit und Kommunikationsfähigkeiten zu betonen. Bereite Beispiele vor, in denen du erfolgreich im Team gearbeitet hast, um Herausforderungen zu bewältigen.
✨Fragen stellen
Bereite einige durchdachte Fragen vor, die du dem Interviewer stellen kannst. Das zeigt dein Interesse an der Position und dem Unternehmen. Frage nach den aktuellen Projekten, den Herausforderungen, die das Team bewältigt, oder der Unternehmenskultur.