Senior Site Reliability Engineer — Token Factory (Inference Platform)
Senior Site Reliability Engineer — Token Factory (Inference Platform)

Senior Site Reliability Engineer — Token Factory (Inference Platform)

London Vollzeit 60000 - 80000 € / Jahr (geschätzt) Kein Home Office möglich
Go Premium
N

Auf einen Blick

  • Aufgaben: Sichere die Zuverlässigkeit und Leistung unserer KI-Infrastruktur und entwickle innovative Lösungen.
  • Arbeitgeber: Nebius, ein führendes Unternehmen im Bereich Cloud-Computing für die globale KI-Wirtschaft.
  • Mitarbeitervorteile: Wettbewerbsfähiges Gehalt, umfassende Sozialleistungen und flexible Arbeitszeiten.
  • Andere Informationen: Wachsendes Unternehmen mit großartigen Entwicklungsmöglichkeiten und einer kollaborativen Kultur.
  • Warum dieser Job: Gestalte die Zukunft der KI mit und arbeite an spannenden Projekten in einem dynamischen Team.
  • Gewünschte Qualifikationen: Erfahrung mit Kubernetes, Terraform und Skripting in Python oder Bash.

Das voraussichtliche Gehalt liegt zwischen 60000 - 80000 € pro Jahr.

Warum bei Nebius arbeiten

Nebius führt eine neue Ära im Cloud-Computing ein, um die globale KI-Wirtschaft zu bedienen. Wir schaffen die Werkzeuge und Ressourcen, die unsere Kunden benötigen, um reale Herausforderungen zu lösen und Branchen zu transformieren, ohne massive Infrastrukturkosten oder die Notwendigkeit, große interne KI/ML-Teams aufzubauen. Unsere Mitarbeiter arbeiten an der Spitze der KI-Cloud-Infrastruktur neben einigen der erfahrensten und innovativsten Führungskräfte und Ingenieure auf diesem Gebiet.

Wo wir arbeiten

Mit Hauptsitz in Amsterdam und an der Nasdaq gelistet, hat Nebius eine globale Präsenz mit F&E-Zentren in Europa, Nordamerika und Israel. Das Team von über 1400 Mitarbeitern umfasst mehr als 400 hochqualifizierte Ingenieure mit tiefem Fachwissen in der Hardware- und Softwaretechnik sowie ein internes KI-F&E-Team.

Die Token Factory ist Teil von Nebius Cloud, einer der größten GPU-Clouds der Welt, die Zehntausende von GPUs betreibt. Wir bauen eine Inferenzplattform, die jede Art von Fundamentalmuster – Text, Vision, Audio und aufkommende multimodale Architekturen – schnell, zuverlässig und mühelos in großem Maßstab bereitstellt. Um dieses Versprechen einzulösen, benötigen wir einen Ingenieur, der die Plattform unter extremen Lasten fehlerfrei funktionieren lässt und sich bei unerwarteten Ereignissen elegant erholt.

In dieser Rolle sind Sie verantwortlich für die Zuverlässigkeit, Leistung und Beobachtbarkeit des gesamten Inferenzstacks. Ihr Tag beginnt mit dem Entwerfen und Verfeinern von Telemetrie-Pipelines – Metriken, Protokollen und Traces, die Hunderte von Terabyte an Signalen in klare, umsetzbare Erkenntnisse umwandeln. Von dort aus könnten Sie Kubernetes-Autoscaler optimieren, um mehr Effizienz aus GPUs herauszuholen, Terraform-Module erstellen, die Resilienz in jeden neuen Cluster integrieren, oder unsere Anforderungsweiterleitungs- und Wiederholungslogik absichern, sodass selbst vorübergehende Fehler von den Benutzern unbemerkt bleiben.

Wenn Vorfälle auftreten, verlassen Sie sich auf die Automatisierung und die Runbooks, die Sie erstellt haben, um Probleme in Minuten zu erkennen, zu isolieren und zu beheben, und treiben dann die Post-Mortem-Kultur voran, die Wiederholungen verhindert. All diese Bemühungen zielen auf ein einziges Ziel ab: die Plattform reibungslos zu skalieren und dabei aggressive Kosten- und Zuverlässigkeitsziele zu erreichen.

Erfolg in dieser Rolle erfordert tiefes Wissen über Kubernetes, Prometheus, Grafana, Terraform und die Kunst der Infrastruktur als Code. Sie skripten bequem in Python oder Bash, verstehen die Nuancen des Alarmdesigns und der SLOs für hochdurchsatzfähige APIs und haben genug Zeit in der Produktion verbracht, um zu wissen, wie verteilte Back-Ends in der realen Welt ausfallen. Erfahrung mit GPU-intensiven Workloads – sei es mit vLLM, Triton, Ray oder einem anderen Beschleuniger-Stack – wird Ihnen zugutekommen, ebenso wie ein Hintergrund in MLOps oder Modell-Hosting-Plattformen. Vor allem kümmern Sie sich um den Aufbau selbstheilender Systeme, gedeihen beim Debuggen der Leistung von der Kernel- bis zur Anwendungsschicht und genießen die Zusammenarbeit mit Softwareingenieuren, um Zuverlässigkeit zu einer Funktion zu machen, über die die Benutzer nie nachdenken müssen.

Wenn die Idee, die Infrastruktur zu schützen, die die multimodale KI von morgen antreibt, Sie begeistert, würden wir uns freuen, Ihre Geschichte zu hören.

Was wir bieten

  • Wettbewerbsfähiges Gehalt und umfassendes Leistungspaket.
  • Möglichkeiten zur beruflichen Weiterentwicklung innerhalb von Nebius.
  • Flexible Arbeitsbedingungen.
  • Ein dynamisches und kollaboratives Arbeitsumfeld, das Initiative und Innovation schätzt.

Wir wachsen und erweitern unsere Produkte jeden Tag. Wenn Sie bereit für die Herausforderung sind und genauso begeistert von KI und ML sind wie wir, schließen Sie sich uns an!

Senior Site Reliability Engineer — Token Factory (Inference Platform) Arbeitgeber: Nebius

Nebius ist ein führendes Unternehmen im Bereich Cloud-Computing, das innovative Lösungen für die globale KI-Wirtschaft bietet. Mit einem dynamischen und kollaborativen Arbeitsumfeld in Amsterdam, flexiblen Arbeitszeiten und umfangreichen Möglichkeiten zur beruflichen Weiterentwicklung, ist Nebius der ideale Arbeitgeber für talentierte Ingenieure, die an der Spitze der KI-Infrastruktur arbeiten möchten. Hier haben Sie die Chance, an bahnbrechenden Projekten zu arbeiten und Teil eines wachsenden Teams von über 1400 Mitarbeitern zu sein, das sich leidenschaftlich für die Zukunft der Technologie einsetzt.
N

Kontaktperson:

Nebius HR Team

StudySmarter Bewerbungstipps 🤫

So bekommst du den Job: Senior Site Reliability Engineer — Token Factory (Inference Platform)

Tipp Nummer 1

Netzwerken ist der Schlüssel! Nutze Plattformen wie LinkedIn, um mit Leuten aus der Branche in Kontakt zu treten. Lass uns wissen, wenn du Fragen hast oder Unterstützung brauchst!

Tipp Nummer 2

Bereite dich auf technische Interviews vor, indem du deine Kenntnisse in Kubernetes, Terraform und Python auffrischst. Wir können dir helfen, die besten Ressourcen zu finden, um dich optimal vorzubereiten.

Tipp Nummer 3

Zeige deine Leidenschaft für AI und ML! Teile deine Projekte oder Erfahrungen in diesen Bereichen, um zu zeigen, dass du wirklich für die Rolle brennst. Lass uns gemeinsam an deinem Portfolio arbeiten!

Tipp Nummer 4

Bewirb dich direkt über unsere Website! So kannst du sicherstellen, dass deine Bewerbung die richtigen Leute erreicht. Wir freuen uns darauf, von dir zu hören!

Diese Fähigkeiten machen dich zur top Bewerber*in für die Stelle: Senior Site Reliability Engineer — Token Factory (Inference Platform)

Kubernetes
Prometheus
Grafana
Terraform
Python
Bash
Infrastruktur-als-Code
Telemetry-Pipelines
SLOs für hochdurchsatzfähige APIs
GPU-intensive Workloads
MLOps
Modell-Hosting-Plattformen
Fehlerbehebung von Systemen
Zusammenarbeit mit Software-Ingenieuren
Skalierung von Plattformen

Tipps für deine Bewerbung 🫡

Sei authentisch!: Wenn du deine Bewerbung schreibst, sei einfach du selbst. Zeig uns, wer du bist und was dich motiviert, bei Nebius zu arbeiten. Authentizität kommt immer gut an!

Pass auf die Details auf!: Achte darauf, dass deine Bewerbung fehlerfrei ist. Rechtschreibfehler oder unklare Formulierungen können einen schlechten Eindruck hinterlassen. Lass jemanden drüberlesen, bevor du sie abschickst!

Verknüpfe deine Erfahrungen mit der Stelle!: Erzähle uns, wie deine bisherigen Erfahrungen und Fähigkeiten direkt auf die Anforderungen der Stelle als Senior Site Reliability Engineer passen. Mach es konkret und zeig, dass du die richtige Person für den Job bist!

Bewirb dich über unsere Website!: Wir empfehlen dir, deine Bewerbung direkt über unsere Website einzureichen. So stellst du sicher, dass sie schnell und sicher bei uns ankommt. Wir freuen uns darauf, von dir zu hören!

Wie du dich auf ein Vorstellungsgespräch bei Nebius vorbereitest

Verstehe die Technologie

Mach dich mit den Technologien vertraut, die Nebius verwendet, insbesondere Kubernetes, Prometheus und Grafana. Zeige im Interview, dass du nicht nur die Grundlagen kennst, sondern auch, wie du diese Tools in realen Szenarien einsetzen kannst.

Bereite konkrete Beispiele vor

Denke an spezifische Projekte oder Herausforderungen, die du in der Vergangenheit gemeistert hast. Sei bereit, darüber zu sprechen, wie du Probleme gelöst hast, insbesondere in Bezug auf Zuverlässigkeit und Performance von Systemen.

Zeige deine Problemlösungsfähigkeiten

Nebius sucht nach jemandem, der selbstheilende Systeme bauen kann. Bereite dich darauf vor, Fragen zu beantworten, die deine Fähigkeit zur Fehlersuche und Problemlösung unter extremen Bedingungen testen. Denk daran, dass es nicht nur um die Lösung geht, sondern auch um den Prozess.

Kollaboration betonen

Da die Rolle viel Zusammenarbeit mit Software-Ingenieuren erfordert, solltest du Beispiele für erfolgreiche Teamarbeit und Kommunikation in deinen bisherigen Positionen parat haben. Zeige, dass du ein Teamplayer bist, der gerne Wissen teilt und gemeinsam an Lösungen arbeitet.

Senior Site Reliability Engineer — Token Factory (Inference Platform)
Nebius
Standort: London
Premium gehen

Schneller zum Traumjob mit Premium

Deine Bewerbung wird als „Top Bewerbung“ bei unseren Partnern gekennzeichnet
Individuelles Feedback zu Lebenslauf und Anschreiben, einschließlich der Anpassung an spezifische Stellenanforderungen
Gehöre zu den ersten Bewerbern für neue Stellen mit unserem AI Bewerbungsassistenten
1:1 Unterstützung und Karriereberatung durch unsere Career Coaches
Premium gehen

Geld-zurück-Garantie, wenn du innerhalb von 6 Monaten keinen Job findest

>