Senior Site Reliability Engineer
Senior Site Reliability Engineer

Senior Site Reliability Engineer

Vollzeit 145000 - 185000 € / Jahr (geschätzt) Home Office möglich (teilweise)
Go Premium
Parallel Domain

Auf einen Blick

  • Aufgaben: Bau und Betrieb von Infrastruktur für autonome Systeme in virtuellen Umgebungen.
  • Arbeitgeber: Innovatives Unternehmen, das an der Spitze der autonomen Technologie steht.
  • Mitarbeitervorteile: Attraktives Gehalt, Gesundheitsleistungen, flexible Arbeitszeiten und Weiterbildungsmöglichkeiten.
  • Andere Informationen: Remote-freundlich mit großartigen Karrierechancen in einem dynamischen Umfeld.
  • Warum dieser Job: Gestalte die Zukunft autonomer Systeme und arbeite an spannenden Projekten.
  • Gewünschte Qualifikationen: Mindestens 5 Jahre Erfahrung in SRE oder DevOps mit fundierten Kenntnissen in AWS und Kubernetes.

Das voraussichtliche Gehalt liegt zwischen 145000 - 185000 € pro Jahr.

Über die Rolle

Bevor ein autonomes Fahrzeug eine belebte Kreuzung überquert, bevor ein Roboter lernt, in einem Lager zu greifen und zu platzieren, muss jedes physische KI-System sich in unserer Welt beweisen. Parallel Domain baut die Plattform, die die nächste Generation autonomer Systeme in hochpräzisen virtuellen Umgebungen validiert, und die Infrastruktur, die diese Plattform unterstützt, ermöglicht Simulationen im großen Maßstab. Wir suchen einen Senior Site Reliability Engineer, der hilft, diese Infrastruktur aufzubauen und zu betreiben. Diese Rolle ist zentral für den Betrieb großangelegter, verteilter Simulationslasten für Tests und Validierungen autonomer Systeme. Sie werden über mehrere Regionen der AWS-Infrastruktur arbeiten, Kubernetes im großen Maßstab betreiben und direkt zu den Zuverlässigkeits-, Sicherheits- und Bereitstellungssystemen beitragen, auf die der Rest der Engineering-Organisation angewiesen ist.

Dies ist eine praktische Rolle mit der breiten Verantwortung, die typisch für ein Startup ist. Sie werden eng mit den Teams für Plattform, Simulation und ML zusammenarbeiten, um das System reibungslos am Laufen zu halten und weiterzuentwickeln. Wir erweitern das Team – zwei dieser Rollen sind offen – und die Arbeit ist substanziell: Multi-Region GPU-Planung, Windows-Workloads auf Kubernetes, großangelegte Batch-Simulation und eine Unternehmensproduktstrategie, die erfordert, Teile der Art und Weise, wie wir bereitstellen und betreiben, neu zu überdenken.

Verantwortlichkeiten

  • Infrastrukturverantwortung und Cloud-Betrieb.
  • Entwurf, Aufbau und Wartung einer Multi-Region AWS-Infrastruktur mit Terraform.
  • Betrieb und Skalierung von EKS-Clustern über Produktionsregionen: Autoscaling, Lebenszyklus von Knoten, Arbeitslastgesundheit.
  • Verwaltung der Netzwerkinfrastruktur über verschiedene Umgebungen: VPC-Design, DNS, Lastenausgleich und regionale Konnektivität.
  • Unterstützung von Infrastrukturänderungen, Migrationen und Erweiterungen in neue Regionen.
  • Beitrag zu und Verbesserung von GitOps-basierten Bereitstellungsworkflows mit GitHub Actions, Helm und Kustomize.

Zuverlässigkeitsengineering und Vorfallreaktion.

  • Hilfe beim Aufbau und Betrieb von Vorfallmanagementprozessen: Schweregraddefinitionen, Eskalationspfade, Bereitschaftspraktiken.
  • Leitung der Vorfallreaktion, Debugging und Ursachenanalyse.
  • Schreiben von Nachuntersuchungen und Förderung systemischer Zuverlässigkeitsverbesserungen.
  • Verbesserung der Beobachtbarkeit über Metriken, Protokollierung, Nachverfolgung und Dashboards.
  • Unterstützung von GPU- und Batch-Workloads, die auf Kubernetes laufen.

Sicherheit und Zugriffsmanagement.

  • Bereitstellung von sicherheitsbewusstem Feedback zu Architekturentscheidungen der Plattform.
  • Verantwortung für die Cloud IAM-Governance: Rollen, Richtlinien und Zugriffsgrenzen über Konten und Dienste.
  • Leitung von Compliance-nahen Arbeiten, einschließlich Audit-Bereitschaft, Anforderungen an Partnerzertifizierungen und Unterstützung bei Antworten auf Sicherheitsfragen von Kunden.

Plattform-Tools und Entwicklererfahrung.

  • Verbesserung von CI/CD-Pipelines und Infrastrukturvalidierung.
  • Unterstützung von Ingenieuren bei der Fehlersuche in der Infrastruktur, der Einrichtung von Umgebungen und Leistungsproblemen.
  • Beitrag zu Tools und Automatisierung in Python und Bash.
  • Übernahme angrenzender Verantwortlichkeiten nach Bedarf in einer Startup-Umgebung.

Erforderliche Qualifikationen

  • 5+ Jahre Erfahrung in SRE, DevOps oder Infrastrukturengineering-Rollen mit nachweislicher Erfolgsbilanz im Betrieb von Produktionssystemen über mehrere Regionen.
  • Terraform: Module, Zustandsverwaltung und Multi-Umgebungsmuster.
  • AWS-Tiefe: Solide Erfahrung in VPC, IAM, EKS, S3 und CloudWatch.
  • Kubernetes-Expertise: Clusterbetrieb, Autoscaling, RBAC und Helm.
  • CI/CD und GitOps: Erfahrung mit GitHub Actions, ArgoCD oder ähnlichen Workflows.
  • Netzwerkgrundlagen: CIDR, DNS, Lastenausgleich, VPN und regionale Konnektivität.
  • Beobachtbarkeit: Erfahrung mit Tools wie Prometheus und Grafana.
  • Scripting: Vertrautheit mit Python und Bash für Tools und Automatisierung.
  • Plattformübergreifende Vertrautheit: Praktisches Wissen über Linux- und Windows-Umgebungen. Operative Erfahrung in der Unterstützung von Windows-basierten Workloads ist ein bedeutender Vorteil.
  • Pragmatismus und Verantwortung: Komfortabel in einem schnelllebigen Startup mit sich entwickelnden Prioritäten. Sie übernehmen Verantwortung für Systeme, während Sie eng mit anderen Teams zusammenarbeiten, und sind pragmatisch in Bezug auf Kompromisse zwischen Geschwindigkeit, Zuverlässigkeit und Komplexität.

Bevorzugte Qualifikationen

  • Windows auf Kubernetes: Erfahrung mit Windows-Knotenpools, Windows AMIs und GPU-nahen Komponenten auf K8s.
  • GPU-Planung: Vertrautheit mit der GPU-Planung auf Kubernetes, einschließlich der Konfiguration des NVIDIA-Geräteplugins.
  • Domänen-Workloads: Erfahrung in der Unterstützung von Simulations-, ML- oder Rendering-Workloads in Cloud-Infrastrukturen.
  • AWS-Extras: Einblick in AWS Storage Gateway, Active Directory-Integrationen oder AWS Transfer Family.
  • Service Mesh: Vertrautheit mit Service-Proxy- oder Service-Mesh-Mustern.
  • Container-OS: Erfahrung mit containeroptimierten OS-Images (z.B. Bottlerocket, Packer).
  • Kostenoptimierung: Cloud-Kostenoptimierung im großen Maßstab.

Wichtige Werkzeuge

  • Terraform
  • AWS
  • Kubernetes
  • Helm
  • Kustomize
  • ArgoCD
  • GitHub Actions
  • Prometheus
  • Grafana
  • Docker
  • Python
  • Bash

Was einen großartigen Kandidaten ausmacht

Sie denken in Fehlerarten und bringen proaktiv Probleme zur Sprache. Sie haben eine prinzipielle Sicht auf Sicherheit und wehren sich konstruktiv, wenn Designs unnötige Risiken einführen. Sie kommunizieren klar über Engineering-, Produkt- und kundenorientierte Teams und kennzeichnen Probleme mit einer Dringlichkeit, die dem Kundenimpact angemessen ist. Sie übernehmen die Verantwortung für komplexe Bemühungen von Anfang bis Ende und wissen, wann es angebracht ist, für die saubere Lösung gegenüber der pragmatischen zu drängen.

Das Grundgehalt liegt im Bereich von CAD $145.000–$185.000, abhängig von Fähigkeiten, Qualifikationen und Erfahrungen, plus Eigenkapital, vollständige Gesundheits-/Zahn-/Sehversicherung, Lernstipendium und großzügigen Urlaub. Diese Rolle ist remote-freundlich in ganz Kanada und im US-Pazifischen Nordwesten.

Senior Site Reliability Engineer Arbeitgeber: Parallel Domain

Parallel Domain ist ein hervorragender Arbeitgeber, der seinen Mitarbeitern die Möglichkeit bietet, an der Spitze der Technologie für autonome Systeme zu arbeiten. Mit einem dynamischen Arbeitsumfeld, das von einer Startup-Kultur geprägt ist, fördern wir die persönliche und berufliche Weiterentwicklung durch kontinuierliches Lernen und innovative Projekte. Unsere Mitarbeiter profitieren von flexiblen Arbeitsbedingungen, umfassenden Gesundheitsleistungen und einem attraktiven Gehaltspaket, während sie in einem unterstützenden Team arbeiten, das Wert auf Zusammenarbeit und Kreativität legt.
Parallel Domain

Kontaktperson:

Parallel Domain HR Team

StudySmarter Bewerbungstipps 🤫

So bekommst du den Job: Senior Site Reliability Engineer

Netzwerken ist der Schlüssel

Nutze Plattformen wie LinkedIn, um mit Leuten aus der Branche in Kontakt zu treten. Stell Fragen, teile deine Erfahrungen und zeig Interesse an ihren Projekten. So kannst du wertvolle Einblicke gewinnen und vielleicht sogar Empfehlungen für offene Stellen erhalten.

Sei proaktiv bei der Kontaktaufnahme

Wenn du eine interessante Stelle gefunden hast, zögere nicht, direkt mit dem Team oder dem Hiring Manager in Kontakt zu treten. Frag nach mehr Informationen über die Rolle oder das Unternehmen. Das zeigt dein echtes Interesse und kann dir einen Vorteil verschaffen.

Bereite dich auf technische Interviews vor

Mach dich mit den gängigen Tools und Technologien vertraut, die in der Stellenbeschreibung erwähnt werden, wie AWS, Kubernetes und Terraform. Übe technische Fragen und Szenarien, die dir helfen, deine Fähigkeiten zu demonstrieren. Wir empfehlen, Mock-Interviews mit Freunden oder Kollegen durchzuführen.

Bewirb dich über unsere Website

Vergiss nicht, dich direkt über unsere Website zu bewerben! Dort findest du alle aktuellen Stellenangebote und kannst sicherstellen, dass deine Bewerbung die richtige Aufmerksamkeit erhält. Wir freuen uns darauf, von dir zu hören!

Diese Fähigkeiten machen dich zur top Bewerber*in für die Stelle: Senior Site Reliability Engineer

AWS
Kubernetes
Terraform
GitOps
CI/CD
Networking
Observability
Python
Bash
Windows
GPU Scheduling
Incident Management
Root Cause Analysis
Security Management
Cloud Operations

Tipps für deine Bewerbung 🫡

Sei authentisch!: Wenn du deine Bewerbung schreibst, sei einfach du selbst. Zeig uns, wer du bist und was dich motiviert. Wir suchen nach echten Persönlichkeiten, die zu unserem Team passen!

Betone deine Erfahrungen: Stell sicher, dass du deine relevanten Erfahrungen und Fähigkeiten klar hervorhebst. Zeig uns, wie deine bisherigen Projekte und Erfolge dich auf die Rolle des Senior Site Reliability Engineer vorbereiten.

Mach es übersichtlich: Achte darauf, dass deine Bewerbung gut strukturiert und leicht zu lesen ist. Verwende Absätze, Aufzählungen und klare Überschriften, damit wir schnell die wichtigsten Informationen finden können.

Bewirb dich über unsere Website: Wir empfehlen dir, dich direkt über unsere Website zu bewerben. So stellst du sicher, dass deine Bewerbung an die richtige Stelle gelangt und du alle notwendigen Informationen bereitstellst.

Wie du dich auf ein Vorstellungsgespräch bei Parallel Domain vorbereitest

Verstehe die Infrastruktur

Mach dich mit den spezifischen Technologien vertraut, die in der Stellenbeschreibung erwähnt werden, wie AWS, Kubernetes und Terraform. Zeige im Interview, dass du nicht nur die Grundlagen kennst, sondern auch praktische Erfahrungen hast, die du in früheren Projekten gesammelt hast.

Bereite dich auf technische Fragen vor

Erwarte technische Fragen zu Themen wie CI/CD, Netzwerktechnologien und Observability-Tools. Übe, wie du deine Problemlösungsfähigkeiten demonstrieren kannst, indem du konkrete Beispiele aus deiner bisherigen Arbeit teilst, die deine Expertise unter Beweis stellen.

Zeige deine Teamfähigkeit

Da die Rolle enge Zusammenarbeit mit verschiedenen Teams erfordert, sei bereit, Beispiele zu nennen, wie du in der Vergangenheit erfolgreich mit anderen zusammengearbeitet hast. Betone deine Kommunikationsfähigkeiten und wie du Konflikte konstruktiv gelöst hast.

Denke an Sicherheit

Sicherheit ist ein zentraler Aspekt dieser Position. Bereite dich darauf vor, über Sicherheitspraktiken und -richtlinien zu sprechen, die du in deinen vorherigen Rollen implementiert hast. Zeige, dass du proaktiv Risiken identifizieren und minimieren kannst.

Senior Site Reliability Engineer
Parallel Domain
Premium gehen

Schneller zum Traumjob mit Premium

Deine Bewerbung wird als „Top Bewerbung“ bei unseren Partnern gekennzeichnet
Individuelles Feedback zu Lebenslauf und Anschreiben, einschließlich der Anpassung an spezifische Stellenanforderungen
Gehöre zu den ersten Bewerbern für neue Stellen mit unserem AI Bewerbungsassistenten
1:1 Unterstützung und Karriereberatung durch unsere Career Coaches
Premium gehen

Geld-zurück-Garantie, wenn du innerhalb von 6 Monaten keinen Job findest

>