Auf einen Blick
- Aufgaben: Leite ein Team von SRE-Profis und optimiere unsere Cloud-Infrastruktur.
- Arbeitgeber: Wir sind ein innovatives Unternehmen in Stuttgart, das auf digitale Lösungen spezialisiert ist.
- Mitarbeitervorteile: Genieße flexible Arbeitszeiten, hybrides Arbeiten und zahlreiche Unternehmensvorteile.
- Warum dieser Job: Werde Teil eines dynamischen Teams, das an spannenden Projekten arbeitet und echten Einfluss hat.
- Gewünschte Qualifikationen: Erfahrung in SRE oder Engineering-Management sowie Kenntnisse in Azure und DevOps sind erforderlich.
- Andere Informationen: Wir suchen eine visionäre Führungskraft, die unser SRE-Team auf das nächste Level bringt.
Das voraussichtliche Gehalt liegt zwischen 72000 - 84000 € pro Jahr.
Standort: Stuttgart | Vollzeit | Hybrid
Über die Rolle
Wir suchen einen erfahrenen und visionären Leiter, der unsere Funktion für Site Reliability Engineering (SRE) leitet. Diese Rolle ist verantwortlich für den Aufbau und die Skalierung der SRE-Organisation, die Ausrichtung der operativen Exzellenz an der Geschäftsstrategie sowie die Gewährleistung der Resilienz, Sicherheit und Leistung unserer Plattformen.
Hauptverantwortlichkeiten
- Teamführung & Entwicklung: Aufbau, Leitung und Mentoring eines leistungsstarken SRE-Teams. Förderung einer Kultur der Zusammenarbeit, Verantwortung und kontinuierlichen Verbesserung. Festlegung messbarer Ziele für individuelles und Teamwachstum sowie Durchführung regelmäßiger Leistungs- und Feedbackgespräche.
- Strategische Planung & Roadmap: Definition und Pflege einer SRE-Roadmap, die mit den übergeordneten Technologie- und Geschäftszielen übereinstimmt. Leitung der Planung und Umsetzung strategischer Initiativen, die sich auf Skalierbarkeit, Zuverlässigkeit und Kosteneffizienz konzentrieren.
- Betriebsintegration: Leitung der Vereinheitlichung und operativen Integration von Systemen über mehrere Produktlinien hinweg, einschließlich derjenigen aus kürzlichen Übernahmen, um konsistente Zuverlässigkeits- und Leistungsstandards sicherzustellen.
- Cloud-Infrastrukturstrategie: Steuerung der Weiterentwicklung der Cloud-Strategie mit Fokus auf schrittweise Migrationen zu Cloud-Plattformen (hauptsächlich Azure). Sicherstellung sicherer, skalierbarer und kosteneffizienter Cloud-Operationen.
- Business Continuity & Disaster Recovery: Verantwortung für die Verbesserung der BCDR-Strategien zum Schutz vor Dienstunterbrechungen und Datenverlust. Sicherstellung, dass Resilienzplanung in alle Infrastruktur- und Plattformentscheidungen eingebettet ist.
- Monitoring & Observability: Optimierung und Skalierung von Observability-Tools zur Ermöglichung proaktiver Vorfallreaktionen. Verantwortung für den Lebenszyklus des Monitorings – Tools, Abdeckung, Alarmierung und Berichterstattung.
- Optimierung des Bereitstellungsprozesses: Förderung von Effizienz und Zuverlässigkeit in CI/CD-Pipelines, Förderung von Automatisierung und Best Practices über Umgebungen und Teams hinweg.
- SRE-Metriken & Zuverlässigkeitsengineering: Implementierung und Pflege von Metriken wie SLIs, SLOs und Fehlerbudgets zur Überwachung und Verbesserung der Servicezuverlässigkeit über Systeme hinweg.
- Vorfall- & Bereitschaftsmanagement: Etablierung und kontinuierliche Verfeinerung des Vorfallmanagementprozesses, einschließlich Bereitschaftsrotationen, Reaktionsprotokollen und Nachbesprechungen nach Vorfällen.
- Risiko- & Sicherheitsüberwachung: Identifizierung und Minderung von Infrastruktur- und Betriebsrisiken, Sicherstellung, dass Systeme konform und widerstandsfähig gegenüber Sicherheitsbedrohungen sind.
- Servicebetrieb & Unterstützung: Überwachung interner Service-Desk-Funktionen, Förderung der SLA-Leistung und Verbesserung der operativen Reaktionsfähigkeit.
- Teamprozess & Planung: Leitung von Planungszyklen, Retrospektiven und agilen Prozessverbesserungen zur Gewährleistung von Transparenz, Ausrichtung und Anpassungsfähigkeit.
- Berichterstattung & Sichtbarkeit: Bereitstellung von Berichten auf Führungsebene und Dashboards, die wichtige Metriken, Trends und Verbesserungsbereiche in Bezug auf Zuverlässigkeit und Betrieb hervorheben.
- Stakeholder-Engagement: Als primärer Ansprechpartner für interne Teams, externe Partner und Anbieter fungieren. Erwartungen managen, Ausrichtung sicherstellen und hohe Servicestandards liefern.
- Dokumentation & Wissensaustausch: Sicherstellung, dass Prozesse, Systeme und Verfahren gut dokumentiert sind, um Skalierung, Resilienz und Teamautonomie zu unterstützen.
Qualifikationen
- Nachgewiesene Erfahrung in einer leitenden SRE- oder Engineering-Operations-Rolle.
- Tiefes Wissen über SRE-Methoden, Cloud-Plattformen (insbesondere Azure) und moderne DevOps-Praktiken.
- Starker Führungshintergrund mit Erfahrung in der Mentoring von Teams und der Förderung organisatorischer Veränderungen.
- Praktische Erfahrung mit Infrastrukturautomatisierung (z.B. Terraform, Ansible), CI/CD-Tools und Container-Orchestrierung (Kubernetes, Docker).
- Expertise in Vorfallreaktion, BCDR-Planung und SRE-Leistungsbewertungsrahmen.
- Fähigkeit, technische Operationen mit Geschäftszielen in Einklang zu bringen und effektiv auf allen Ebenen der Organisation zu kommunizieren.
- Erfahrung im Management komplexer Cloud-Migrationen und Systemintegrationen.
Head of Site Reliability Engineering Arbeitgeber: LinkedIn
Kontaktperson:
LinkedIn HR Team
StudySmarter Bewerbungstipps 🤫
So bekommst du den Job: Head of Site Reliability Engineering
✨Netzwerk aufbauen
Nutze Plattformen wie LinkedIn, um mit anderen Fachleuten im Bereich Site Reliability Engineering in Kontakt zu treten. Vernetze dich mit Personen, die bereits in ähnlichen Positionen arbeiten, und tausche dich über aktuelle Trends und Herausforderungen aus.
✨Fachliche Weiterbildung
Halte dich über die neuesten Entwicklungen in der SRE-Welt auf dem Laufenden. Besuche Webinare, Konferenzen oder Workshops, die sich mit Cloud-Strategien, CI/CD-Pipelines und Incident Management beschäftigen, um dein Wissen zu vertiefen und deine Expertise zu zeigen.
✨Praktische Erfahrungen sammeln
Falls möglich, arbeite an Projekten, die dir praktische Erfahrungen in der Automatisierung von Infrastruktur, Cloud-Migrationen oder der Implementierung von Monitoring-Tools bieten. Diese Erfahrungen sind entscheidend, um deine Fähigkeiten im Bewerbungsgespräch zu demonstrieren.
✨Vorbereitung auf das Interview
Bereite dich auf typische Fragen vor, die sich auf Teamführung, strategische Planung und Incident Management beziehen. Überlege dir konkrete Beispiele aus deiner bisherigen Karriere, die deine Erfolge und deinen Führungsstil verdeutlichen.
Diese Fähigkeiten machen dich zur top Bewerber*in für die Stelle: Head of Site Reliability Engineering
Tipps für deine Bewerbung 🫡
Verstehe die Rolle: Lies die Stellenbeschreibung sorgfältig durch und mache dir Notizen zu den wichtigsten Anforderungen und Verantwortlichkeiten. Überlege, wie deine Erfahrungen und Fähigkeiten mit den Erwartungen des Unternehmens übereinstimmen.
Anpassung des Lebenslaufs: Gestalte deinen Lebenslauf so, dass er die relevanten Erfahrungen und Fähigkeiten hervorhebt, die für die Position des Head of Site Reliability Engineering wichtig sind. Betone deine Führungserfahrung, Kenntnisse in SRE-Methoden und Cloud-Plattformen sowie Erfolge in der Teamleitung.
Motivationsschreiben: Verfasse ein überzeugendes Motivationsschreiben, das deine Leidenschaft für die Rolle und das Unternehmen zeigt. Gehe auf spezifische Beispiele ein, die deine Eignung für die Position unterstreichen, und erläutere, wie du zur Weiterentwicklung des SRE-Teams beitragen kannst.
Prüfung und Einreichung: Bevor du deine Bewerbung einreichst, überprüfe alle Dokumente auf Vollständigkeit und Fehler. Achte darauf, dass alle Informationen klar und präzise sind. Reiche deine Bewerbung über unsere Website ein, um sicherzustellen, dass sie ordnungsgemäß bearbeitet wird.
Wie du dich auf ein Vorstellungsgespräch bei LinkedIn vorbereitest
✨Verstehe die SRE-Prinzipien
Stelle sicher, dass du ein tiefes Verständnis der SRE-Methoden und -Praktiken hast. Bereite dich darauf vor, spezifische Beispiele zu geben, wie du diese Prinzipien in der Vergangenheit angewendet hast, um die Zuverlässigkeit und Leistung von Systemen zu verbessern.
✨Fokussiere dich auf Teamführung
Da die Rolle eine starke Führungsposition beinhaltet, sei bereit, über deine Erfahrungen in der Teamentwicklung und -führung zu sprechen. Betone, wie du eine Kultur der Zusammenarbeit und kontinuierlichen Verbesserung gefördert hast.
✨Bereite strategische Initiativen vor
Denke über strategische Pläne nach, die du in früheren Positionen umgesetzt hast, insbesondere in Bezug auf Cloud-Migrationen oder die Optimierung von CI/CD-Pipelines. Sei bereit, konkrete Ergebnisse und Herausforderungen zu diskutieren.
✨Kommunikation ist der Schlüssel
Da du als Hauptansprechpartner für interne Teams und externe Partner fungieren wirst, übe, wie du technische Informationen klar und präzise kommunizieren kannst. Zeige, dass du in der Lage bist, komplexe technische Konzepte für verschiedene Zielgruppen verständlich zu machen.