Senior Site Reliability Engineer
Senior Site Reliability Engineer

Senior Site Reliability Engineer

Berlin Vollzeit 43200 - 72000 € / Jahr (geschätzt) Home Office möglich (teilweise)
Go Premium
Talon.One

Auf einen Blick

  • Aufgaben: Übernehme die Verantwortung für die Zuverlässigkeit der Talon.One-Plattform und verbessere kontinuierlich die Betriebsabläufe.
  • Arbeitgeber: Talon.One, ein führendes Unternehmen für Incentive-Engines mit namhaften Kunden wie Adidas und Sephora.
  • Mitarbeitervorteile: Jährliches Lernbudget, 30 Tage Urlaub, Homeoffice-Zuschuss und internationale Arbeitsmöglichkeiten.
  • Warum dieser Job: Gestalte die Zukunft der Zuverlässigkeit in einem dynamischen Team und arbeite mit modernster Technologie.
  • Gewünschte Qualifikationen: Erfahrung in der Systemzuverlässigkeit, Kubernetes und Cloud-Umgebungen, sowie starke Kommunikationsfähigkeiten.
  • Andere Informationen: Wachstumsorientierte Umgebung mit einem engagierten Team von über 90 Fachleuten in Berlin.

Das voraussichtliche Gehalt liegt zwischen 43200 - 72000 € pro Jahr.

Talon.One ist die leistungsstärkste Incentives-Engine, die Loyalität, Promotionen und Gamification in einer ganzheitlichen Plattform vereint. Unterstützt durch Sicherheits- und Skalierbarkeitsstandards auf Unternehmensniveau, ermöglicht Talon.One Unternehmen, personalisierte, profitable Promotionen und Loyalitätsprogramme mit beliebigen Daten zu erstellen. Heute arbeiten über 250 der beliebtesten Marken der Welt, darunter Adidas, Sephora und Carlsberg, mit Talon.One, um eine tiefere Interaktion und dauerhafte Loyalität ihrer Kunden zu fördern.

Als unser Senior Site Reliability Engineer werden Sie die Zuverlässigkeit der Talon.One-Plattform verantworten und vorantreiben. Dies ist eine praktische Senior-Rolle mit breitem Einfluss. Sie werden gestalten, wie wir Zuverlässigkeit im gesamten Ingenieurwesen entwerfen, messen und verbessern. Sie werden unsere Zuverlässigkeitsgrundlagen aufbauen und weiterentwickeln, von der Observabilitätsarchitektur und SLO-Frameworks bis hin zu Incident Management und Produktionsstandards. Sie werden nicht nur auf Vorfälle reagieren, sondern systematisch deren Ursachen beseitigen. Sie werden den operativen Aufwand durch Automatisierung reduzieren, die Signalqualität unserer Überwachungssysteme verbessern und Ingenieurteams anleiten, widerstandsfähige, skalierbare Dienste von Grund auf zu entwickeln.

Wenn Sie es genießen, praktische Systeme zu bauen, technische Richtungen festzulegen und messbare Verbesserungen der Zuverlässigkeit über eine komplexe verteilte Plattform hinweg zu liefern, ist diese Rolle genau das Richtige für Sie.

WENN SIE HIER SIND, WERDEN SIE:

  • Die Zuverlässigkeitsergebnisse: Verfügbarkeit, Latenz, Fehlerquoten und die allgemeine betriebliche Gesundheit verantworten.
  • SLOs und Fehlerbudgets definieren und einführen, um klare Zuverlässigkeitsziele festzulegen und die Priorisierung im Ingenieurwesen voranzutreiben.
  • Die Ingenieure mit Designs, Standards und Best Practices anleiten, um Zuverlässigkeit und Stabilität im Talon.One-Produkt sicherzustellen.
  • Die Observabilität über Metriken, Protokolle und Traces aufbauen und weiterentwickeln, sodass das System verständlich und nicht nur überwacht wird.
  • Unsere Monitoring-/Observabilitätsarchitektur end-to-end entwerfen und verbessern, einschließlich Datenpipelines, Signalqualität, Alarmstrategie, Dashboards und SLO-Implementierung sowie kostensensible Skalierbarkeit.
  • Den operativen Aufwand durch den Aufbau von Zuverlässigkeitstools und Automatisierung beseitigen, die repetitive Arbeiten reduzieren und die Systemresilienz verbessern.
  • Strukturelle Verbesserungen vorantreiben, indem die zugrunde liegenden Ursachen von Vorfällen identifiziert und angegangen werden, nicht nur deren Symptome verwaltet werden.
  • Das Incident Management kontinuierlich verbessern: Bereitschaft zur Rufbereitschaft, Handhabung von Schweregraden, Kommunikation mit Stakeholdern, fehlerfreie Nachbesprechungen und starke Nachverfolgung.
  • Kontinuierliche Verbesserungen vorantreiben: Rauschende Alarme reduzieren, Zuverlässigkeitslücken schließen und wiederkehrende operative Arbeiten automatisieren.
  • Tief in Kubernetes- und Cloud-Umgebungen, insbesondere Google Cloud, arbeiten und Deployments sicherer und vorhersehbarer machen.
  • Nach GitOps-Prinzipien arbeiten: Zuverlässigkeitsänderungen sind versioniert, überprüft, nachvollziehbar und reproduzierbar.

WAS WIR VON IHNEN ERWARTEN:

  • Ein starkes Verantwortungsbewusstsein für die Produktionsgesundheit, proaktive Verbesserungen in Stabilität, Leistung und Resilienz voranzutreiben.
  • Die Fähigkeit, SLO-gesteuerte Zuverlässigkeitspraktiken in einer Organisation zu etablieren und weiterzuentwickeln, die diese Fähigkeit aufbaut.
  • Starke Observabilitätsinstinkte mit Fokus auf Signal statt Rauschen, Metriken, Protokolle und Traces in umsetzbare Erkenntnisse durch saubere Dashboards, sinnvolle Alarme und gut definierte SLOs umzuwandeln, anstatt Alarmmüdigkeit zu erzeugen.
  • Praktische Erfahrung mit dem Grafana-Stack, einschließlich Prometheus, Grafana Alloy, Loki und Tempo, mit praktischem Wissen über Pipeline-Design, Skalierungsüberlegungen und die Aufrechterhaltung einer hohen Signalqualität.
  • Erfahrung im Entwerfen oder signifikanten Verbessern von Monitoring- und Observabilitätsarchitekturen über Sammlung, Speicherung, Aufbewahrung, Kardinalitätskontrolle, Tagging-Strategie, Kostenbewusstsein und Sicherstellung der Zuverlässigkeit des Observabilitäts-Stacks selbst.
  • Solides Verständnis von Kubernetes-Workloads, Netzwerken, Skalierungsmustern und Fehlermodi, mit praktischer Erfahrung im Betrieb von Systemen in Google Cloud-Umgebungen.
  • Verständnis des OpenTelemetry-Protokolls und seiner Rolle in modernen Observabilitätsarchitekturen.
  • Eine proaktive Denkweise. Sie bringen Lösungen, artikulieren klar Designoptionen und Abwägungen und treiben Initiativen bis zur Vollendung voran.
  • Starke Kommunikationsfähigkeiten unter Druck. Sie erklären während Vorfällen klar, stimmen Teams schnell ab und dokumentieren Systeme so, dass andere folgen können.
  • Die Fähigkeit, die Zuverlässigkeitsstandards über Teams hinweg zu erhöhen, indem Erwartungen gesetzt, Ingenieurpraktiken beeinflusst und eine Kultur der Observabilität und operativen Exzellenz verankert wird.

UNSER TECH-STACK:

  • Datadog und Datadog-Agenten
  • Grafana Alloy, Prometheus, Loki, Tempo
  • OpenTelemetry
  • Kubernetes, das auf Google Cloud läuft
  • GitOps und ArgoCD
  • Thanos

WAS SIE ERWARTET:

  • Über 90 Ingenieure, Produktmanager und Produktdesigner in Berlin
  • Führungskräfte mit über 8 Jahren Erfahrung im Aufbau unserer Promotions-Engine
  • €1.000 jährliches Lernbudget, voller Zugang zu LinkedIn Learning und kostenlose Deutschkurse zur Verbesserung Ihrer Fähigkeiten
  • 30 Tage Jahresurlaub, plus zusätzliche bezahlte Tage für Ihren Geburtstag und Umzugstag
  • Budget für die Homeoffice-Ausstattung, monatliche Homeoffice-Zulage
  • Freiheit, bis zu 90 Tage weltweit aus dem Ausland zu arbeiten!
  • Unterstützung für psychische Gesundheit mit nilo.health und eine ermäßigte Mitgliedschaft im Urban Sports Club
  • 20% Unternehmenszuschuss auf Ihre Rentenbeiträge
  • Subventioniertes BVG-ÖPNV-Ticket und ein hundefreundliches Büro in Berlin, in dem Ihr pelziger Freund willkommen ist
  • Leasen Sie Ihr ideales Fahrrad über BusinessBike

Senior Site Reliability Engineer Arbeitgeber: Talon.One

Talon.One ist ein hervorragender Arbeitgeber, der seinen Mitarbeitern nicht nur ein dynamisches und innovatives Arbeitsumfeld in Berlin bietet, sondern auch zahlreiche Vorteile wie ein jährliches Weiterbildungsbudget von 1.000 €, flexible Homeoffice-Möglichkeiten und eine hundefreundliche Bürokultur. Mit einem engagierten Team von über 90 Fachleuten und einer starken Fokussierung auf persönliche und berufliche Entwicklung, fördert Talon.One eine Kultur des kontinuierlichen Lernens und der Zusammenarbeit, die es den Mitarbeitern ermöglicht, ihre Fähigkeiten zu erweitern und an bedeutenden Projekten zu arbeiten.
Talon.One

Kontaktperson:

Talon.One HR Team

StudySmarter Bewerbungstipps 🤫

So bekommst du den Job: Senior Site Reliability Engineer

Tipp Nummer 1

Sei proaktiv und nutze dein Netzwerk! Sprich mit Leuten, die bereits bei Talon.One arbeiten oder in der Branche tätig sind. Oft erfährst du so Insider-Infos über offene Stellen oder den Bewerbungsprozess.

Tipp Nummer 2

Bereite dich auf technische Interviews vor! Da du dich für eine Rolle als Senior Site Reliability Engineer bewirbst, solltest du deine Kenntnisse in Kubernetes, Cloud-Umgebungen und Monitoring-Tools auffrischen. Mach ein paar Übungsfragen und sei bereit, deine Erfahrungen zu teilen.

Tipp Nummer 3

Zeige deine Leidenschaft für das Thema! Wenn du im Interview über deine Projekte sprichst, betone, wie du Probleme gelöst und Systeme verbessert hast. Das zeigt, dass du nicht nur die Theorie kennst, sondern auch praktisch anpacken kannst.

Tipp Nummer 4

Bewirb dich direkt über unsere Website! So stellst du sicher, dass deine Bewerbung schnell gesehen wird. Und vergiss nicht, ein persönliches Anschreiben beizufügen, in dem du erklärst, warum du perfekt zu Talon.One passt.

Diese Fähigkeiten machen dich zur top Bewerber*in für die Stelle: Senior Site Reliability Engineer

Zuverlässigkeitsmanagement
SLO-Entwicklung
Überwachungsarchitektur
Kubernetes
Google Cloud
Grafana Stack (Prometheus, Grafana Alloy, Loki, Tempo)
OpenTelemetry
Automatisierung
Incident Management
Kommunikationsfähigkeiten
Datenanalyse
Proaktive Problemlösung
GitOps-Prinzipien
Signalqualität
Skalierbarkeit

Tipps für deine Bewerbung 🫡

Sei du selbst!: Wenn du deine Bewerbung schreibst, sei authentisch und zeig uns, wer du wirklich bist. Wir suchen nach Menschen, die nicht nur die richtigen Fähigkeiten haben, sondern auch gut ins Team passen.

Mach es konkret!: Verwende konkrete Beispiele aus deiner bisherigen Erfahrung, um zu zeigen, wie du die Anforderungen der Stelle erfüllst. Das hilft uns, deine Fähigkeiten besser zu verstehen und wie du zur Verbesserung unserer Plattform beitragen kannst.

Achte auf die Details!: Überprüfe deine Bewerbung auf Rechtschreib- und Grammatikfehler. Eine sorgfältige Bewerbung zeigt uns, dass du Wert auf Qualität legst und dir Mühe gibst, was besonders in einer technischen Rolle wichtig ist.

Bewirb dich über unsere Website!: Wir empfehlen dir, dich direkt über unsere Website zu bewerben. So stellst du sicher, dass deine Bewerbung schnell und effizient bei uns ankommt und wir sie zeitnah prüfen können.

Wie du dich auf ein Vorstellungsgespräch bei Talon.One vorbereitest

Verstehe die Rolle und das Unternehmen

Mach dich mit Talon.One und der spezifischen Rolle des Senior Site Reliability Engineer vertraut. Schau dir an, wie sie ihre Plattform gestalten und welche Technologien sie verwenden. Das zeigt dein Interesse und hilft dir, gezielte Fragen zu stellen.

Bereite konkrete Beispiele vor

Denke an spezifische Situationen aus deiner bisherigen Erfahrung, in denen du Probleme gelöst oder Verbesserungen in der Zuverlässigkeit erreicht hast. Sei bereit, diese Beispiele zu teilen, um deine Fähigkeiten und deinen Einfluss zu demonstrieren.

Technisches Wissen auffrischen

Stelle sicher, dass du mit den Technologien, die Talon.One verwendet, gut vertraut bist, insbesondere mit Kubernetes, Grafana und Google Cloud. Bereite dich darauf vor, technische Fragen zu beantworten und deine Erfahrungen mit diesen Tools zu erläutern.

Fragen zur Unternehmenskultur stellen

Zeige Interesse an der Unternehmenskultur von Talon.One, indem du Fragen stellst, die auf Teamdynamik, Zusammenarbeit und die Werte des Unternehmens abzielen. Das zeigt, dass du nicht nur an der Rolle, sondern auch am Unternehmen selbst interessiert bist.

Senior Site Reliability Engineer
Talon.One
Standort: Berlin
Premium gehen

Schneller zum Traumjob mit Premium

Deine Bewerbung wird als „Top Bewerbung“ bei unseren Partnern gekennzeichnet
Individuelles Feedback zu Lebenslauf und Anschreiben, einschließlich der Anpassung an spezifische Stellenanforderungen
Gehöre zu den ersten Bewerbern für neue Stellen mit unserem AI Bewerbungsassistenten
1:1 Unterstützung und Karriereberatung durch unsere Career Coaches
Premium gehen

Geld-zurück-Garantie, wenn du innerhalb von 6 Monaten keinen Job findest

>