Staff Site Reliability Engineer

Jobbörse

Unternehmen

Replit, Inc.

Staff Site Reliability Engineer

Vollzeit 60000 - 80000 € / Jahr (geschätzt) Kein Homeoffice möglich

Auf einen Blick

Aufgaben: Gestalte und implementiere Lösungen zur Überwachung und Automatisierung für unsere Infrastruktur.
Unternehmen: Replit, die Plattform für kreative Softwareentwicklung mit Millionen von Nutzern weltweit.
Vorteile: Wettbewerbsfähiges Gehalt, Gesundheitsleistungen, flexible Arbeitszeiten und Weiterbildungsmöglichkeiten.
Weitere Informationen: Dynamisches Umfeld mit großartigen Karrieremöglichkeiten und einem Fokus auf Teamarbeit.
Warum dieser Job: Arbeite an innovativen Projekten und mache Programmierung für alle zugänglich.
Qualifikationen: 8-10 Jahre Erfahrung in Site Reliability Engineering und starke Programmierkenntnisse in Python oder Go.

Das prognostizierte Gehalt liegt zwischen 60000 - 80000 € pro Jahr.

Replit ist die agentische Softwareerstellungsplattform, die es jedem ermöglicht, Anwendungen mit natürlicher Sprache zu erstellen. Mit Millionen von Nutzern weltweit demokratisiert Replit die Softwareentwicklung, indem traditionelle Barrieren zur Anwendungsentwicklung abgebaut werden.

Über die Rolle

Schließen Sie sich unserem Site Reliability Engineering (SRE) Team an und helfen Sie, die Zuverlässigkeit, Skalierbarkeit und Leistung der Infrastruktur von Replit sicherzustellen, die Millionen von Entwicklern weltweit dient. Als Staff Site Reliability Engineer werden Sie die Lücke zwischen Entwicklung und Betrieb überbrücken, Automatisierung implementieren und Best Practices etablieren, die es unserer Plattform ermöglichen, effizient zu skalieren und gleichzeitig eine hohe Verfügbarkeit aufrechtzuerhalten. Wir suchen Staff SREs, die leidenschaftlich daran interessiert sind, resiliente Systeme in großem Maßstab zu bauen und zu pflegen.

Ihre Mission wird es sein, proaktiv Zuverlässigkeitsprobleme in unserem Stack zu finden und zu analysieren, dann Software und Systeme zu entwerfen und zu implementieren, um schrittweise Verbesserungen zu erzielen. Sie werden robuste Beobachtbarkeitssysteme entwerfen, die Incident-Response leiten, betriebliche Aufgaben automatisieren und kontinuierlich die Zuverlässigkeit unserer Infrastruktur verbessern, während Sie das breitere Engineering-Team betreuen und schulen, um Zuverlässigkeit zu einem Kernwert bei Replit zu machen.

Sie werden:

Architektur und Implementierung von Beobachtbarkeit: Entwerfen, bauen und leiten Sie die Implementierung umfassender Überwachungs-, Protokollierungs- und Nachverfolgungslösungen. Erstellen Sie Dashboards und Metriken, die Echtzeit-Einblicke in die Systemgesundheit und -leistung bieten und proaktive Problemerkennung ermöglichen.
Definition und Umsetzung von Zuverlässigkeitsstandards: Arbeiten Sie mit Produkt- und Engineering-Teams zusammen, um Service Level Objectives (SLOs) und Service Level Indicators (SLIs) zu definieren, umzusetzen und zu verfolgen. Bauen Sie Systeme, um diese Metriken zu überwachen und zu berichten, und halten Sie die Teams verantwortlich, um sicherzustellen, dass wir hohe Zuverlässigkeitsstandards aufrechterhalten, während wir die Innovationsgeschwindigkeit ausbalancieren.
Leitung des Incident Managements und der Reaktion: Agieren Sie als Senior Leader während hochgradig wirkungsvoller Vorfälle und leiten Sie das Team zur schnellen Lösung. Führen Sie gründliche, schuldlose Nachbesprechungen durch und treiben Sie die Umsetzung präventiver Maßnahmen voran.
Automatisierung und Infrastruktur als Code: Architektieren, bauen und verbessern Sie Automatisierung, um Arbeitsaufwand und operative Tätigkeiten zu eliminieren. Entwerfen und pflegen Sie CI/CD-Pipelines und Infrastrukturautomatisierung mit Tools wie Terraform oder Pulumi.
Optimierung der Leistung auf Kubernetes: Arbeiten Sie mit den Kerninfrastruktur- und Produktteams zusammen, um unsere großangelegten Cloud-Bereitstellungen zu optimieren, mit einem tiefen Fokus auf Kubernetes, Docker und GCP.
Debugging und Härtung verteilter Systeme: Tauchen Sie tief in das Debugging extrem schwieriger technischer Probleme im gesamten Stack ein. Nutzen Sie Ihre Erkenntnisse, um langfristige Lösungen zu entwerfen und umzusetzen, die unsere Systeme und Produkte robuster, bedienbarer und einfacher zu diagnostizieren machen.
Bereitstellung von Leitungsniveau-Guidance: Überprüfen Sie Feature- und Systemdesigns im gesamten Unternehmen und agieren Sie als Schlüsselverantwortlicher für die Zuverlässigkeit, Skalierbarkeit, Sicherheit und operationale Integrität dieser Designs.
Bildung und Mentoring: Bilden, betreuen und halten Sie das breitere Engineering-Team verantwortlich, um die Zuverlässigkeit unserer Systeme zu verbessern und Zuverlässigkeit zu einem Kernwert der Replit-Engineering-Kultur zu machen.
Erstellung und Integration: Schreiben Sie qualitativ hochwertigen, gut getesteten Code in Python oder Go, um die Bedürfnisse Ihrer Kunden zu erfüllen, sei es beim Bau neuer interner Tools oder bei der Integration mit Drittanbietern.

Erforderliche Fähigkeiten und Erfahrungen:

8-10 Jahre Erfahrung im Site Reliability Engineering oder ähnlichen Rollen (z.B. DevOps, Systems Engineering, Infrastructure Engineering).
Starke Programmierkenntnisse in Sprachen wie Python oder Go.
Tiefes Verständnis verteilter Systeme.
Tiefe Erfahrung mit Container-Orchestrierungsplattformen, insbesondere Kubernetes, und cloud-nativen Technologien.
Nachweisliche Erfolge bei der Gestaltung, Implementierung und Wartung komplexer Überwachungs- und Beobachtbarkeitssysteme.
Starke Fähigkeiten im Incident Management mit umfangreicher Erfahrung in der Leitung der Incident-Reaktion für komplexe Systeme.
Erfahrung mit Infrastruktur als Code und Konfigurationsmanagement-Tools.
Ausgezeichnete schriftliche und mündliche Kommunikationsfähigkeiten.
Starke zwischenmenschliche Fähigkeiten mit Erfahrung in der Zusammenarbeit mit und Mentoring von Ingenieuren auf verschiedenen Ebenen.
Leidenschaft für die Zugänglichkeit der Softwareerstellung und die Befähigung der nächsten Generation von Entwicklern.

Bonuspunkte:

Tiefe Erfahrung mit Google Cloud Platform (GCP) Diensten und Tools.
Expertenwissen über moderne Beobachtungsplattformen.
Erfahrung in der Gestaltung und dem Bau zuverlässiger Systeme, die hohe Durchsatzraten und niedrige Latenzzeiten bewältigen können.
Signifikante Erfahrung mit Go und Terraform.
Vertrautheit mit der Arbeit in schnell wachsenden Start-up-Umgebungen.

Vorteile für Vollzeitmitarbeiter:

Wettbewerbsfähiges Gehalt & Eigenkapital
401(k)-Programm mit 4% Matching (nur USA)
Kranken-, Zahn-, Augen- und Lebensversicherung
Kurz- und Langzeitbehinderung
Bezahlter Eltern-, medizinischer und Pflegeurlaub
Flexible Freizeit (FTO) + Feiertage
Fahrgemeinschaftsleistungen (nur im Büro)
Monatlicher Wellness-Zuschuss
Autonome Arbeitsumgebung
Rückerstattung für Büroeinrichtung (nur im Büro)
Vierteljährliche Teambesprechungen
Büroannehmlichkeiten (nur im Büro)

Um mehr darüber zu erfahren, was wir tun, besuchen Sie unseren Blog oder sehen Sie sich unsere TED-Talks an.

Um unsere Mission zu erreichen, das Programmieren zugänglicher zu machen, benötigen wir ein Team, das die Welt repräsentiert. Wir begrüßen Ihre einzigartige Perspektive und Erfahrungen.

Staff Site Reliability Engineer Arbeitgeber: Replit, Inc.

Replit ist ein hervorragender Arbeitgeber, der eine dynamische und inklusive Arbeitsumgebung bietet, in der Mitarbeiter die Möglichkeit haben, an innovativen Projekten zu arbeiten und ihre Fähigkeiten im Bereich Site Reliability Engineering weiterzuentwickeln. Mit einem starken Fokus auf Teamarbeit, kontinuierlichem Lernen und einer flexiblen Arbeitskultur fördert Replit das Wachstum seiner Mitarbeiter und bietet gleichzeitig attraktive Vorteile wie wettbewerbsfähige Gehälter, Gesundheitsleistungen und flexible Urlaubsregelungen. Die einzigartige Gelegenheit, an einer Plattform zu arbeiten, die Softwareentwicklung für alle zugänglich macht, macht Replit zu einem bedeutungsvollen Arbeitsplatz für technikbegeisterte Talente.

Kontaktdaten:

Replit, Inc. Recruiting-Team

Profil von Replit, Inc. anzeigen

StudySmarter Expertenrat🤫

Wir sind der Meinung, dass Sie so Staff Site Reliability Engineer erhalten könnten

✨Tipp Nummer 1

Mach dir ein starkes Netzwerk! Nutze Plattformen wie LinkedIn, um mit Leuten aus der Branche in Kontakt zu treten. Lass uns wissen, wenn du Fragen hast oder Unterstützung brauchst!

✨Tipp Nummer 2

Bereite dich auf technische Interviews vor! Übe Coding-Challenges und Systemdesign-Fragen, die für die Rolle als Staff SRE relevant sind. Wir haben viele Ressourcen, die dir dabei helfen können!

✨Tipp Nummer 3

Zeige deine Leidenschaft für Zuverlässigkeit! Teile Beispiele von Projekten, bei denen du Systeme optimiert oder Probleme gelöst hast. Das zeigt, dass du wirklich für die Rolle brennst!

✨Tipp Nummer 4

Bewirb dich direkt über unsere Website! So kannst du sicherstellen, dass deine Bewerbung die richtigen Leute erreicht. Und vergiss nicht, uns bei Fragen zu kontaktieren!

Wir glauben, dass du diese Fähigkeiten brauchst, um Staff Site Reliability Engineer mit Bravour zu bestehen

Site Reliability Engineering

DevOps

Systems Engineering

Infrastructure Engineering

Python

Verteilte Systeme

Kubernetes

Cloud-native Technologien

Monitoring und Observability Lösungen

Incident Management

Infrastructure as Code

Terraform

Pulumi

Kommunikationsfähigkeiten

Einige Tipps für deine Bewerbung 🫡

Sei du selbst!:Wenn du deine Bewerbung schreibst, sei authentisch und zeig uns, wer du wirklich bist. Wir suchen nach Menschen, die Leidenschaft für das haben, was sie tun, also lass das in deinen Worten durchscheinen!

Mach es konkret!:Verwende konkrete Beispiele aus deiner bisherigen Erfahrung, um zu zeigen, wie du die Anforderungen der Stelle erfüllst. Erzähl uns von Projekten, an denen du gearbeitet hast, und den Herausforderungen, die du gemeistert hast.

Achte auf die Details!:Überprüfe deine Bewerbung auf Rechtschreib- und Grammatikfehler. Eine gut geschriebene Bewerbung zeigt, dass du dir Mühe gibst und professionell bist. Lass uns wissen, dass du die Details im Blick hast!

Bewirb dich über unsere Website!:Wir empfehlen dir, deine Bewerbung direkt über unsere Website einzureichen. So stellst du sicher, dass alles reibungslos läuft und wir deine Unterlagen schnell bearbeiten können. Wir freuen uns darauf, von dir zu hören!

Wie man sich auf ein Vorstellungsgespräch bei Replit, Inc. vorbereitet

✨Verstehe die Rolle und das Unternehmen

Mach dich mit der Mission von Replit vertraut und verstehe, wie die Site Reliability Engineering (SRE) Rolle dazu beiträgt. Informiere dich über aktuelle Projekte und Herausforderungen, um im Interview gezielte Fragen stellen zu können.

✨Bereite technische Beispiele vor

Sei bereit, konkrete Beispiele aus deiner bisherigen Erfahrung zu teilen, die deine Fähigkeiten in der Systemzuverlässigkeit, Automatisierung und Incident Management demonstrieren. Zeige, wie du Probleme identifiziert und gelöst hast, um die Zuverlässigkeit von Systemen zu verbessern.

✨Zeige deine Kommunikationsfähigkeiten

Da die Rolle auch Mentoring und Zusammenarbeit erfordert, ist es wichtig, dass du deine Fähigkeit zur klaren Kommunikation unter Beweis stellst. Übe, komplexe technische Konzepte einfach zu erklären, damit du zeigst, dass du auch in stressigen Situationen ruhig und verständlich bleiben kannst.

✨Frage nach der Unternehmenskultur

Nutze die Gelegenheit, um mehr über die Kultur bei Replit zu erfahren. Frage nach den Werten des Unternehmens und wie das Team zusammenarbeitet, um sicherzustellen, dass du gut ins Team passt und die Erwartungen an die Rolle verstehst.

Staff Site Reliability Engineer

Replit, Inc.

Staff Site Reliability Engineer

Auf einen Blick

Staff Site Reliability Engineer Arbeitgeber: Replit, Inc.

StudySmarter Expertenrat🤫

Wir glauben, dass du diese Fähigkeiten brauchst, um Staff Site Reliability Engineer mit Bravour zu bestehen

Einige Tipps für deine Bewerbung 🫡

Wie man sich auf ein Vorstellungsgespräch bei Replit, Inc. vorbereitet

Unternehmen

Produkt

Help