Site Reliability Engineer

Jobbörse

Unternehmen

Duvo Inc

Site Reliability Engineer

Vollzeit 10000 - 12000 € / Monat (geschätzt) Homeoffice (teilweise)

Auf einen Blick

Aufgaben: Sichere und zuverlässige Infrastruktur für unsere AI-Plattform aufbauen und betreuen.
Unternehmen: Innovatives Unternehmen, das die Zukunft der KI im Einzelhandel gestaltet.
Vorteile: Attraktives Gehalt, unbegrenztes Budget für KI-Tools und flexible Arbeitsbedingungen.
Weitere Informationen: Wachstumsorientierte Umgebung mit echten Karrierechancen.
Warum dieser Job: Sei Teil eines dynamischen Teams, das echte Probleme mit KI löst.
Qualifikationen: Erfahrung mit verteilten Systemen und Sicherheitsbewusstsein sind ein Muss.

Das prognostizierte Gehalt liegt zwischen 10000 - 12000 € pro Monat.

Wer wir sind

Enterprise-Teams kopieren immer noch Daten zwischen Systemen. Die Arbeit bleibt in E-Mails, veralteten Benutzeroberflächen und Übergaben stecken. Dieses Chaos ist kostspielig, langsam und riskant. Wir sind ein schnelllebiges Team mit der Mission, dies endgültig zu beenden. Der Fortschritt ist stark und wir lösen echte Probleme für echte Kunden – aber um zu gewinnen, benötigen wir außergewöhnliche Talente. Wir bleiben bescheiden, erledigen die Arbeit und lassen die Ergebnisse sprechen.

Was wir aufbauen

Wir bauen die KI-Betriebsplattform für Einzelhandels- und CPG-Unternehmen – eine horizontale Plattform, auf der KI-Agenten end-to-end Arbeiten über Benutzeroberflächen und APIs mit integrierter Governance ausführen. Wo Co-Piloten aufhören, beendet Duvo die Arbeit. Geschäftsanwender geben das Ergebnis an; Agenten planen, handeln, beantragen Genehmigungen bei Ausnahmen und lernen mit jedem Durchlauf. Wir beginnen mit einem Einzelhandelsfokus (Kategorienmanagement, Lieferkette, Finanzoperationen), wo der ROI offensichtlich ist, und erweitern dann auf angrenzende Funktionen und Sektoren. Geschwindigkeit ist unser Vorteil: schnell versenden, schneller iterieren, kumuliertes Lernen.

Die Rolle

Sie werden für die Zuverlässigkeit, Sicherheit und Infrastruktur verantwortlich sein, die es unserer Plattform ermöglicht, KI-Agenten für Unternehmenskunden auszuführen. Dies ist kein traditionelles Web-App-SRE – unsere Agenten führen beliebigen Code in Sandboxes aus, tätigen unvorhersehbare externe API-Aufrufe und laufen stundenlang. Die Aufrechterhaltung dieser Zuverlässigkeit, Sicherheit und Beobachtbarkeit ist Ihre Aufgabe. Sie werden unser erster dedizierter SRE sein. Die Infrastruktur wird derzeit kollektiv von Produktentwicklern verwaltet – Sie übernehmen die Verantwortung, erben echte Infrastruktur (25+ Terraform-Module, vollständige OpenTelemetry-Pipeline, Prometheus/Grafana-Überwachung) und bauen die Zuverlässigkeitspraktiken von Grund auf neu auf. Ihre Einheit der Verantwortung: Plattformzuverlässigkeit, Infrastruktur, Beobachtbarkeit und Vorfallreaktion. Sie sind für die Sandbox-Infrastruktur und -Kapazität verantwortlich; der AI Platform Engineer ist für das Verhalten und die Laufzeitlogik der Sandbox verantwortlich.

Was wir suchen

Erfahrung mit verteilten Systemen. Sie haben Systeme entworfen und betrieben, die skalieren. Sie verstehen Fehlermodi, Kapazitätsplanung und die Abwägungen zwischen Konsistenz, Verfügbarkeit und Latenz in realen Produktionsumgebungen.
Sicherheitsbewusstsein. Sie werden Unternehmensdaten verwalten, die durch sandboxed Umgebungen fließen, KMS-Verschlüsselung verwalten, Cloud Armor WAF-Regeln konfigurieren und die Netzwerktrennung zwischen Mandantenlasten sicherstellen. Sicherheit ist eine Standardüberlegung, kein Nachgedanke.
Beobachtbarkeit und Vorfallreaktion. Sie erstellen Überwachungs- und Alarmierungssysteme, die Probleme erkennen, bevor es die Kunden tun. Wenn Vorfälle auftreten, leiten Sie strukturierte Reaktionen, finden die Ursachen und treiben dauerhafte Lösungen voran – nicht nur Neustarts.
Infrastruktur als Code und Automatisierung. Sie automatisieren alles, was Sie können. Sie haben mit IaC-Tools, CI/CD-Pipelines und Container-Orchestrierung in der Produktion gearbeitet. Manuelle Handbücher machen Sie unwohl.
Versand und Verantwortung. Sie warten nicht nur Systeme – Sie verbessern sie. Sie übernehmen die Verantwortung für Zuverlässigkeitsprojekte von der Vorschlag bis zur Produktion und messen die Ergebnisse.
Urteilsvermögen, wo investiert werden soll. Sie entscheiden, was zuerst automatisiert werden soll, wo in die Zuverlässigkeit im Vergleich zur Versandgeschwindigkeit investiert werden soll, und treffen Vorfallentscheidungen mit unvollständigen Informationen.

Sie könnten auch

Erfahrung mit GCP, Kubernetes oder ähnlicher cloud-nativer Infrastruktur haben.
Mit sandboxed Ausführungsumgebungen oder Multi-Tenant-Isolierung gearbeitet haben.
Mit KI/ML-Produktionssystemen vertraut sein – die einzigartigen Zuverlässigkeitsherausforderungen von LLM-basierten Anwendungen verstehen.
Hintergrund in der Produktentwicklung haben – Sie haben Funktionen erstellt und verstehen die Entwicklererfahrung, die Sie unterstützen.

Dies ist nichts für Sie, wenn

Sie eine traditionelle Ops-Rolle wollen, in der Sie Handbücher befolgen – wir bauen die Zuverlässigkeitspraktiken auf, nicht warten.
Sie KI-Funktionen entwickeln möchten – siehe AI Platform Engineer.

Unser Tech-Stack

GCP (Cloud Run, GKE, GCS)
Terraform, Docker
Prometheus, Grafana, Loki, OpenTelemetry
TypeScript und Python-Dienste (Sie werden Anwendungscode lesen und gelegentlich ändern, aber tiefgehende Sprachkenntnisse sind nicht erforderlich)
Postgres, Redis

Wie wir arbeiten

Initiative-getrieben. Wir organisieren uns um Kundenprobleme, nicht um Organigramme. Probleme treten durch Produktfeedback, Wettbewerbsanalysen und direkte Kundenkonversationen auf – dann priorisieren wir, bauen und versenden wöchentlich.
Kundenorientiert. Wir lösen echte Probleme, keine hypothetischen. Funktionen, die keine Kundenmetriken beeinflussen, werden gestrichen.
Iterativ von Natur aus. Wir versenden klein, lernen schnell und hängen uns nie an den Code von gestern. Das bedeutet, dass manchmal Dinge kaputtgehen – wir reparieren nach vorne.
KI-erster Hebel. Wir nutzen KI, um schneller zu arbeiten und menschliche Zeit dort zu konzentrieren, wo sie am wichtigsten ist. Wenn ein Werkzeug es tun kann, sollte es eine Person nicht tun.
Direktes Feedback. Wir geben uns sofort umsetzbares Feedback. Das kann unangenehm sein – wir denken, dass es das wert ist.
Autonomie mit Verantwortung. Wir vertrauen den Menschen, Entscheidungen zu treffen, und halten sie an Ergebnissen fest, nicht an Prozessen.

Was wir anbieten

Unbegrenztes KI-Budget. Wir erlauben nicht nur KI-Tools – wir ermutigen sie ausdrücklich. Möchten Sie ein neues Tool ausprobieren? Kaufen Sie es. Möchten Sie einen Teil Ihres Workflows automatisieren? Tun Sie es.
Autonomie, um Ihre beste Arbeit zu leisten. Möchten Sie jemanden treffen, von dem Sie lernen können? Richten Sie es ein. Möchten Sie einen Mentor? Holen Sie sich einen. Möchten Sie zu einem wichtigen Kunden fliegen? Fragen Sie einfach.
Ein echtes KI-Produkt mit echten Kunden. Sie bauen keine Demos oder internen Tools. Unternehmenskunden verwenden das, was Sie versenden, und ihr Feedback bestimmt, was Sie als Nächstes bauen.
Ein scharfes, motiviertes Team, das Eigenverantwortung und Offenheit schätzt.

Vergütung: 250.000,- CZK / Monat mit einem bedeutenden Eigenkapitalanteil. Sie können Gehalt gegen zusätzliches Eigenkapital eintauschen, wenn Sie mehr Aufwärtspotenzial bevorzugen.

Wie wir einstellen

Wir respektieren Ihre Zeit und streben danach, schnell zu handeln:

Screening des Einstellungsmanagers (30 Minuten). Wir sprechen über Systeme, die Sie gebaut und betrieben haben, wie Sie mit Vorfällen umgehen und ob es eine gegenseitige Passung gibt.
Remote-Aufgabe (asynchron, zeitlich begrenzt, ~1 Stunde). Eine realistische Infrastruktur- oder Zuverlässigkeitsübung – ein Vorfallreaktionsszenario, eine IaC-Aufgabe oder eine Überwachungsdesign-Herausforderung. Kein LeetCode.
Technisches Interview (Prag, ~1 Stunde). Treffen Sie das Team. Wir gehen tiefer auf Systemdesign, Sicherheitsdenken und Vorfallreaktion ein. Keine Fangfragen – wir möchten sehen, wie Sie über Produktionssysteme nachdenken.
Vor-Ort-Testtag (2 Tage). Arbeiten Sie an einem echten Infrastrukturproblem mit uns und sehen Sie, wie wir arbeiten. Vollständig vergütet.

Site Reliability Engineer Arbeitgeber: Duvo Inc

Wir sind ein dynamisches Unternehmen, das sich der Entwicklung einer KI-Operationsplattform für den Einzelhandel und CPG-Unternehmen widmet. Als Arbeitgeber bieten wir eine Kultur der Eigenverantwortung und des kontinuierlichen Lernens, in der Mitarbeiter die Freiheit haben, innovative Lösungen zu entwickeln und ihre Fähigkeiten in einem unterstützenden Umfeld auszubauen. Mit einem unbefristeten Budget für KI-Tools und der Möglichkeit, an realen Projekten mit echten Kunden zu arbeiten, fördern wir sowohl persönliches als auch berufliches Wachstum.

Kontaktdaten:

Duvo Inc Recruiting-Team

Profil von Duvo Inc anzeigen

StudySmarter Expertenrat🤫

Wir sind der Meinung, dass Sie so Site Reliability Engineer erhalten könnten

✨Tipp Nummer 1

Mach dir eine Liste von Unternehmen, die dich interessieren, und besuche deren Karriereseiten regelmäßig. Oft gibt es Stellenangebote, die nicht auf großen Jobportalen veröffentlicht werden. Wenn du direkt über unsere Website bewirbst, zeigst du echtes Interesse!

✨Tipp Nummer 2

Netzwerken ist der Schlüssel! Nutze Plattformen wie LinkedIn, um mit Leuten aus der Branche in Kontakt zu treten. Frag nach Insights oder Tipps – viele sind bereit zu helfen, und das kann dir einen Vorteil verschaffen.

✨Tipp Nummer 3

Bereite dich gut auf Vorstellungsgespräche vor. Informiere dich über das Unternehmen, seine Produkte und die Herausforderungen, die es löst. Zeige, dass du nicht nur die Anforderungen erfüllst, sondern auch wirklich zur Mission des Unternehmens passt.

✨Tipp Nummer 4

Sei proaktiv! Wenn du eine interessante Stelle siehst, zögere nicht, dich zu bewerben. Und wenn du Fragen hast, kontaktiere den Recruiter direkt. Das zeigt Initiative und kann dir helfen, dich von anderen Bewerbern abzuheben.

Wir glauben, dass du diese Fähigkeiten brauchst, um Site Reliability Engineer mit Bravour zu bestehen

Erfahrung mit verteilten Systemen

Sicherheitsbewusstsein

Überwachungs- und Vorfallreaktion

Infrastruktur als Code (IaC)

Automatisierung

Entscheidungsfindung bezüglich Investitionen

GCP (Google Cloud Platform)

Kubernetes

Container-Orchestrierung

CI/CD-Pipelines

Sandboxed Ausführungsumgebungen

AI/ML Produktionssysteme

Postgres

Redis

Einige Tipps für deine Bewerbung 🫡

Sei authentisch!:Wenn du deine Bewerbung schreibst, sei einfach du selbst. Zeig uns, wer du bist und was dich motiviert. Wir suchen nach echten Menschen, die zu unserem Team passen!

Mach es konkret!:Verwende konkrete Beispiele aus deiner bisherigen Erfahrung, um deine Fähigkeiten zu untermauern. Erzähl uns von Projekten, an denen du gearbeitet hast, und wie du Herausforderungen gemeistert hast.

Pass auf die Details auf!:Achte darauf, dass deine Bewerbung gut strukturiert und fehlerfrei ist. Ein klarer und professioneller Auftritt zeigt uns, dass du dir Mühe gibst und die Position ernst nimmst.

Bewirb dich über unsere Website!:Wir empfehlen dir, deine Bewerbung direkt über unsere Website einzureichen. So stellst du sicher, dass sie schnell bei uns ankommt und wir sie zügig bearbeiten können.

Wie man sich auf ein Vorstellungsgespräch bei Duvo Inc vorbereitet

✨Verstehe die Systeme

Mach dich mit verteilten Systemen vertraut. Du solltest in der Lage sein, über Skalierung, Ausfallmodi und Kapazitätsplanung zu sprechen. Bereite Beispiele vor, wie du in der Vergangenheit solche Systeme entworfen und betrieben hast.

✨Sicherheitsbewusstsein zeigen

Da Sicherheit ein zentraler Punkt ist, solltest du dich mit KMS-Verschlüsselung und Netzwerksicherheit auskennen. Überlege dir, wie du Sicherheitsüberlegungen in deine bisherigen Projekte integriert hast und sei bereit, darüber zu diskutieren.

✨Monitoring und Incident Response

Bereite dich darauf vor, über deine Erfahrungen mit Monitoring-Tools und Incident-Response-Prozessen zu sprechen. Zeige, dass du proaktiv Probleme erkennst und strukturiert auf Vorfälle reagierst. Beispiele aus der Praxis sind hier sehr hilfreich.

✨Automatisierung und Infrastruktur als Code

Sei bereit, über deine Erfahrungen mit IaC-Tools und CI/CD-Pipelines zu sprechen. Automatisierung ist entscheidend, also bring konkrete Beispiele mit, wie du manuelle Prozesse automatisiert hast und welche Tools du dabei verwendet hast.

Site Reliability Engineer

Duvo Inc

Site Reliability Engineer

Auf einen Blick

Site Reliability Engineer Arbeitgeber: Duvo Inc

StudySmarter Expertenrat🤫

Wir glauben, dass du diese Fähigkeiten brauchst, um Site Reliability Engineer mit Bravour zu bestehen

Einige Tipps für deine Bewerbung 🫡

Wie man sich auf ein Vorstellungsgespräch bei Duvo Inc vorbereitet

Unternehmen

Produkt

Help