Site Reliability Engineer (EU/UK Based - Remote)

Jobbörse

Unternehmen

Duvo Inc

Site Reliability Engineer (EU/UK Based - Remote)

Vollzeit 10000 - 12000 € / Monat (geschätzt) Homeoffice möglich

Auf einen Blick

Aufgaben: Sichere und zuverlässige Infrastruktur für unsere AI-Plattform aufbauen und betreiben.
Unternehmen: Innovatives Unternehmen, das die Zukunft der KI im Einzelhandel gestaltet.
Vorteile: Unbegrenztes Budget für KI-Tools, flexible Arbeitszeiten und echte Karrierechancen.
Weitere Informationen: Wachsendes Team mit Fokus auf Eigenverantwortung und kontinuierlichem Lernen.
Warum dieser Job: Sei Teil eines dynamischen Teams, das echte Probleme für echte Kunden löst.
Qualifikationen: Erfahrung mit verteilten Systemen und Sicherheitsbewusstsein sind ein Muss.

Das prognostizierte Gehalt liegt zwischen 10000 - 12000 € pro Monat.

Wer wir sind

Enterprise-Teams kopieren immer noch Daten zwischen Systemen. Die Arbeit bleibt in E-Mails, veralteten Benutzeroberflächen und Übergaben stecken. Dieses Chaos ist kostspielig, langsam und riskant. Wir sind ein schnelllebiges Team mit der Mission, dies endgültig zu beenden. Der Fortschritt ist stark und wir lösen echte Probleme für echte Kunden – aber um zu gewinnen, brauchen wir außergewöhnliche Talente. Wir bleiben bescheiden, erledigen die Arbeit und lassen die Ergebnisse sprechen.

Was wir aufbauen

Wir bauen die KI-Betriebsplattform für Einzelhandels- und CPG-Unternehmen – eine horizontale Plattform, auf der KI-Agenten end-to-end Arbeiten über Benutzeroberflächen und APIs mit integrierter Governance ausführen. Wo Co-Piloten aufhören, beendet Duvo die Arbeit. Geschäftsanwender geben das Ergebnis an; Agenten planen, handeln, beantragen Genehmigungen bei Ausnahmen und lernen mit jedem Durchlauf. Wir beginnen mit einem Einzelhandelsfokus (Kategorienmanagement, Lieferkette, Finanzoperationen), wo der ROI offensichtlich ist, und erweitern dann auf angrenzende Funktionen und Sektoren. Geschwindigkeit ist unser Vorteil: schnell versenden, schneller iterieren, kumuliertes Lernen.

Die Rolle

Sie werden für die Zuverlässigkeit, Sicherheit und Infrastruktur verantwortlich sein, die es unserer Plattform ermöglicht, KI-Agenten für Unternehmenskunden auszuführen. Dies ist kein traditionelles Web-App-SRE – unsere Agenten führen beliebigen Code in Sandboxes aus, tätigen unvorhersehbare externe API-Aufrufe und laufen stundenlang. Die Aufrechterhaltung dieser Zuverlässigkeit, Sicherheit und Beobachtbarkeit ist Ihre Aufgabe. Sie werden unser erster dedizierter SRE sein. Die Infrastruktur wird derzeit kollektiv von Produktentwicklern verwaltet – Sie übernehmen die Verantwortung, erben echte Infrastruktur (25+ Terraform-Module, vollständige OpenTelemetry-Pipeline, Prometheus/Grafana-Überwachung) und bauen die Zuverlässigkeitspraktiken von Grund auf neu auf. Ihre Einheit der Verantwortung: Plattformzuverlässigkeit, Infrastruktur, Beobachtbarkeit und Vorfallreaktion. Sie sind für die Sandbox-Infrastruktur und -Kapazität verantwortlich; der AI Platform Engineer ist für das Verhalten und die Laufzeitlogik der Sandbox verantwortlich.

Was wir suchen

Erfahrung mit verteilten Systemen. Sie haben Systeme entworfen und betrieben, die skalieren. Sie verstehen Fehlermodi, Kapazitätsplanung und die Abwägungen zwischen Konsistenz, Verfügbarkeit und Latenz in realen Produktionsumgebungen.
Sicherheitsbewusstsein. Sie werden Unternehmensdaten verwalten, die durch sandboxed Umgebungen fließen, KMS-Verschlüsselung verwalten, Cloud Armor WAF-Regeln konfigurieren und die Netzwerktrennung zwischen Mandantenlasten sicherstellen. Sicherheit ist eine grundlegende Überlegung, kein nachträglicher Gedanke.
Beobachtbarkeit und Vorfallreaktion. Sie erstellen Überwachungs- und Alarmierungssysteme, die Probleme erkennen, bevor die Kunden es tun. Wenn Vorfälle auftreten, leiten Sie strukturierte Reaktionen, finden die Ursachen und treiben dauerhafte Lösungen voran – nicht nur Neustarts.
Infrastruktur als Code und Automatisierung. Sie automatisieren alles, was Sie können. Sie haben mit IaC-Tools, CI/CD-Pipelines und Container-Orchestrierung in der Produktion gearbeitet. Manuelle Runbooks machen Sie unbehaglich.
Versand und Verantwortung. Sie warten nicht nur Systeme – Sie verbessern sie. Sie übernehmen die Verantwortung für Zuverlässigkeitsprojekte von der Vorschlag bis zur Produktion und messen die Ergebnisse.
Urteilsvermögen, wo investiert werden soll. Sie entscheiden, was zuerst automatisiert werden soll, wo in Zuverlässigkeit im Vergleich zur Versandgeschwindigkeit investiert werden soll, und treffen Vorfallentscheidungen mit unvollständigen Informationen.

Sie könnten auch

Erfahrung mit GCP, Kubernetes oder ähnlicher cloud-nativer Infrastruktur haben.
Mit sandboxed Ausführungsumgebungen oder Multi-Tenant-Isolation gearbeitet haben.
Mit KI/ML-Produktionssystemen vertraut sein – die einzigartigen Zuverlässigkeitsherausforderungen von LLM-basierten Anwendungen verstehen.
Hintergrund in der Produktentwicklung haben – Sie haben Funktionen erstellt und verstehen die Entwicklererfahrung, die Sie unterstützen.

Dies ist nicht für Sie, wenn

Sie eine traditionelle Ops-Rolle wollen, in der Sie Runbooks folgen – wir bauen die Zuverlässigkeitspraktiken auf, nicht nur aufrecht.
Sie KI-Funktionen entwickeln möchten – siehe AI Platform Engineer.

Unser Tech-Stack

GCP (Cloud Run, GKE, GCS)
Terraform, Docker
Prometheus, Grafana, Loki, OpenTelemetry
TypeScript und Python-Dienste (Sie werden Anwendungscode lesen und gelegentlich ändern, aber tiefgehende Sprachkenntnisse sind nicht erforderlich)
Postgres, Redis

Wie wir arbeiten

Initiative-getrieben. Wir organisieren uns um Kundenprobleme, nicht um Organigramme. Probleme treten durch Produktfeedback, Wettbewerbsanalysen und direkte Kundenkonversationen auf – dann priorisieren wir, bauen und versenden wöchentlich.
Kundenorientiert. Wir lösen echte Probleme, keine hypothetischen. Funktionen, die keine Kundenmetriken bewegen, werden gestrichen.
Iterativ von Natur aus. Wir versenden klein, lernen schnell und hängen uns nie an den Code von gestern. Das bedeutet, dass manchmal Dinge kaputt gehen – wir reparieren vorwärts.
KI-zuerst nutzen. Wir nutzen KI, um schneller zu werden und menschliche Zeit dort zu konzentrieren, wo sie am meisten zählt. Wenn ein Werkzeug es tun kann, sollte es keine Person tun.
Direktes Feedback. Wir geben uns sofort umsetzbares Feedback. Das kann unangenehm sein – wir denken, dass es das wert ist.
Autonomie mit Verantwortung. Wir vertrauen den Menschen, Entscheidungen zu treffen, und halten sie an Ergebnissen fest, nicht an Prozessen.

Was wir anbieten

Unbegrenztes KI-Budget. Wir erlauben nicht nur KI-Tools – wir ermutigen sie ausdrücklich. Möchten Sie ein neues Tool ausprobieren? Kaufen Sie es. Möchten Sie einen Teil Ihres Workflows automatisieren? Tun Sie es.
Autonomie, um Ihre beste Arbeit zu leisten. Möchten Sie jemanden treffen, von dem Sie lernen können? Richten Sie es ein. Möchten Sie einen Mentor? Holen Sie sich einen. Möchten Sie zu einem wichtigen Kunden fliegen? Fragen Sie einfach.
Ein echtes KI-Produkt mit echten Kunden. Sie bauen keine Demos oder internen Tools. Unternehmenskunden verwenden das, was Sie versenden, und ihr Feedback bestimmt, was Sie als Nächstes bauen.
Ein scharfes, motiviertes Team, das Eigenverantwortung und Offenheit schätzt.

Vergütung 250.000,- CZK / Monat mit einem bedeutenden Eigenkapitalanteil. Sie können Gehalt gegen zusätzliches Eigenkapital tauschen, wenn Sie mehr Aufwärtspotenzial bevorzugen.

Wie wir einstellen

Wir respektieren Ihre Zeit und streben danach, schnell zu handeln:

Screening des Einstellungsmanagers (30 Minuten). Wir sprechen über Systeme, die Sie gebaut und betrieben haben, wie Sie mit Vorfällen umgehen und ob es eine gegenseitige Passung gibt.
Remote-Aufgabe (asynchron, zeitlich begrenzt, ~1 Stunde). Eine realistische Infrastruktur- oder Zuverlässigkeitsübung – ein Vorfallreaktionsszenario, eine IaC-Aufgabe oder eine Überwachungsdesign-Herausforderung. Kein LeetCode.
Technisches Interview (Prag, ~1 Stunde). Treffen Sie das Team. Wir gehen tiefer auf Systemdesign, Sicherheitsdenken und Vorfallreaktion ein. Keine Fangfragen – wir möchten sehen, wie Sie über Produktionssysteme nachdenken.
Vor-Ort-Testtag (2 Tage). Arbeiten Sie an einem echten Infrastrukturproblem mit uns und sehen Sie, wie wir arbeiten. Vollständig vergütet.

Site Reliability Engineer (EU/UK Based - Remote) Arbeitgeber: Duvo Inc

Als Arbeitgeber bieten wir eine dynamische und innovative Arbeitsumgebung, in der Sie die Möglichkeit haben, an einem bahnbrechenden AI-Operations-Plattform für den Einzelhandel und CPG-Sektor zu arbeiten. Unsere Unternehmenskultur fördert Eigenverantwortung, kontinuierliches Lernen und direkte Rückmeldungen, während wir gleichzeitig ein starkes Team von motivierten Fachleuten unterstützen, das echte Probleme für unsere Kunden löst. Mit einem unbegrenzten Budget für AI-Tools und der Freiheit, Ihre besten Ideen umzusetzen, sind wir bestrebt, Ihnen bedeutungsvolle Wachstumschancen zu bieten.

Kontaktdaten:

Duvo Inc Recruiting-Team

Profil von Duvo Inc anzeigen

StudySmarter Expertenrat🤫

Wir sind der Meinung, dass Sie so Site Reliability Engineer (EU/UK Based - Remote) erhalten könnten

✨Tipp Nummer 1

Sei proaktiv und nutze dein Netzwerk! Sprich mit Leuten in der Branche, besuche Meetups oder Webinare. Oft erfährt man von offenen Stellen, bevor sie offiziell ausgeschrieben werden.

✨Tipp Nummer 2

Bereite dich auf Vorstellungsgespräche vor, indem du typische Fragen und Szenarien durchgehst. Überlege dir konkrete Beispiele aus deiner bisherigen Erfahrung, die deine Fähigkeiten als Site Reliability Engineer unter Beweis stellen.

✨Tipp Nummer 3

Zeige deine Leidenschaft für das, was du tust! Erkläre, warum du dich für diese Rolle interessierst und wie du zur Mission des Unternehmens beitragen kannst. Authentizität kommt immer gut an.

✨Tipp Nummer 4

Bewirb dich direkt über unsere Website! Das zeigt, dass du wirklich interessiert bist und gibt uns die Möglichkeit, dich besser kennenzulernen. Lass uns gemeinsam die Zukunft gestalten!

Wir glauben, dass du diese Fähigkeiten brauchst, um Site Reliability Engineer (EU/UK Based - Remote) mit Bravour zu bestehen

Erfahrung mit verteilten Systemen

Sicherheitsbewusstsein

Überwachungs- und Vorfallreaktion

Infrastructure as Code (IaC)

Automatisierung

Cloud-native Infrastruktur (z.B. GCP, Kubernetes)

Sandboxed Ausführungsumgebungen

Kenntnisse in AI/ML Produktionssystemen

Produktengineering-Hintergrund

Terraform

Docker

Prometheus

Grafana

OpenTelemetry

CI/CD-Pipelines

Einige Tipps für deine Bewerbung 🫡

Sei du selbst!:Wir wollen dich kennenlernen, also zeig uns, wer du wirklich bist! Lass deine Persönlichkeit in deiner Bewerbung durchscheinen und erzähl uns, warum du für die Rolle als Site Reliability Engineer brennst.

Mach es konkret!:Verwende konkrete Beispiele aus deiner bisherigen Erfahrung, um zu zeigen, wie du mit verteilten Systemen, Sicherheitsaspekten und Incident Response umgegangen bist. Das hilft uns, deine Fähigkeiten besser einzuschätzen.

Zeig dein Interesse an AI!:Da wir eine AI-Operations-Plattform aufbauen, ist es wichtig, dass du dein Interesse und Verständnis für AI/ML-Systeme zeigst. Erzähl uns, wie du diese Technologien in der Vergangenheit genutzt hast oder was dich daran fasziniert.

Bewirb dich über unsere Website!:Um sicherzustellen, dass deine Bewerbung nicht im Chaos untergeht, bewirb dich direkt über unsere Website. So können wir deine Unterlagen schnell und effizient bearbeiten!

Wie man sich auf ein Vorstellungsgespräch bei Duvo Inc vorbereitet

✨Verstehe die Systeme

Mach dich mit verteilten Systemen vertraut. Du solltest in der Lage sein, über die verschiedenen Fehlerarten, Kapazitätsplanung und die Kompromisse zwischen Konsistenz, Verfügbarkeit und Latenz nachzudenken. Bereite Beispiele aus deiner bisherigen Erfahrung vor, um zu zeigen, wie du diese Herausforderungen gemeistert hast.

✨Sicherheitsbewusstsein zeigen

Da Sicherheit für uns oberste Priorität hat, solltest du dich auf Fragen zur Handhabung von Unternehmensdaten in sandboxed Umgebungen vorbereiten. Überlege dir, wie du KMS-Verschlüsselung und Netzwerksicherheit implementiert hast und sei bereit, konkrete Beispiele zu nennen.

✨Monitoring und Incident Response

Bereite dich darauf vor, über deine Erfahrungen im Aufbau von Monitoring- und Alarmsystemen zu sprechen. Zeige, dass du proaktiv Probleme erkennst und strukturiert auf Vorfälle reagierst. Sei bereit, einen konkreten Vorfall zu beschreiben, den du erfolgreich gelöst hast.

✨Automatisierung und Infrastruktur als Code

Du solltest ein gutes Verständnis für IaC-Tools und CI/CD-Pipelines haben. Bereite dich darauf vor, darüber zu sprechen, wie du manuelle Prozesse automatisiert hast und welche Tools du dabei verwendet hast. Zeige, dass du nicht nur Systeme wartest, sondern auch aktiv verbesserst.

Site Reliability Engineer (EU/UK Based - Remote)

Duvo Inc

Site Reliability Engineer (EU/UK Based - Remote)

Auf einen Blick

Site Reliability Engineer (EU/UK Based - Remote) Arbeitgeber: Duvo Inc

StudySmarter Expertenrat🤫

Wir glauben, dass du diese Fähigkeiten brauchst, um Site Reliability Engineer (EU/UK Based - Remote) mit Bravour zu bestehen

Einige Tipps für deine Bewerbung 🫡

Wie man sich auf ein Vorstellungsgespräch bei Duvo Inc vorbereitet

Unternehmen

Produkt

Help