Was erwartet dich?
- Du übernimmst den technischen Level‑2‑Support mit direktem Kundenkontakt
- Du pflegst Monitoring‑, Logging‑ und Alerting‑Lösungen (z. B. Prometheus, Grafana, Loki) zur proaktiven Erkennung von Problemen im Schichtbetrieb und wirkst bei der Lösung komplexer Issues in verteilten Systemen mit
- Du führst Fehlersuchen in Netzwerken (LAN/WAN/VPN, DNS, DHCP) und Speichersystemen (File/Object/Block) durch und stellst hochverfügbare Services auf Linux und Kubernetes (Helm‑Charts) bereit
- Du baust Infrastructure‑as‑Code auf und pflegst Automatisierung und Playbooks mit Ansible, Terraform, GitLab CI/CD, Argo CD sowie Skriptsprachen wie Bash, Python und Go
- Du arbeitest mit Entwicklungsteams zusammen, um Prozesse und Deployments zu verbessern und neue Services und Applikationen reibungslos in unsere Cloud‑ und Kubernetes‑Umgebung zu integrieren
- Du gewährleistest einen stabilen und sicheren Plattformbetrieb, inklusive End‑to‑End‑Incident‑Management von der ersten Analyse über die Lösung bis hin zur Nachbearbeitung im Rahmen des Problem‑Managements
Was bieten wir dir?
- Attraktive Arbeitsbedingungen: Du profitierst von einem hybriden Arbeitsmodell und flexiblen Schichtarbeitszeiten
- Moderne Arbeitsumgebung: An einigen Standorten erwartet dich eine bezuschusste Kantine und verschiedene kostenfreie Getränke sowie moderne Büroflächen mit sehr guter Verkehrsanbindung
- Vielfältige Mitarbeitervorteile: Du erhältst diverse Mitarbeiterrabatte für Aktivitäten und Produkte
- Gemeinschaft und Events: Freue dich auf Mitarbeiterevents wie Sommer- und Winterfeiern sowie Workshops
- Weiterbildung und Entwicklung: Zahlreiche Weiterbildungs- und Entwicklungsmöglichkeiten stehen dir zur Verfügung
- Gesundheitsförderung: Verschiedene Gesundheitsangebote, wie Sport- und Gesundheitskurse, unterstützen dein Wohlbefinden
Was solltest du mitbringen?
- Du bist bereit, in einem 24 × 7‑Schichtmodell zu arbeiten (Nacht‑, Wochenend‑ und Feiertagsdienste) und bringst ein starkes Problem‑Lösungs‑ und Troubleshooting‑Mindset mit
- Du hast mehrjährige Erfahrung als Site Reliability Engineer oder in einer verwandten Rolle (Linux‑Systemadministrator, Platform Engineer, DevOps/Infrastructure Engineer, Full‑Stack‑Developer)
- Du verfügst über fundierte Kenntnisse in Automatisierungstools (z. B. Ansible, SaltStack), Monitoring‑ und Observability‑Tools (Prometheus, Grafana, Loki) sowie Logging‑ und Alerting‑Lösungen (ELK‑Stack)
- Du hast Erfahrung mit virtualisierten Umgebungen (QEMU/KVM, OpenStack, Proxmox), Cloud‑Storage‑Technologien (File, Object, Block) und bist sicher im Umgang mit Docker & Kubernetes
- Du besitzt sehr gute Kenntnisse in mindestens einer Programmiersprache oder Skriptsprache (Go, Python, Bash) für Automatisierungs‑ und Monitoring‑Aufgaben
- Du hast Erfahrung im Code‑Management (Merge‑Conflicts, Feature‑Branches, Merge‑Requests, CI/CD), was von Vorteil ist