Senior DevOps / Platform Reliability Engineer

Senior DevOps / Platform Reliability Engineer

Vollzeit 55000 - 70000 € / Jahr (geschätzt) Homeoffice (teilweise)
United States Digital Space LLC

Auf einen Blick

  • Aufgaben: Entwickle und betreibe CI/CD-Pipelines und automatisiere Infrastrukturprozesse.
  • Unternehmen: Innovative Plattform für intelligente Prozessautomatisierung mit über 500 Kunden.
  • Vorteile: Wettbewerbsfähige Vergütung, umfassende Gesundheitsleistungen und unbegrenzter Urlaub.
  • Weitere Informationen: Flexibles Arbeiten von überall und großartige Karrierechancen.
  • Warum dieser Job: Arbeite an einer KI-Plattform und forme die Zukunft der Kundeninteraktion.
  • Qualifikationen: Mindestens 5 Jahre Erfahrung in DevOps oder Plattformengineering.

Das prognostizierte Gehalt liegt zwischen 55000 - 70000 € pro Jahr.

Über das Unternehmen: Das Unternehmen ist die nächste Generation der intelligenten Prozessautomatisierungsplattform, die die Kundenservice-Operationen für die weltweit führenden Support-Manager neu gestaltet. Mit über 500 Kunden, darunter Optum, Corpay, Sony, SharkNinja und Allianz, transformieren wir den Self-Service, identifizieren Automatisierungsmöglichkeiten und verwandeln jeden Agenten in einen Experten.

Die Rolle: Wir suchen einen Senior DevOps / Platform Reliability Engineer, der die Plattform besitzt, die unser agentisches CX-Produkt antreibt. Sie werden die CI/CD-, Infrastruktur- und Observabilitätsbasis aufbauen, die es uns ermöglicht, Multi-Agenten-Systeme sicher an Unternehmenskunden zu liefern. Wenn Sie eine Produktions-AI-Plattform betreiben und AI zur Unterstützung des Betriebs nutzen möchten, ist diese Rolle genau das Richtige für Sie.

Was Sie tun werden:

  • CI/CD-Pipelines mit GitHub Actions und OIDC-basierter Authentifizierung für Microservices und agentische Workloads besitzen und weiterentwickeln, mit sicheren, schnellen und reversiblen Bereitstellungen.
  • Automatisierung der Infrastrukturbereitstellung mit Infrastructure as Code (IaC) Tools wie Terraform und CloudFormation.
  • Unsere Kubernetes-Plattform (EKS + Argo CD) betreiben und skalieren, einschließlich Autoscaling, Ingress, External-DNS, Cert-Manager, External Secrets Operator, Backups, Runtime Guardrails und Multi-Tenant-Isolation für Unternehmenskunden.
  • Das Edge- und Netzwerkperimeter verwalten, einschließlich Cloudflare (CDN, WAF, Bot-Management, DDoS-Schutz, Zero Trust / Access), CloudFront, API Gateway, ALB/NLB, Route 53 und Netzwerksicherheitskontrollen.
  • Die Daten- und Ereignisebene betreiben, einschließlich Aurora MySQL, ElastiCache/Redis, S3 und MSK (Kafka), mit Verantwortung für Backups, Point-in-Time Recovery (PITR) und Multi-AZ-Disaster-Recovery, die an definierte RTO/RPO-Ziele ausgerichtet sind.
  • Lambda-Workloads erstellen und pflegen, wo ereignisgesteuerte oder serverlose Architekturen die richtige Wahl sind.
  • Observabilität als Produkt mit Prometheus, Grafana und OpenTelemetry aufbauen, einschließlich Telemetrie für LLM- und agentische Systeme wie Token-Kosten, Tool-Call-Latenz, Evaluierungssignale und Prompt-/Versionsverfolgung.
  • Unsere Sicherheits- und Compliance-Position für SOC 2 und HIPAA stärken, einschließlich Least-Privilege-IAM, SCPs, Geheimnisverwaltung, SAST/DAST, Abhängigkeits- und Container-Scanning, Bildsignierung, AWS Config, Security Hub, GuardDuty, Inspector und Evidenzautomatisierung.
  • FinOps-Initiativen vorantreiben, einschließlich Tagging-Standards, Savings Plans und Reserved Instances, Kostenattribution pro Mandant und pro Workload sowie LLM-Kostenkontrollen.
  • Unsere AI-nativen DevOps-Fähigkeiten aufbauen und weiterentwickeln.
  • Mit Engineering-Teams zusammenarbeiten, um Plattformstandards, Servicetemplates, beste Praktiken für die Bereitstellung und betriebliche SLOs zu definieren.
  • Die Systemleistung überwachen und Zuverlässigkeit, Skalierbarkeit und Sicherheit über Infrastruktur und Dienste sicherstellen.
  • Mit Software-Engineering-Teams zusammenarbeiten, um bewährte Verfahren für kontinuierliche Integration und kontinuierliche Bereitstellung zu unterstützen.
  • Infrastruktur, Bereitstellungsprozesse und betriebliche Standards dokumentieren, um den Wissensaustausch im Team zu unterstützen.

Agentic AI in DevOps: Sie helfen dabei, zu definieren, wie das Unternehmen agentische AI nutzt, um unsere Plattform mit modernen AI-Betriebspraktiken zu betreiben und zu verbessern. Zu den Verantwortlichkeiten gehören:

  • Auto-remediation-Agenten für häufige Produktionsprobleme wie Zertifikatsrotation, laute Pods, Infrastrukturdrift und fehlerhafte CI-Pipelines entwerfen und betreiben, mit Human-in-the-Loop (HITL)-Kontrollen für alle destruktiven oder kundenbeeinflussenden Aktionen.
  • LLMs für die Vorfalltriage und Ursachenanalyse verwenden, einschließlich Protokoll- und Trace-Zusammenfassungen, Signal-Korrelation und erste Entwürfe von Postmortems, die immer von Menschen überprüft werden.
  • AI-Agenten über das Model Context Protocol (MCP) mit internen Systemen verbinden, einschließlich GitHub, Jira, PagerDuty, AWS, Kubernetes, Terraform und verwandten Plattformen, unter Verwendung von eingeschränkten Anmeldeinformationen, Protokollierung und erlaubten Zugriff.
  • AI-gesteuerte Observabilitätstechniken anwenden, einschließlich Anomalieerkennung bei Metriken, LLM-basiertem Protokoll-Clustering und Alarm-Deduplizierung und -Zusammenfassung auf Prometheus und OpenTelemetry.
  • Betriebliche Leitplanken wie Prompt-/Versions-Pinning, Bewertungsrahmen für das Verhalten von Agenten, Kosten- und Ratenlimitkontrollen, Policy-as-Code (OPA/Conftest) für AI-generierte Infrastrukturänderungen und klar definierte Blast-Radius-Kontrollen festlegen.
  • Beste Praktiken für AI-Coding-Assistenten wie GitHub Copilot, Claude und Amazon Q in Infrastruktur-Repositories definieren, einschließlich Überprüfungs-Workflows, Prompt-Design und Einschränkungen für automatisch zusammengeführte Änderungen.
  • AI-Komponenten als Produktionssysteme mit SLOs, Observabilität, Bereitschaft für den Bereitschaftsdienst, Runbooks und Rollback-Strategien für Agenten und Prompts behandeln.

Über Sie:

Erforderliche Qualifikationen:

  • 5+ Jahre Erfahrung in DevOps, SRE oder Plattformengineering mit Betrieb von Produktionssystemen auf AWS.
  • Starke Erfahrung mit CI/CD-Pipelines und Tools wie GitHub Actions, GitLab CI, Jenkins oder CircleCI.
  • Praktische Erfahrung im Betrieb von Produktions-EKS-Umgebungen, einschließlich Autoscaling, Ingress, Geheimnisverwaltung und Cluster-Upgrades.
  • Starke AWS-Netzwerkkenntnisse, einschließlich Multi-Account-VPC-Design, Subnetze, Routing, Sicherheitsgruppen, NACLs, Route 53, ACM und Lastenausgleich.
  • Tiefe Erfahrung mit Terraform und GitHub Actions, idealerweise unter Verwendung von OIDC-basierter Cloud-Authentifizierung.
  • Erfahrung mit Aurora/RDS MySQL, Redis (ElastiCache) und S3, einschließlich Backups, PITR, Migrationen und Lebenszyklusmanagement.
  • Starke Observabilitätserfahrung mit Prometheus, Grafana und OpenTelemetry.
  • Erfahrung im Betrieb von Argo CD in großem Maßstab.
  • Erfahrung mit Infrastructure as Code-Tools wie Terraform, CloudFormation oder Ansible.
  • Erfahrung in der Verwaltung von Cloudflare-Diensten, einschließlich WAF, Bot-Management, Ratenbegrenzung und Zero Trust / Access, sowie CloudFront.
  • Erfahrung im Betrieb von Kafka/MSK in großem Maßstab, einschließlich Themen, Verbrauchergruppen und Schema-Registrierungen.
  • Erfahrung mit Lambda und ereignisgesteuerten Architekturen.
  • Komfortabel im Umgang mit Python, Bash und Linux-Systemen.
  • Starkes Verständnis der besten Sicherheitspraktiken in Bezug auf IAM, KMS, Geheimnisverwaltung, Netzwerke und Sicherheit der Software-Lieferkette.
  • Vertrautheit mit Schwachstellenscanning und Compliance-Tools.

Schön zu haben:

  • Erfahrung im Betrieb von LLM- oder ML-Workloads in der Produktion, einschließlich LiteLLM, Bedrock, pgvector, Prompt-Caching oder Evaluierungssystemen.
  • Erfahrung im Aufbau oder in der Integration von MCP-Servern oder im Einsatz von Agenten-Frameworks wie LangGraph oder CrewAI in Produktionsumgebungen.

Was wir bieten:

  • Wettbewerbsfähige Vergütungspakete
  • Umfassende Gesundheitsleistungen: 100 % der Prämien für Mitarbeiter abgedeckt, 75 %–80 % der Prämien für Angehörige für die meisten Gesundheits-, Zahn- und Augenpläne
  • 401(k)-Pläne zur Unterstützung der Altersvorsorge (derzeit keine Arbeitgeberbeteiligung)
  • Bezahlte Elternzeit
  • Unbegrenzter PTO
  • Flexible Remote-Arbeit von überall
  • Bis zu 200 $/Monat Erstattung für Co-Working
  • Home-Office-Stipendium: Bis zu 500 $ für die Einrichtung des Home-Offices, 100 $/Monat für Internet, Telefon und verwandte Ausgaben

Wir können KI-Tools (AI) verwenden, um Teile des Einstellungsprozesses zu unterstützen, wie z.B. die Überprüfung von Bewerbungen, die Analyse von Lebensläufen oder die Bewertung von Antworten. Diese Tools unterstützen unser Rekrutierungsteam, ersetzen jedoch nicht das menschliche Urteil. Die endgültigen Einstellungsentscheidungen werden letztendlich von Menschen getroffen. Wenn Sie weitere Informationen darüber wünschen, wie Ihre Daten verarbeitet werden, kontaktieren Sie uns bitte.

Senior DevOps / Platform Reliability Engineer Arbeitgeber: United States Digital Space LLC

Unser Unternehmen ist ein herausragender Arbeitgeber, der innovative Lösungen im Bereich der intelligenten Prozessautomatisierung bietet. Mit einem starken Fokus auf Mitarbeiterentwicklung und einer flexiblen Arbeitskultur, die Homeoffice und unbegrenzten Urlaub umfasst, fördern wir eine Umgebung, in der Kreativität und technisches Know-how geschätzt werden. Unsere umfassenden Gesundheitsleistungen und die Möglichkeit, an spannenden Projekten mit modernster Technologie zu arbeiten, machen uns zu einem attraktiven Arbeitsplatz für talentierte Fachkräfte im Bereich DevOps und Plattformzuverlässigkeit.

United States Digital Space LLC

Kontaktdaten:

United States Digital Space LLC Recruiting-Team

StudySmarter Expertenrat🤫

Wir sind der Meinung, dass Sie so Senior DevOps / Platform Reliability Engineer erhalten könnten

Netzwerken in der IT-Community

In der IT-Consulting-Welt sollten wir regelmäßig auf Veranstaltungen wie Tech-Meetups oder Konferenzen gehen. Hier können wir nicht nur unser Netzwerk erweitern, sondern auch direkt mit potenziellen Arbeitgebern ins Gespräch kommen und unser Interesse an einer Vollzeitstelle zeigen.

Online-Foren und Gruppen nutzen

Sich in Online-Foren und Communities wie Stack Overflow oder LinkedIn-Gruppen umzusehen, kann uns helfen, Insider-Tipps zu erhalten und Informationen über offene Stellen in der IT-Beratung zu sammeln. Vergiss nicht, aktiv zu werden und Fragen zu stellen oder dein Wissen zu teilen – das erhöht unsere Sichtbarkeit!

Direkt bei United States Digital Space LLC bewerben

Viele Unternehmen, wie United States Digital Space LLC, stemmen ihre Vollzeitstellen bevorzugt über ihre eigenen Karriere-Webseiten. Also, lass uns regelmäßig auf deren Seite vorbeischauen und uns direkt bewerben, statt nur die üblichen Jobportale zu nutzen.

Überzeugende Projekte zeigen

Wir sollten unser Portfolio oder relevante Projekte gut sichtbar machen, egal ob das auf Github, persönlich oder auf LinkedIn ist. Bei IT-Consulting-Stellen kommt es oft auf praktische Erfahrungen an, also lass uns zeigen, was wir können!

Wir glauben, dass du diese Fähigkeiten brauchst, um Senior DevOps / Platform Reliability Engineer mit Bravour zu bestehen

CI/CD-Pipelines
GitHub Actions
Infrastructure as Code (IaC)
Terraform
Kubernetes (EKS)
Cloudflare
AWS Networking

Einige Tipps für deine Bewerbung 🫡

Zeige deine technischen Skills!:In der IT-Beratung zählen deine technischen Kenntnisse und Fähigkeiten. Achte darauf, relevante Programmiersprachen, Tools und Systeme in deinem Lebenslauf aufzulisten. Zeig auch, wenn du Zertifikate hast, die deine Kompetenz unterstützen – das könnte dir einen echten Vorteil verschaffen!

Verstehe die Branche!:Unterstreiche in deinem Anschreiben, dass du ein gutes Verständnis für aktuelle Trends und Herausforderungen in der IT-Branche hast. Zeig, dass du nicht nur die technischen Aspekte beherrschst, sondern auch die Bedürfnisse der Kunden erkennen und lösen kannst!

Deine Projekte zählen!:Falls du bereits an IT-Projekten gearbeitet hast, verlinke diese oder beschreibe sie in deinem Lebenslauf. Praktische Erfahrungen – sei es in Form von Praktika oder privaten Projekten – sind besonders wertvoll in der IT-Beratung. Zeige uns, was du kannst!

Individuelle Bewerbung ist der Schlüssel!:Jede Bewerbung sollte individuell auf United States Digital Space LLC und die ausgeschriebene Position Senior DevOps / Platform Reliability Engineer zugeschnitten sein. Teile uns mit, warum gerade du eine gute Wahl für unser Team bist. Das zeigt dein Engagement und deine Motivation, die über eine Standardbewerbung hinausgeht.

Wie man sich auf ein Vorstellungsgespräch bei United States Digital Space LLC vorbereitet

Technische Vorbereitung ist alles!

Da du dich auf eine Vollzeitstelle in der IT-Beratung bewirbst, solltest du dir wirklich einen Überblick über die wichtigsten Tools und Technologien verschaffen, die in der Branche verwendet werden. Sei bereit, technische Fragen zu beantworten, die sich auf Software-Architektur oder Systemintegration beziehen könnten.

Praxisbeispiele parat haben

In der IT-Beratung ist es wichtig, konkrete Beispiele aus deiner bisherigen Erfahrung zu bringen. Überlege dir Projekte, bei denen du erfolgreich einen Kunden beraten hast oder Herausforderungen gelöst hast. Das zeigt, dass du nicht nur theoretisches Wissen hast, sondern auch in der Praxis erfolgreich sein kannst.

Soft Skills betonen

Ein großer Teil der IT-Beratung ist die Kommunikation mit Kunden und das Verständnis ihrer Bedürfnisse. Bereite dich darauf vor, über deine zwischenmenschlichen Fähigkeiten zu sprechen, wie du mit herausfordernden Kunden umgehst oder wie du in Teams arbeitest. Das wird den Interviewern zeigen, dass du mehr als nur technisches Wissen mitbringst!

Fragen zum Unternehmen vorbereiten

Schau dir spezifisch die Projekte von United States Digital Space LLC an und überlege dir, welche Fragen du dazu stellen möchtest. Zeig Interesse an den aktuellen Herausforderungen, vor denen das Unternehmen steht, und wie du dazu beitragen könntest. Das hebt dich von anderen Bewerbern ab und zeigt, dass du wirklich motiviert bist.