Senior Site Reliability Engineer (m/w/d)
Du nutzt Infrastructure as Code, um unsere Plattformen zu standardisieren und skalierbar weiterzuentwickeln, und optimierst kontinuierlich unsere CI/CD-Pipelines, um sichere, resiliente und effiziente Delivery-Prozesse sicherzustellen.
Mit GitOps-Praktiken und Kubernetes-Orchestrierung reduzierst du operative Komplexität und ermöglichst stabile, planbare Deployments, die die geschäftskritischen Workloads unserer Kund*innen zuverlässig unterstützen.
Du übernimmst End-to-End-Verantwortung für Reliability, förderst eine Kultur der kontinuierlichen Verbesserung und gehst bei der Lösung komplexer technischer Herausforderungen mit gutem Beispiel voran.
Deine Aufgaben- Sicherstellung der Zuverlässigkeit, Verfügbarkeit und Performance unserer Database- und Observability-as-a-Service-Produkte
- Betrieb containerbasierter Anwendungen in Kubernetes mit starkem Fokus auf Sicherheit und Resilienz
- Leitung von Incident-Response-Maßnahmen, Root-Cause-Analysen sowie nachhaltiger Fehlerbehebung
- Anwendung von GitOps-Prinzipien mit Helm und Argo CD
- Entwicklung von API-Services und Tools in Go zur Bereitstellung stabiler SaaS-Produkte
- Aufbau und Optimierung von CI/CD-Pipelines zur Erhöhung von Deployment-Sicherheit und Systemstabilität
- Design und Verwaltung skalierbarer Infrastrukturen mit Infrastructure-as-Code-Tools (z. B. Terraform) in Cloud-Umgebungen
Unsere Technologien und Tech Stack:
- Go, Python, Bash
- OpenStack, Kubernetes, Cilium, Envoy, Kyverno
- Terraform, Crossplane, Argo CD, GitLab CI
- PostgreSQL, Grafana, Loki, Mimir
- Mehrjährige Erfahrung im Betrieb hochverfügbarer Systeme in Linux- und Kubernetes-Umgebungen
- Fundiertes Verständnis von Observability-Konzepten (Monitoring, Logging, Tracing)
- Praktische Entwicklungserfahrung in Go (Kenntnisse in Python oder Rust sind von Vorteil)
- Erfahrung mit Infrastructure-as-Code-Tools wie Terraform oder OpenTofu
- Praxiserfahrung im Incident Management sowie in strukturierten Root-Cause-Analysen
- Vertrautheit mit CI-Systemen, insbesondere GitLab CI
- Ausgeprägte Problemlösungskompetenz sowie gute Kommunikationsfähigkeiten in Deutsch und Englisch (mindestens B2-Niveau)
Bei SysEleven übernimmst du Verantwortung für die Zuverlässigkeit kundennaher Services wie Database as a Service und Observability as a Service, die tief in unsere Cloud- und Kubernetes-Plattform integriert sind.
Du arbeitest aktiv am täglichen Betrieb und an der kontinuierlichen Weiterentwicklung dieser Services mit - mit Fokus auf Stabilität, Performance und Automatisierungsreife.
Wir leben eine blameless Culture, offene Kommunikation und aktiven Wissensaustausch - im Arbeitsalltag, bei internen „Show & Tell “-Sessions oder auf externen Konferenzen. Du erhältst den Freiraum, Reliability-Themen strategisch voranzutreiben und gemeinsam mit dem Team nachhaltige, robuste Plattformlösungen zu gestalten.
Auf diese Stelle bewerben
Über unsBei SysEleven in Berlin realisieren wir erstklassige Cloud-Lösungen auf Basis von Kubernetes und OpenStack und stehen dabei konsequent für digitale Souveränität.
Wir leben Diversität - auch im Denken und Handeln, denn nur unterschiedliche Blickwinkel finden am Ende die beste Lösung, die uns und unsere Kunden weiterbringt. Kurz gesagt: Wir achten aufeinander und hängen uns voll rein. Wenn du in diesem vertrauensvollen Umfeld wachsen und die Zukunft flexibler Infrastrukturen mitprägen willst, bist du bei uns genau richtig.