Staff Engineer, Distributed Storage and HPC & AI Infrastructure

Staff Engineer, Distributed Storage and HPC & AI Infrastructure

Vollzeit 60000 - 80000 € / Jahr (geschätzt) Kein Homeoffice möglich
Dormont Manufacturing Co

Auf einen Blick

  • Aufgaben: Entwickle und liefere mehrpetabyte große Speichersysteme für KI-Workloads.
  • Unternehmen: Führendes Unternehmen im Bereich HPC und KI-Infrastruktur mit innovativer Kultur.
  • Vorteile: Attraktives Gehalt, Gesundheitsleistungen und Möglichkeiten zur beruflichen Weiterentwicklung.
  • Weitere Informationen: Dynamisches Umfeld mit hervorragenden Karrierechancen und der Möglichkeit, an Open-Source-Projekten mitzuwirken.
  • Warum dieser Job: Gestalte die Zukunft der KI mit modernster Technologie und mache einen echten Unterschied.
  • Qualifikationen: Mindestens 8 Jahre Erfahrung in der Speichertechnik und starke Programmierkenntnisse in Go und Python.

Das prognostizierte Gehalt liegt zwischen 60000 - 80000 € pro Jahr.

In dieser Rolle entwerfen und liefern Sie Multi-Petabyte-Speichersysteme, die speziell für die größten KI-Trainings- und Inferenzlasten der Welt entwickelt wurden. Sie werden leistungsstarke parallele Dateisysteme und Objektspeicher entwerfen, modernste Technologien wie WekaFS, Ceph und Lustre bewerten und integrieren sowie aggressive Kostenoptimierungen vorantreiben – regelmäßig 30‑50% Einsparungen durch intelligentes Tiering, Lebenszyklusrichtlinien, Kapazitätsprognosen und Anpassung der Größe.

Sie werden auch Kubernetes-native Speicheroperatoren und Self-Service-Plattformen erstellen, die automatisierte Bereitstellung, strikte Multi-Tenant-Isolation, Leistungsisolierung und Quotenüberwachung auf Clustergröße bieten. Im Tagesgeschäft optimieren Sie End-to-End-Datenpfade für 10‑50 GB/s pro Knoten, entwerfen Multi-Tier-Caching-Architekturen, implementieren intelligentes Vorabladen und Modellgewichtverteilung und optimieren parallele Dateisysteme für KI-Workloads.

Verantwortlichkeiten

  • Entwerfen von Multi-Petabyte AI/ML-Speichersystemen; Integration von WekaFS, Ceph usw.; Leitung der Kapazitätsplanung und Kostenoptimierung (30‑50% Einsparungen über Tiering, Lebenszyklusrichtlinien, Anpassung der Größe).
  • Entwerfen/Optimieren von RDMA, InfiniBand, 400 GbE-Netzwerken; Abstimmung auf maximale Durchsatz-/minimale Latenz; Implementierung von NVMe‑oF/iSCSI; Behebung von Engpässen; Optimierung von TCP/IP für Speicher.
  • Erstellen von Kubernetes-Speicheroperatoren/-controllern; Ermöglichung automatisierter Bereitstellung, Self-Service-Abstraktionen, Multi-Tenant-Isolation, Quoten; Erstellen wiederverwendbarer Helm/Terraform-Muster.
  • Liefern von 10‑50 GB/s pro GPU-Knoten; Optimierung des Cachings (Gewichte/Datenmengen/Checkpoints), paralleler Dateisysteme und Datenpfade; Fehlerbehebung mit Profiling-Tools; Skalierung auf Tausende von Knoten.
  • Erstellen von Multi-Tier-Caches (lokal NVMe, verteilt, Objekt); Optimierung der Datenlokalität und Modellgewichtverteilung; Implementierung von intelligentem Vorabladen/Entfernen.
  • Implementierung von Überwachung, Alarmierung, SLOs; Entwurf von DR/Backups mit Runbooks; Durchführung von Chaos-Engineering; Sicherstellung von 99,9%+ Uptime durch proaktive/automatisierte Remediation.
  • Partnerschaft mit ML/SRE-Teams; Mentoring zu Speicherbest Practices; Beitrag zu Open-Source; Schreiben von Dokumentationen, Postmortems und öffentlichen Erkenntnissen.

Anforderungen

  • 8+ Jahre Erfahrung in der Speichertechnik mit 3+ Jahren in der Verwaltung verteilter Speicher bei Multi-Petabyte-Skala.
  • Nachweisliche Erfolge beim Bereitstellen und Betreiben von Hochleistungs-Speichern für GPU/HPC-Cluster.
  • Tiefe Kubernetes- und cloud-native Speichererfahrung in Produktionsumgebungen.
  • Starke Programmierkenntnisse in Go und Python mit nachgewiesener Fähigkeit, produktionsreife Tools zu erstellen.
  • BS/MS in Informatik, Ingenieurwesen oder gleichwertige praktische Erfahrung.
  • Geschichte technischer Führung: Entwurf von Systemen, die die Leistung erheblich verbessert haben.

Staff Engineer, Distributed Storage and HPC & AI Infrastructure Arbeitgeber: Dormont Manufacturing Co

Als Arbeitgeber bieten wir Ihnen die Möglichkeit, an der Spitze der Technologie zu arbeiten und innovative Lösungen für die größten AI-Trainings- und Inferenzlasten zu entwickeln. Unsere Unternehmenskultur fördert Kreativität und Zusammenarbeit, während wir gleichzeitig umfangreiche Weiterbildungsmöglichkeiten und Karriereentwicklung bieten, um Ihre Fähigkeiten kontinuierlich zu erweitern. Darüber hinaus profitieren Sie von einem flexiblen Arbeitsumfeld in einer dynamischen Stadt, die eine hohe Lebensqualität und zahlreiche Freizeitmöglichkeiten bietet.

Dormont Manufacturing Co

Kontaktdaten:

Dormont Manufacturing Co Recruiting-Team

StudySmarter Expertenrat🤫

Wir sind der Meinung, dass Sie so Staff Engineer, Distributed Storage and HPC & AI Infrastructure erhalten könnten

Engagier dich in Entwickler-Communities!

Lass uns mal ehrlich sein: In der Software-Entwicklung sind Netzwerke Gold wert! Tummel dich in GitHub-Projekten, nehme an lokalen Meetups oder Hackathons teil und vernetze dich mit anderen Entwicklern. So steigerst du nicht nur deine Sichtbarkeit, sondern lernst auch die neuesten Trends und Technologien kennen.

Zeig deine Fähigkeiten!

Erstelle ein Portfolio, das deine besten Projekte und Code-Examples zeigt. Nichts überzeugt mehr als ein praktischer Beweis deiner Skills. Das kann auch helfen, bei Dormont Manufacturing Co anzuklopfen, wenn du dich auf die Stelle als Staff Engineer, Distributed Storage and HPC & AI Infrastructure bewirbst – so wissen sie gleich, was sie von dir erwarten können!

Nutze Jobplattformen speziell für Tech-Jobs!

Plattformen wie Stack Overflow Jobs oder AngelsList sind perfekte Orte, um Vollzeitstellen in der Software-Entwicklung zu finden. Hier sind viele tolle Unternehmen auf der Suche nach Talenten wie uns, also schau regelmäßig vorbei und bewirb dich direkt über die Website.

Such dir Mentoren und Feedback!

Hol dir Feedback von erfahrenen Entwicklern, die dir Tipps geben können, was Recruiter wirklich suchen. Ob über LinkedIn oder persönliche Kontakte: Menschen, die sich in der Branche auskennen, können enorm wertvoll sein, um dir zu helfen, dich optimal auf deine Bewerbung bei Dormont Manufacturing Co vorzubereiten!

Wir glauben, dass du diese Fähigkeiten brauchst, um Staff Engineer, Distributed Storage and HPC & AI Infrastructure mit Bravour zu bestehen

Design von Multi-Petabyte-Speichersystemen
Integration von WekaFS, Ceph und Lustre
Kapazitätsplanung
Kostenoptimierung
Optimierung von RDMA und InfiniBand
Implementierung von NVMe-oF/iSCSI
Fehlerbehebung von Engpässen

Einige Tipps für deine Bewerbung 🫡

Highlights deiner Coding-Skills:In der Software-Entwicklung kommt es auf konkrete Fähigkeiten an. Vergiss nicht, relevante Programmiersprachen und Frameworks in deinen Lebenslauf aufzunehmen. Zeig uns, was du kannst – vielleicht mit einem Link zu deinem GitHub-Profil oder einer Übersicht deiner Side Projects, die deine Programmierkenntnisse illustrieren.

Dokumentation deiner Erfolge:Gerade bei einer Vollzeitstelle in der Software-Entwicklung sind konkrete Ergebnisse Gold wert. Nenn uns Zahlen und Ergebnisse aus deinen vorherigen Projekten. Hast du den Code optimiert oder Systemfehler behoben? Solche Erfolge zeigen, dass du die Sprache der Entwickler sprichst und einen echten Mehrwert bringst.

Attraktive Projektbeschreibungen:Wenn du an Projekten gearbeitet hast, die hervorstechen, beschreibe sie ausführlich in deinem Lebenslauf. Was war das Problem, das du gelöst hast? Welche Technologien hast du eingesetzt? Das gibt uns einen klaren Einblick in deine Herangehensweise und Problemlösungsfähigkeiten.

Motivation zeigen:In deinem Anschreiben solltest du deine Motivation für die Stelle im Bereich Software-Entwicklung bei Dormont Manufacturing Co klar herausstellen. Warum sprichst gerade du die Anforderungen für diese Vollzeitrolle an? Mach deutlich, was dich an der Arbeit bei uns reizt und wie du über das rein Technische hinaus wachsen möchtest.

Wie man sich auf ein Vorstellungsgespräch bei Dormont Manufacturing Co vorbereitet

Technische Vorbereitung auf die Coding-Challenges

In der Software-Entwicklung sind technische Fragen oft ein zentraler Teil des Interviews. Macht euch mit Plattformen wie LeetCode oder HackerRank vertraut, um eure Problemlösungsfähigkeiten zu trainieren. Zeigt im Interview viel Selbstbewusstsein beim Erklären eurer Ansätze!

Das eigene Portfolio im besten Licht präsentieren

Stellt sicher, dass ihr ein aussagekräftiges Portfolio habt, das einige eurer besten Projekte zeigt. Seid bereit, darüber zu sprechen, was eure Rolle war, welche Technologien ihr verwendet habt und welche Herausforderungen es gab. Das gibt den Interviewern einen Einblick in eure praktische Erfahrung.

Teamfähigkeit und Kommunikation betonen

In einer Vollzeit-Position wird Kommunikation im Team sehr wichtig sein. Seid bereit, Beispiele aus der Vergangenheit zu teilen, in denen ihr effektiv im Team gearbeitet habt. Dies zeigt, dass ihr nicht nur technische Fähigkeiten habt, sondern auch gut ins Team passt.

Vorbereitung auf Fragen zur Software-Architektur

Bereitet euch darauf vor, Fragen zur Software-Architektur zu beantworten. Themen wie RESTful APIs, Microservices und Cloud-Architekturen können Teil eures Interviews sein. Zeigt euer Verständnis durch Diskussionen und Beispiele aus eurer bisherigen Arbeit oder Projekte.