Staff+ Software Engineer, Inference Runtime

Jobbörse

Unternehmen

United States Digital Space LLC

Staff+ Software Engineer, Inference Runtime

Vollzeit 60000 - 80000 € / Jahr (geschätzt) Kein Homeoffice möglich

Auf einen Blick

Aufgaben: Set technical direction for the inference runtime and mentor engineers through design reviews.
Unternehmen: The company focuses on creating reliable and interpretable AI systems for societal benefit.
Vorteile: Annual salary ranges from $405,000 to $485,000 with visa sponsorship available.
Weitere Informationen: Hybrid work policy requires at least 25% office presence.
Warum dieser Job: Join a rapidly growing team dedicated to building beneficial AI systems.
Qualifikationen: Requires 8+ years in software engineering with experience in ML infrastructure and performance optimization.

Das prognostizierte Gehalt liegt zwischen 60000 - 80000 € pro Jahr.

Über das Unternehmen: Die Mission des Unternehmens ist es, zuverlässige, interpretierbare und steuerbare KI-Systeme zu schaffen. Wir möchten, dass KI sicher und vorteilhaft für unsere Nutzer und die Gesellschaft als Ganzes ist. Unser Team ist eine schnell wachsende Gruppe von engagierten Forschern, Ingenieuren, Politikspezialisten und Geschäftsführern, die zusammenarbeiten, um nützliche KI-Systeme zu entwickeln.

Über die Rolle: Die Inferenzorganisation des Unternehmens bedient Claude mit der Geschwindigkeit, Zuverlässigkeit und Effizienz, die die neueste KI erfordert. Wir arbeiten über GPUs, TPUs und Trainium, und die Komplexität unserer Entwicklungsumgebung wächst mit jeder Plattform, die wir hinzufügen. Wir suchen einen Staff Engineer, der als technischer Leiter für Inference Runtime fungiert: das Team, das den gemeinsamen, beschleunigerunabhängigen Kern unseres Inferenz-Serviestacks besitzt, auf dessen Leistung, Korrektheit und Abstraktionen jeder Beschleuniger aufbaut. Dies ist eine Senior-IC-Rolle mit umfassender technischer Verantwortung. Sie werden die technische Richtung für die Architektur des Runtimes, seine Freigabe- und Validierungssysteme sowie die Workflows festlegen, die Ingenieure zur Entwicklung darauf verwenden. Sie werden mit dem Engineering Manager des Teams zusammenarbeiten, der für die Einstellung und Entwicklung von Mitarbeitern verantwortlich ist, während Sie die technische Roadmap besitzen und die Arbeit vorantreiben, indem Sie das Team in bereichsübergreifenden Bemühungen vertreten.

Wichtige Verantwortlichkeiten:

Technische Richtung für das Team festlegen, Architektur und Roadmap für das gemeinsame Runtime des Inferenz-Serviestacks besitzen und weiterentwickeln.
Das beschleunigerunabhängige Runtime selbst besitzen und weiterentwickeln – einschließlich praktischer Arbeit in einem leistungsempfindlichen Rust- und Python-Code.
Die Kosten für die Erweiterung der Plattform niedrig halten, indem sichergestellt wird, dass neue Modelle und Bereitstellungsziele nur für ihre eigene Spezialisierung bezahlen und Randfälle leicht wieder in den Kern integriert werden.
Effiziente Nutzung von Beschleunigern – Auslastung, Planung, Speicherverwaltung – über GPU, TPU und Trainium hinweg vorantreiben.
Die Validierungsoberfläche des Runtimes rund um partitionierte Builds, änderungsbezogene Tests und Canary/Shadow/Rollback als erstklassige Mechanismen aufbauen.
Als technischer Ansprechpartner für die zentrale Infrastrukturorganisation des Unternehmens fungieren und zur Leistung und Korrektheit des Runtimes beitragen.
Ingenieure im Team durch Design-Reviews, Code-Reviews und direkte Zusammenarbeit betreuen und die technischen Standards erhöhen.

Mindestens erforderliche Qualifikationen:

Tiefe Kenntnisse in Systems Engineering oder ML-Infrastruktur mit der Fähigkeit, praktisch mit Leistungsprofilierung, Latenz- und Durchsatzoptimierung sowie System-Debugging im großen Maßstab umzugehen.
Reale Tiefe in mindestens einem Beschleuniger-Ökosystem (CUDA/GPU, TPU oder Trainium/AWS Neuron) und echtes Interesse daran, das Runtime über alle hinweg unabhängig zu halten.
Signifikante Erfahrung in der Softwareentwicklung mit starkem Hintergrund in hochleistungsfähigen, großflächigen verteilten Systemen, die Millionen von Nutzern bedienen.
Erfahrung in der Definition und Nutzung von Ingenieurmetriken zur Verbesserung.
Starke schriftliche und mündliche Kommunikationsfähigkeiten und die Fähigkeit, technische Richtungen ohne formale Autorität zu beeinflussen.

Bevorzugte Qualifikationen:

8+ Jahre Erfahrung in der Softwareentwicklung, mit signifikanter Zeit als technischer Leiter oder Anker auf einer Plattform, Inferenz-Runtime oder ML-Infrastrukturteam.
Erfahrung mit ML-Compiler-Toolchains oder Beschleuniger-Treiber-/Firmware-Management im großen Maßstab.
Hintergrund in der Produktion als Validierungsoberfläche im großen Maßstab.
Erfahrung mit CI/CD-Systemen im großen Maßstab, insbesondere für Workloads mit Beschleunigerhardware.
Vertrautheit mit Kubernetes-basierten Entwicklungs- und Job-Planungsumgebungen.

Jährliche Vergütung: Die jährliche Vergütungsbandbreite für diese Rolle liegt zwischen $405,000 und $485,000 USD.

Logistik: Mindestbildung: Bachelor-Abschluss oder eine gleichwertige Kombination aus Bildung, Ausbildung und/oder Erfahrung. Erforderliches Studienfeld: Ein für die Rolle relevantes Feld, das durch Kursarbeit, Ausbildung oder berufliche Erfahrung nachgewiesen wird. Mindestjahre an Erfahrung: Die erforderlichen Jahre an Erfahrung korrelieren mit den internen Anforderungen für die Position.

Standortbasierte Hybridpolitik: Derzeit erwarten wir, dass alle Mitarbeiter mindestens 25% der Zeit in einem unserer Büros sind. Visa-Sponsoring: Wir sponsern Visa! Wir können jedoch nicht für jede Rolle und jeden Kandidaten erfolgreich Visa sponsern. Wir ermutigen Sie, sich zu bewerben, auch wenn Sie nicht glauben, dass Sie jede einzelne Qualifikation erfüllen.