Auf einen Blick
- Aufgaben: Optimizing systems infrastructure for large-scale RL training and improving end-to-end training efficiency.
- Unternehmen: Prime Intellect is focused on building the open superintelligence stack for AI advancements.
- Vorteile: Competitive compensation, flexible work arrangements, and quarterly team offsites.
- Weitere Informationen: Visa sponsorship and relocation support available for international candidates.
- Warum dieser Job: Join a deeply technical team to shape the future of AI infrastructure.
- Qualifikationen: Strong experience in AI/ML infrastructure, especially with PyTorch and distributed training frameworks.
Das prognostizierte Gehalt liegt zwischen 60000 - 80000 € pro Jahr.
Prime Intellect baut den offenen Superintelligenz-Stack: von fortschrittlichen agentischen Modellen bis hin zur Infrastruktur, die es jedem ermöglicht, diese zu trainieren, anzupassen und bereitzustellen. Wir vereinheitlichen global verteilte Rechenressourcen in einem einzigen Kontrollbereich und kombinieren dies mit dem vollständigen Reinforcement Learning Post-Training-Stack: Umgebungen, sichere Sandkästen, überprüfbare Bewertungen und unseren asynchronen RL-Trainer. Wir ermöglichen Forschern, Startups und Unternehmen, End-to-End-RL in großem Maßstab auszuführen und Modelle an reale Werkzeuge, Arbeitsabläufe und Bereitstellungsumgebungen anzupassen.
Wir suchen einen Research Engineer, der an der Systemebene hinter dem großflächigen RL-Training arbeitet. Diese Rolle ist für jemanden, der gerne tief in die Leistung eintaucht: Optimierung von Kernen, Verbesserung der Speicher- und Kommunikations-Effizienz, Skalierung verteilter Arbeitslasten und Steigerung des Durchsatzes und der Zuverlässigkeit von Trainingssystemen näher an die Hardwaregrenzen.
Was Sie bearbeiten werden:
- Aufbau und Optimierung der Systeminfrastruktur hinter großflächigem RL und verteilten Trainingsarbeitslasten.
- Verbesserung der End-to-End-Trainingseffizienz über Rechenleistung, Speicher, Netzwerk und Planungsschichten.
- Entwurf und Implementierung von Low-Level-Leistungsoptimierungen, einschließlich Kernen, Kommunikationspfaden und Laufzeitverbesserungen.
- Arbeiten an verteilten Trainingssystemen, die Daten-, Tensor- und Pipeline-parallele Arbeitslasten umfassen.
- Mitgestaltung der Architektur unseres RL-Training-Stacks, einschließlich asynchroner Rollouts und Post-Training-Systeme.
- Beitrag zu Open-Source-Bibliotheken und interner Infrastruktur, die für das Training von Modellen im Grenzbereich verwendet wird.
- Enger Austausch mit Forschern und Infrastruktur-Ingenieuren, um Engpässe in konkrete Systemverbesserungen umzusetzen.
- Aktualität in Bezug auf Trainingssysteme, Inferenzsysteme, Compiler/Laufzeit-Tools und hardwarebewusste Optimierungstechniken.
Sie könnten passen, wenn Sie:
- Starke Erfahrung in der Systemtechnik im Bereich AI/ML-Infrastruktur haben, insbesondere im Zusammenhang mit großflächigem Modelltraining oder Inferenz.
- Tiefe Vertrautheit mit PyTorch und verteilten Trainingsframeworks wie PyTorch Distributed, DeepSpeed, FSDP, Megatron, vLLM, Ray oder verwandten Tools.
- Erfahrung in der Optimierung der Trainingsleistung über Kerne, Speicherbewegung, Kommunikationsüberhead oder Parallelisierungsstrategien haben.
- Praktische Erfahrung mit Techniken des großflächigen Trainings, einschließlich Datenparallelismus, Tensorparallelismus und Pipelineparallelismus.
- Ein starkes Verständnis der GPU-Architektur, Profilierung und Leistungsdebugging haben.
- Die Fähigkeit besitzen, Engpässe im gesamten Stack zu identifizieren und Verbesserungen aus ersten Prinzipien voranzutreiben.
- Komfortabel in einem sich schnell bewegenden Umfeld mit mehrdeutigen Problemen und hoher Eigenverantwortung arbeiten.
Besonders spannend:
- Erfahrung im Schreiben oder Optimieren von CUDA / Triton-Kernen.
- Erfahrung mit Compiler- oder Laufzeitoptimierung für ML-Systeme.
- Erfahrung in der Arbeit an RL-Trainingsinfrastrukturen, Rollout-Systemen oder asynchronen Trainingspipelines.
- Erfahrung mit Multi-Node-GPU-Clustern und Hochleistungsnetzwerken.
- Beiträge zu Open-Source-ML-Systemen oder Infrastrukturprojekten.
- Interesse an der Veröffentlichung technischer Arbeiten oder dem Teilen von Erkenntnissen durch technische Blogs und technische Schreibarbeiten.
Warum diese Rolle wichtig ist:
Die nächste Grenze in der KI wird nicht nur durch Modelle freigeschaltet. Sie wird durch Systeme freigeschaltet, die es diesen Modellen ermöglichen, schneller zu trainieren, kontinuierlich zu adaptieren und in realen Umgebungen im großen Maßstab zu operieren. Diese Infrastruktur existiert noch nicht in der Form, die die Welt benötigt. Wir bauen sie.
Vorteile & Anreize:
- Wettbewerbsfähige Vergütung, einschließlich Eigenkapital.
- Flexible Arbeitsbedingungen, mit der Option, remote oder persönlich von unserem Büro in San Francisco aus zu arbeiten.
- Visumsponsoring und Umzugshilfe für internationale Kandidaten.
- Vierteljährliche Team-Offsites, Hackathons, Konferenzen und Lernmöglichkeiten.
- Ein tief technisch orientiertes, hochverantwortliches Team, das an der Infrastruktur für offene Superintelligenz arbeitet.
Wenn Sie begeistert sind, die Systemgrundlage für großflächiges RL und offene Superintelligenz aufzubauen, würden wir uns freuen, von Ihnen zu hören.
Research Engineer - RL Infrastructure Arbeitgeber: Dormont Manufacturing Co
Prime Intellect is located in San Francisco and offers competitive compensation and flexible work options. The team is deeply technical, focusing on building infrastructure for open superintelligence, making it an exciting place for innovation.
StudySmarter Expertenrat🤫
Wir sind der Meinung, dass Sie so Research Engineer - RL Infrastructure erhalten könnten
✨Engagier dich in Entwickler-Communities!
Lass uns mal ehrlich sein: In der Software-Entwicklung sind Netzwerke Gold wert! Tummel dich in GitHub-Projekten, nehme an lokalen Meetups oder Hackathons teil und vernetze dich mit anderen Entwicklern. So steigerst du nicht nur deine Sichtbarkeit, sondern lernst auch die neuesten Trends und Technologien kennen.
✨Zeig deine Fähigkeiten!
Erstelle ein Portfolio, das deine besten Projekte und Code-Examples zeigt. Nichts überzeugt mehr als ein praktischer Beweis deiner Skills. Das kann auch helfen, bei Dormont Manufacturing Co anzuklopfen, wenn du dich auf die Stelle als Research Engineer - RL Infrastructure bewirbst – so wissen sie gleich, was sie von dir erwarten können!
✨Nutze Jobplattformen speziell für Tech-Jobs!
Plattformen wie Stack Overflow Jobs oder AngelsList sind perfekte Orte, um Vollzeitstellen in der Software-Entwicklung zu finden. Hier sind viele tolle Unternehmen auf der Suche nach Talenten wie uns, also schau regelmäßig vorbei und bewirb dich direkt über die Website.
✨Such dir Mentoren und Feedback!
Hol dir Feedback von erfahrenen Entwicklern, die dir Tipps geben können, was Recruiter wirklich suchen. Ob über LinkedIn oder persönliche Kontakte: Menschen, die sich in der Branche auskennen, können enorm wertvoll sein, um dir zu helfen, dich optimal auf deine Bewerbung bei Dormont Manufacturing Co vorzubereiten!
Wir glauben, dass du diese Fähigkeiten brauchst, um Research Engineer - RL Infrastructure mit Bravour zu bestehen
Einige Tipps für deine Bewerbung 🫡
Highlights deiner Coding-Skills:In der Software-Entwicklung kommt es auf konkrete Fähigkeiten an. Vergiss nicht, relevante Programmiersprachen und Frameworks in deinen Lebenslauf aufzunehmen. Zeig uns, was du kannst – vielleicht mit einem Link zu deinem GitHub-Profil oder einer Übersicht deiner Side Projects, die deine Programmierkenntnisse illustrieren.
Dokumentation deiner Erfolge:Gerade bei einer Vollzeitstelle in der Software-Entwicklung sind konkrete Ergebnisse Gold wert. Nenn uns Zahlen und Ergebnisse aus deinen vorherigen Projekten. Hast du den Code optimiert oder Systemfehler behoben? Solche Erfolge zeigen, dass du die Sprache der Entwickler sprichst und einen echten Mehrwert bringst.
Attraktive Projektbeschreibungen:Wenn du an Projekten gearbeitet hast, die hervorstechen, beschreibe sie ausführlich in deinem Lebenslauf. Was war das Problem, das du gelöst hast? Welche Technologien hast du eingesetzt? Das gibt uns einen klaren Einblick in deine Herangehensweise und Problemlösungsfähigkeiten.
Motivation zeigen:In deinem Anschreiben solltest du deine Motivation für die Stelle im Bereich Software-Entwicklung bei Dormont Manufacturing Co klar herausstellen. Warum sprichst gerade du die Anforderungen für diese Vollzeitrolle an? Mach deutlich, was dich an der Arbeit bei uns reizt und wie du über das rein Technische hinaus wachsen möchtest.
Wie man sich auf ein Vorstellungsgespräch bei Dormont Manufacturing Co vorbereitet
✨Technische Vorbereitung auf die Coding-Challenges
In der Software-Entwicklung sind technische Fragen oft ein zentraler Teil des Interviews. Macht euch mit Plattformen wie LeetCode oder HackerRank vertraut, um eure Problemlösungsfähigkeiten zu trainieren. Zeigt im Interview viel Selbstbewusstsein beim Erklären eurer Ansätze!
✨Das eigene Portfolio im besten Licht präsentieren
Stellt sicher, dass ihr ein aussagekräftiges Portfolio habt, das einige eurer besten Projekte zeigt. Seid bereit, darüber zu sprechen, was eure Rolle war, welche Technologien ihr verwendet habt und welche Herausforderungen es gab. Das gibt den Interviewern einen Einblick in eure praktische Erfahrung.
✨Teamfähigkeit und Kommunikation betonen
In einer Vollzeit-Position wird Kommunikation im Team sehr wichtig sein. Seid bereit, Beispiele aus der Vergangenheit zu teilen, in denen ihr effektiv im Team gearbeitet habt. Dies zeigt, dass ihr nicht nur technische Fähigkeiten habt, sondern auch gut ins Team passt.
✨Vorbereitung auf Fragen zur Software-Architektur
Bereitet euch darauf vor, Fragen zur Software-Architektur zu beantworten. Themen wie RESTful APIs, Microservices und Cloud-Architekturen können Teil eures Interviews sein. Zeigt euer Verständnis durch Diskussionen und Beispiele aus eurer bisherigen Arbeit oder Projekte.