Post-Training Engineer - Apertus

Jobbörse

Unternehmen

École polytechnique fédérale de Lausanne, EPFL

Post-Training Engineer - Apertus

Lausanne Vollzeit 45000 - 65000 € / Jahr (geschätzt) Kein Homeoffice möglich

Auf einen Blick

Aufgaben: Entwickle und führe post-training Pipelines für das Apertus-Projekt durch.
Unternehmen: EPFL, eine der besten technischen Universitäten weltweit.
Vorteile: Flexibles Arbeiten, professionelle Entwicklung und Zugang zu modernster Supercomputing-Infrastruktur.
Weitere Informationen: Werde Teil eines dynamischen Teams und trage zur Entwicklung von Technologien mit nationaler Bedeutung bei.
Warum dieser Job: Arbeite an bahnbrechenden KI-Forschungsprojekten mit globaler Wirkung.
Qualifikationen: MSc oder PhD in Informatik, Data Science oder verwandten Bereichen.

Das prognostizierte Gehalt liegt zwischen 45000 - 65000 € pro Jahr.

Die EPFL, die Eidgenössische Technische Hochschule Lausanne, ist einer der dynamischsten Universitätsstandorte in Europa und gehört zu den 20 besten Universitäten weltweit. Die EPFL beschäftigt mehr als 6.500 Personen, die die drei Hauptmissionen der Institutionen unterstützen: Bildung, Forschung und Innovation. Der EPFL-Campus bietet ein außergewöhnliches Arbeitsumfeld im Herzen einer Gemeinschaft von mehr als 18.500 Menschen, darunter über 14.000 Studierende und 4.000 Forscher aus mehr als 120 verschiedenen Ländern.

Das Apertus-Projekt, eine gemeinsame Initiative zwischen der EPFL und der ETH Zürich, sucht einen praktischen und motivierten Ingenieur, der dabei hilft, die nächste Generation von offenen Fundamentmodellen zu entwickeln. Der erfolgreiche Kandidat wird dazu beitragen, Post-Training- und Reinforcement-Learning-Pipelines für das Apertus-Projekt zu entwickeln und auszuführen. Apertus wird auf Alps, der Supercomputing-Infrastruktur des Schweizer Nationalen Supercomputing-Zentrums, trainiert und entwickelt. Die Rolle erfordert jemanden, der sich in einer HPC-Umgebung wohlfühlt und mit Forschern und Infrastruktur-Ingenieuren zusammenarbeitet.

Hauptaufgaben und Verantwortlichkeiten

Beitrag zur Entwicklung, Ausführung und Bewertung skalierbarer Post-Training-Workflows für Apertus.
Aufbau und Wartung containerisierter Umgebungen für LLM-Post-Training- und RL-Workloads.
Anpassung von Containern und Abhängigkeiten für die Ausführung auf der Alps / CSCS-Infrastruktur.
Ausführen und Überwachen von Slurm-basierten Trainings- und Evaluierungsjobs.
Fehlerbehebung bei Problemen im Zusammenhang mit verteilter Ausführung, Checkpointing, Dateisystemleistung, Netzwerk und GPU-Nutzung.
Hilfe bei der Pflege reproduzierbarer Trainingsrezepte, Konfigurationsdateien, Startskripten und Dokumentationen.
Zusammenarbeit mit Forschern und CSCS-Ingenieuren zur Verbesserung der Zuverlässigkeit und Leistung großangelegter Experimente.
Unterstützung von SFT, Präferenzoptimierung und Reinforcement-Learning-Workflows.
Aufbau und Ausführung von RL-Umgebungen für Aufgaben mit überprüfbaren Ergebnissen, wie Mathematik, Programmierung, Werkzeugnutzung und Schlussfolgerungen.
Entwicklung von Belohnungsmodellierung, Belohnungskalibrierung und verifizierungsbasiertem Training.
Generierung und Validierung synthetischer oder gym-Trainingsaufgaben.
Durchführung von Ablationsstudien zum Vergleich von Algorithmen, Belohnungsfunktionen, Datenmischungen, Hyperparametern und Infrastruktureinstellungen.
Bewertung des Modellverhaltens in Bezug auf Schlussfolgerungen, Programmierung, Mathematik, Befolgen von Anweisungen, Mehrsprachigkeit, Werkzeugnutzung und Sicherheitsbenchmarks.
Fehlerbehebung bei häufigen Post-Training-Problemen, einschließlich Optimierungsinstabilität, Belohnungshacking, Regressionen und Evaluierungsfehlern.

Profil

MSc oder PhD in Informatik, Datenwissenschaft, künstlicher Intelligenz, maschinellem Lernen oder einem verwandten Bereich. Außergewöhnliche BSc-Kandidaten mit starker Ingenieurerfahrung werden ebenfalls berücksichtigt.
Erfahrung in KI und neuronalen Netzwerkarchitekturen.
Starke Zusammenarbeit und Kommunikationsfähigkeiten sowie die Fähigkeit, über Forschungs- und Ingenieurteams hinweg zu arbeiten.

Bevorzugte Qualifikationen

Erfahrung mit Slurm oder einem anderen HPC-Workload-Manager.
Erfahrung im Aufbau oder in der Anpassung von Containern für HPC- oder GPU-Cluster.
Erfahrung mit LLM-Fine-Tuning, Post-Training, Präferenzoptimierung oder Reinforcement Learning.
Vertrautheit mit Konzepten des verteilten Trainings wie Datenparallelismus, Tensorparallelismus, Pipeline-Parallelismus, Checkpointing und GPU-Kommunikation.
Erfahrung mit Frameworks wie veRL, slime, Megatron-LM, DeepSpeed, TRL, vLLM, SGLang oder ähnlichen Tools.

Wünschenswert

Erfahrung mit RL für LLMs, Online-Policy-Optimierung, Belohnungsmodellierung oder RLVR.
Erfahrung in der Erstellung überprüfbarer Aufgaben für Mathematik, Programmierung, Schlussfolgerungen oder Werkzeugnutzung.
Vertrautheit mit niedrigstufigen GPU/verteilen Bibliotheken wie NCCL, Transformer Engine, FlashAttention oder Kommunikations-Backends.
Erfahrung mit großangelegten Evaluierungs-Pipelines.

Wir bieten

Ein anregendes akademisches Umfeld an einer der weltweit führenden technischen Universitäten.
Die Möglichkeit, mit modernster Supercomputing-Infrastruktur und hochmodernen KI-Forschungen zu arbeiten.
Zusammenarbeit mit führenden Forschern und Ingenieuren von EPFL, ETH Zürich, CSCS und anderen Schweizer Institutionen.
Flexible Arbeitsbedingungen, einschließlich Optionen für Remote-Arbeit.
Berufliche Entwicklungsmöglichkeiten, einschließlich Teilnahme an Konferenzen und spezialisierter Schulungen.
Die Chance, zu Open-Source-Projekten mit globaler Wirkung beizutragen.
Zugang zum breiteren Schweizer akademischen Ökosystem und Industriepartnerschaften.
Teil der souveränen KI-Entwicklung der Schweiz zu sein und an Technologien mit nationaler Bedeutung zu arbeiten.

Informationen

Vertragsbeginn: so bald wie möglich

Post-Training Engineer - Apertus Arbeitgeber: École polytechnique fédérale de Lausanne, EPFL

Die EPFL ist ein herausragender Arbeitgeber, der eine dynamische und innovative Arbeitsumgebung bietet, in der über 6.500 Mitarbeiter an Bildung, Forschung und Innovation arbeiten. Als Teil des Apertus-Projekts haben Sie die Möglichkeit, mit modernster Supercomputing-Infrastruktur zu arbeiten und mit führenden Forschern und Ingenieuren zusammenzuarbeiten. Die flexible Arbeitsgestaltung und die zahlreichen Möglichkeiten zur beruflichen Weiterentwicklung machen die EPFL zu einem attraktiven Arbeitsplatz für alle, die einen bedeutenden Beitrag zur KI-Forschung leisten möchten.

Kontaktdaten:

École polytechnique fédérale de Lausanne, EPFL Recruiting-Team

Profil von École polytechnique fédérale de Lausanne, EPFL anzeigen

Wir glauben, dass du diese Fähigkeiten brauchst, um Post-Training Engineer - Apertus mit Bravour zu bestehen

HPC-Umgebung

Containerisierung

Slurm

Debugging

Reproduzierbare Trainingsrezepte

Belohnungsmodellierung

Verstärkendes Lernen

Datenanalyse

Zusammenarbeit und Kommunikation

Neurale Netzwerkarchitekturen

LLM-Fine-Tuning

Verteiltes Training

GPU-Nutzung

Frameworks wie Megatron-LM oder DeepSpeed

Post-Training Engineer - Apertus

École polytechnique fédérale de Lausanne, EPFL

Standort: Lausanne

Post-Training Engineer - Apertus

Auf einen Blick

Post-Training Engineer - Apertus Arbeitgeber: École polytechnique fédérale de Lausanne, EPFL

Wir glauben, dass du diese Fähigkeiten brauchst, um Post-Training Engineer - Apertus mit Bravour zu bestehen

Unternehmen

Produkt

Help