Auf einen Blick
- Aufgaben: Gestalte und verbessere die wissenschaftliche Methodik hinter unseren Pre-Training-Daten.
- Arbeitgeber: Aleph Alpha, ein führendes Unternehmen in der KI-Forschung in Europa.
- Mitarbeitervorteile: 30 Tage Urlaub, Fitnessangebote, mentale Gesundheitsunterstützung und flexible Arbeitszeiten.
- Andere Informationen: Flache Hierarchien und eine Kultur der Eigenverantwortung fördern kreatives Arbeiten.
- Warum dieser Job: Arbeite an innovativen KI-Projekten und beeinflusse die Zukunft der Sprachmodelle.
- Gewünschte Qualifikationen: Starkes Verständnis von maschinellem Lernen und Erfahrung mit großen Sprachmodellen.
Das voraussichtliche Gehalt liegt zwischen 65000 - 85000 € pro Jahr.
Standort: Heidelberg
Beschäftigungsart: Vollzeit
Standorttyp: Hybrid
Abteilung: Forschung
Unsere Mission
Aleph Alpha ist eines der wenigen Unternehmen in Europa, das ernsthafte Grundlagenmodell-Vortrainings durchführt. Unsere Kunden - in den Bereichen Finanzen, Fertigung und öffentliche Verwaltung - benötigen Modelle, die Deutsch verstehen, europäischen regulatorischen Anforderungen entsprechen und zuverlässig in hochriskanten Umgebungen arbeiten. Wir bauen das in Heidelberg auf.
Wir erweitern unser Vortrainingsteam und suchen jemanden, der leidenschaftlich an Daten arbeitet: definiert, was in unsere Modelle eingeht, baut die Systeme, die diese beschaffen und vorbereiten, und stellt sicher, dass unser Trainingsteam die hochwertigsten Daten hat, um die Modellfähigkeiten voranzutreiben.
Teamkultur
Bei Aleph Alpha fördern wir eine Kultur, die auf Eigenverantwortung, Autonomie und Empowerment basiert. Teams und Einzelpersonen werden ermutigt, Verantwortung für ihre Arbeit zu übernehmen und einen bedeutenden Einfluss auszuüben. Wir pflegen eine flache Organisationsstruktur mit effizientem, unterstützendem Management, das schnelle Entscheidungen, offene Kommunikation und ein starkes Gefühl von gemeinsamem Zweck ermöglicht.
Über die Rolle
Als Senior AI Researcher für Vortraining Daten werden Sie die zugrunde liegende wissenschaftliche Methodik hinter unseren Vortraining-Korpora gestalten und verbessern sowie die Software und Systeme mitentwickeln, die dies ermöglichen. Sie arbeiten mit Ingenieuren und anderen Forschern zusammen, um skalierbare Pipelines zu erstellen, und konzentrieren sich auf relevante theoretische und empirische Forschung, um zu verstehen, welche Daten die Modelle am besten auf unsere Zielkapazitäten bringen.
Diese Rolle ist für Sie geeignet, wenn Sie über einen starken Hintergrund im großangelegten Sprachmodellieren verfügen und den wissenschaftlichen Antrieb haben, komplexe Fragen zu Daten-Skalierungsgesetzen, synthetischer Datengenerierung und Lehrplänen zu beantworten.
In Ihrem Alltag werden Sie gezielte Ablationsstudien über verschiedene Skalen entwerfen, Hypothesen aus Trainingsdynamiken ableiten und testen, neuartige Algorithmen zur Schätzung der Datenqualität und zur Durchführung der Datenkuratierung entwickeln sowie zu einer Reihe von Ingenieuraufgaben beitragen, die diese Forschungsrichtungen erleichtern. Zusammen mit einem kollaborativen Team von Ingenieuren und Forschern werden Sie direkten Einfluss auf das grundlegende Wissen und die Fähigkeiten der Modelle haben, die wir bereitstellen. Sie werden auch helfen oder die Erstellung technischer Berichte für interne und externe Leser leiten sowie nach Bedarf an technischen Meetings und Konferenzen teilnehmen und dazu beitragen.
Ihre Verantwortlichkeiten
- Innovation in datenorientierter KI: Bleiben Sie an der Spitze der Grundlagenforschungsmodelle. Sie identifizieren, implementieren und iterieren neuartige Ansätze zur Schätzung der Datenqualität, zur synthetischen Datengenerierung, zum Curriculum-Lernen und zu fortgeschrittenen Kuratierungstechniken.
- Daten-zu-Leistung-Wissenschaft: Entwerfen und leiten Sie rigorose Ablationsstudien über verschiedene Skalen. Sie analysieren systematisch, wie Änderungen in der Datenzusammensetzung, Strategien zur Duplikatseliminierung, heuristische und modellbasierte Kuratierung sowie Skalierungsgesetze die Trainingsdynamik und die Zielmodelle und -systemfähigkeiten beeinflussen.
- Entwicklung neuartiger Qualitätsindikatoren: Gehen Sie über grundlegendes Perplexitätsfiltern hinaus. Forschen und entwickeln Sie fortschrittliche Algorithmen zur Bewertung und Auswahl von Daten, wie Einflussfunktionen, gradientenbasierte Übereinstimmung oder die Verwendung kleinerer Modelle zur Kuratierung von Daten für größere.
- Interdisziplinäre Zusammenarbeit: Arbeiten Sie eng mit einem vielfältigen Team zusammen, um Ihre Forschung von Prototypen zu Pipelines im Billionen-Tokens-Maßstab zu skalieren, und arbeiten Sie mit dem Nachtrainingsteam zusammen, um sicherzustellen, dass die Vortraining-Verteilungen effektiv die gezielte Feinabstimmung und Kundenanpassung unterstützen.
Ihr Profil
Grundqualifikationen:
- Tiefes Verständnis der maschinellen Lernens-Theorie, insbesondere bezüglich der Trainingsdynamik von Grundlagenmodellen, Skalierungsgesetzen und datenorientierter KI.
- Erfahrung in der Gestaltung und Bewertung komplexer ML-Experimente im Zusammenhang mit Datenzusammensetzung, Curriculum-Lernen oder Datenqualität beim Training von Sprachmodellen.
- Vertrautheit mit statistischen Methoden zur Bewertung und Versuchsplanung.
- Fähigkeit, über die informationstheoretischen Eigenschaften eines Datensatzes und dessen prädiktive Kraft für bewertete Aufgaben nachzudenken: nicht nur Daten zu verarbeiten, sondern deren Signal zu verstehen.
- Starke Python-Kenntnisse und Vertrautheit mit ML-Tools und Deep-Learning-Frameworks (insbesondere PyTorch).
- Bereitschaft, nach Heidelberg umzuziehen oder mindestens alle zwei Wochen zu reisen.
Bevorzugte Qualifikationen:
- Doktortitel in maschinellem Lernen, NLP oder gleichwertige Forschungserfahrung mit Fokus auf großangelegtes Sprachmodellieren oder Datenkuratierung.
- Eine Geschichte von Beiträgen zu erstklassigen Veranstaltungen (NeurIPS, ICML, ICLR, ACL usw.), insbesondere in Bezug auf Datenkuratierung, Skalierungsgesetze, synthetische Daten oder LLM-Vortraining.
- Erfahrung im Training von Grundlagenmodellen von Grund auf und Diagnose von datengestützten Trainingspathologien.
- Deutschkenntnisse können hilfreich sein, um deutschsprachige Daten zu kuratieren und zu bewerten.
Vergütung und Vorteile:
- 30 Tage bezahlter Urlaub
- Zugang zu einer Vielzahl von Fitness- und Wellnessangeboten über Wellhub
- Unterstützung der psychischen Gesundheit durch nilo.health
- Substantielle subventionierte betriebliche Altersvorsorge für Ihre zukünftige Sicherheit
- Subventioniertes deutschlandweites Verkehrsticket
- Budget für zusätzliche technische Ausrüstung
- Flexible Arbeitszeiten für eine bessere Work-Life-Balance und hybrides Arbeitsmodell
- Virtuelles Aktienoptionsprogramm
- JobRad Fahrrad-Leasing
Senior AI Researcher - Pre-training Data Arbeitgeber: Aleph Alpha
Kontaktperson:
Aleph Alpha HR Team
StudySmarter Bewerbungstipps 🤫
So bekommst du den Job: Senior AI Researcher - Pre-training Data
✨Tipp Nummer 1
Netzwerken ist der Schlüssel! Nutze Plattformen wie LinkedIn, um mit Leuten aus der Branche in Kontakt zu treten. Lass uns wissen, wenn du Hilfe beim Erstellen eines ansprechenden Profils brauchst!
✨Tipp Nummer 2
Bereite dich auf Vorstellungsgespräche vor, indem du häufige Fragen und technische Herausforderungen übst. Wir können dir helfen, die besten Ressourcen zu finden, um deine Fähigkeiten zu verbessern und selbstbewusst aufzutreten.
✨Tipp Nummer 3
Sei proaktiv und zeige dein Interesse! Wenn du eine Stelle siehst, die dir gefällt, zögere nicht, direkt über unsere Website zu bewerben. Wir lieben es, wenn Bewerber Initiative zeigen!
✨Tipp Nummer 4
Bleib dran und sei geduldig! Der Jobmarkt kann herausfordernd sein, aber wir sind hier, um dich zu unterstützen. Nutze unsere Plattform, um deine Fortschritte zu verfolgen und neue Möglichkeiten zu entdecken.
Diese Fähigkeiten machen dich zur top Bewerber*in für die Stelle: Senior AI Researcher - Pre-training Data
Tipps für deine Bewerbung 🫡
Sei authentisch!: Zeig uns, wer du wirklich bist! Deine Persönlichkeit und Leidenschaft für das Thema sind genauso wichtig wie deine Qualifikationen. Lass uns wissen, warum du dich für die Stelle interessierst und was dich motiviert.
Mach es konkret!: Verwende konkrete Beispiele aus deiner bisherigen Erfahrung, um deine Fähigkeiten zu untermauern. Erzähl uns von Projekten, an denen du gearbeitet hast, und wie du Herausforderungen gemeistert hast. Das gibt uns einen besseren Einblick in deine Arbeitsweise.
Achte auf die Details!: Korrekte Rechtschreibung und Grammatik sind ein Muss! Nimm dir die Zeit, deine Bewerbung sorgfältig zu überprüfen. Ein gut strukturiertes Dokument zeigt, dass du Wert auf Qualität legst – genau wie wir bei StudySmarter.
Bewirb dich über unsere Website!: Der einfachste Weg, um Teil unseres Teams zu werden, ist, dich direkt über unsere Website zu bewerben. So stellst du sicher, dass deine Bewerbung schnell und effizient bearbeitet wird. Wir freuen uns darauf, von dir zu hören!
Wie du dich auf ein Vorstellungsgespräch bei Aleph Alpha vorbereitest
✨Verstehe die Grundlagen
Mach dich mit den neuesten Entwicklungen im Bereich der Grundlagenmodelle vertraut. Lies aktuelle Forschungsarbeiten und verstehe, wie Datenqualität und -komposition die Leistung von Modellen beeinflussen. Das zeigt dein Engagement und deine Fachkenntnisse.
✨Bereite konkrete Beispiele vor
Überlege dir spezifische Projekte oder Experimente, an denen du gearbeitet hast, die relevant für die Position sind. Sei bereit, über deine Erfahrungen mit Datenkuratierung, Curriculum Learning und der Anwendung von ML-Methoden zu sprechen. Das gibt dem Interviewer einen Einblick in deine praktische Erfahrung.
✨Zeige Teamgeist
Da die Rolle viel Zusammenarbeit erfordert, sei bereit, über deine Erfahrungen in interdisziplinären Teams zu sprechen. Betone, wie du mit anderen Forschern und Ingenieuren zusammengearbeitet hast, um komplexe Probleme zu lösen und innovative Lösungen zu entwickeln.
✨Fragen stellen
Bereite einige durchdachte Fragen vor, die sich auf die Unternehmenskultur, die aktuellen Herausforderungen im Team oder die spezifischen Projekte beziehen, an denen du arbeiten würdest. Das zeigt dein Interesse an der Position und hilft dir, herauszufinden, ob das Unternehmen zu dir passt.