Auf einen Blick
- Aufgaben: Entwickle und optimiere Datenpipelines für KI-Modelle und sorge für hochwertige Trainingsdaten.
- Arbeitgeber: Innovatives Unternehmen in Heidelberg, das an der Spitze der KI-Forschung steht.
- Mitarbeitervorteile: 30 Tage Urlaub, Fitnessangebote, mentale Gesundheitsunterstützung und flexible Arbeitszeiten.
- Andere Informationen: Flache Hierarchien und eine Kultur der Eigenverantwortung fördern kreatives Arbeiten.
- Warum dieser Job: Sei Teil einer KI-Revolution und beeinflusse die Zukunft der Technologie direkt.
- Gewünschte Qualifikationen: Erfahrung in Datenverarbeitung, Python-Kenntnisse und ein starkes Verständnis für ML-Infrastruktur.
Das voraussichtliche Gehalt liegt zwischen 60000 - 80000 € pro Jahr.
Unsere Mission
Aleph Alpha ist eines der wenigen Unternehmen in Europa, das ernsthaft an der Vortraining von Fundamentmodellen arbeitet. Unsere Kunden - in den Bereichen Finanzen, Fertigung und öffentliche Verwaltung - benötigen Modelle, die Deutsch verstehen, die europäischen Vorschriften entsprechen und zuverlässig in kritischen Anwendungen funktionieren. Wir bauen das in Heidelberg auf.
Wir erweitern unser Pre-Training-Team und suchen jemanden, der leidenschaftlich an Daten arbeitet: Definieren, was in unsere Modelle eingeht, Systeme aufbauen, die diese beschaffen und vorbereiten, und sicherstellen, dass unser Trainingsteam die hochwertigsten Daten hat, um die Modellfähigkeiten voranzutreiben.
Teamkultur
Bei Aleph Alpha fördern wir eine Kultur, die auf Eigenverantwortung, Autonomie und Empowerment basiert. Teams und Einzelpersonen werden ermutigt, Verantwortung für ihre Arbeit zu übernehmen und einen bedeutenden Einfluss auszuüben. Wir pflegen eine flache Organisationsstruktur mit effizientem, unterstützendem Management, das schnelle Entscheidungen, offene Kommunikation und ein starkes Gefühl gemeinsamer Ziele ermöglicht.
Über die Rolle
Als Senior AI Engineer im Bereich Pre-Training Data arbeiten Sie über den gesamten Stack der Datenvorbereitung hinweg - von der Beschaffung und Akquisition bis hin zu Verarbeitung, Filterung und Mischungsdesign. Einige Wochen werden Sie tief in die Datenqualitätsanalyse eintauchen, um zu verstehen, was ein Korpus wertvoll macht und wie seine Zusammensetzung die Leistung bei öffentlichen und maßgeschneiderten Bewertungsaufgaben beeinflusst. In anderen Wochen optimieren Sie großangelegte Verarbeitungs-Pipelines oder bauen Werkzeuge, die dem Team Einblick geben, worauf unsere Modelle tatsächlich trainiert werden. Und einige Wochen lesen Sie die neuesten Forschungen zu Methoden des Vortrainings von Daten und übersetzen die Erkenntnisse in Experimente, die Sie gegen unseren Stack durchführen können.
Wir gehen datenbezogene Arbeiten evidenzbasiert an. Entscheidungen über Filterstrategien, Datenmischungen und Qualitätsstandards werden durch Ablationen unterstützt - Sie entwerfen und führen gezielte Experimente durch, um zu validieren, dass Ihre Datenentscheidungen tatsächlich die Ergebnisse des Modells verbessern.
Wir suchen jemanden, der signifikante Forschungserfahrung (in der Industrie oder der Wissenschaft) mit hoher Ingenieurskompetenz kombiniert. Ihre Arbeit hat hohen Einfluss: Die Daten, die Sie beschaffen, kuratieren und synthetisieren, bestimmen direkt, was unsere Modelle lernen, wie gut sie abschneiden und wo sie Schwächen aufweisen. Sie haben direkten Einfluss auf die Modelle, die wir ausliefern.
Ihre Verantwortlichkeiten
- Co-Ownership der Datenpipelines von Anfang bis Ende: Entwerfen, Bauen und Warten der Infrastruktur, die vortrainierte Korpora in großem Maßstab beschafft, verarbeitet, dedupliziert, filtert und vorbereitet.
- Datenmischungen kuratieren und zusammenstellen: Definieren und Iterieren der Datenmischungen, die für das Vortraining verwendet werden - Ausbalancieren von Domänen, Sprachen, Qualitätsstufen und Lizenzanforderungen zur Maximierung der Modellfähigkeit.
- Werkzeuge zur Datenqualität aufbauen: Entwickeln von Klassifizierern, Heuristiken und Analyseframeworks, die die Datenqualität über Terabyte große Korpora messen und durchsetzen.
- Datenlücken schließen: Mit Evaluierungs- und Nachtrainingsteams zusammenarbeiten, um zu identifizieren, wo Modellschwächen auf Datenabdeckung zurückzuführen sind, und dann die benötigten Daten beschaffen oder generieren.
- Mit dem Nachtraining zusammenarbeiten: Eng mit dem Nachtrainingsteam zusammenarbeiten, um sicherzustellen, dass die Entscheidungen zu den Vortrainingsdaten die nachgelagerten Feinabstimmungs-, Ausrichtungs- und Bereitstellungsziele unterstützen.
- Co-Ownership der deutschsprachigen Daten: Sicherstellen einer tiefen, hochwertigen Abdeckung deutscher Korpora - dies ist zentral für unser Wertversprechen, nicht nur eine nachträgliche Überlegung.
- Signal von Daten zu Leistung etablieren: Entwerfen und Durchführen von Ablationsstudien zur Validierung von Datenentscheidungen - Messen, wie Änderungen in der Zusammensetzung, Filterung oder Beschaffung die Evaluierungsmetriken des Vortrainings und die nachgelagerten Fähigkeiten beeinflussen.
- Daten-Transparenz ernst nehmen: Datenherkunft und -provenienz aufrechterhalten, damit das Team genau weiß, was in jeden Trainingslauf eingeflossen ist.
Ihr Profil
Grundlegende Qualifikationen
- Nachweisbare Erfolge bei der Bereitstellung von wirkungsvoller technischer Arbeit - sei es Forschung, Infrastruktur oder beides.
- Starke Python-Kenntnisse und Vertrautheit mit Datenengineering und ML-Infrastruktur, einschließlich Erfahrung mit Deep-Learning-Frameworks, Workflow-Orchestrierung, Objektspeicherung, spaltenbasierten Datenformaten und verteiltem Processing.
- Fähigkeit, darüber nachzudenken, was ein Datensatz zum Modelltraining beiträgt und ob es wichtig ist - nicht nur Daten verarbeiten, sondern sie auch verstehen.
- Eigenverantwortung: Sie sehen Probleme von der Diagnose bis zur Lösung und Bereitstellung durch.
- Bereitschaft, nach Heidelberg umzuziehen oder mindestens alle zwei Wochen zu reisen.
Bevorzugte Qualifikationen
- Erfahrung mit der großangelegten Datenverarbeitung für ML, einschließlich Korpusbeschaffung, -kuratierung, -reinigung, -deduplizierung und -filterung.
- Vertrautheit mit Methoden zur Datenqualität: klassifizierungsbasierte Filterung, heuristische Bewertung, perplexitätsbasierte Auswahl und Dekontamination.
- Verständnis des Trainings von Fundamentmodellen - wie Datenzusammensetzung, -größe und Mischungsverhältnisse die Fähigkeiten beeinflussen.
- Erfahrung mit webskalierter Datenbeschaffung und Crawling-Verarbeitung (z.B. Common Crawl, WARC-Pipelines).
- Rust-Kenntnisse (Teile unserer Datenpipeline sind leistungs-kritisch).
- Infrastrukturwissen - Erfahrung mit Kubernetes, Container-Orchestrierung oder cloud-nativer ML-Infrastruktur.
- PhD in Maschinenlernen, NLP, Datenengineering oder einem verwandten Bereich (geschätzt, aber nicht erforderlich - uns interessiert, was Sie tun können).
- Bonus, aber nicht erforderlich: Deutschkenntnisse können hilfreich sein, um deutsche Daten zu kuratieren und zu bewerten.
Vergütung und Vorteile
Werden Sie Teil einer KI-Revolution!
- 30 Tage bezahlter Urlaub
- Zugang zu einer Vielzahl von Fitness- und Wellnessangeboten über Wellhub
- Unterstützung der psychischen Gesundheit durch nilo.health
- Substantielle Subventionierung der betrieblichen Altersvorsorge für Ihre zukünftige Sicherheit
- Subventioniertes deutschlandweites Verkehrsticket
- Budget für zusätzliche technische Ausrüstung
- Flexible Arbeitszeiten für eine bessere Work-Life-Balance und hybrides Arbeitsmodell
- Virtuelles Aktienoptionsprogramm
- JobRad® Fahrrad-Leasing
Senior AI Engineer – Pre-training Data (f/m/d) Arbeitgeber: Aleph Alpha
Kontaktperson:
Aleph Alpha HR Team
StudySmarter Bewerbungstipps 🤫
So bekommst du den Job: Senior AI Engineer – Pre-training Data (f/m/d)
✨Tipp Nummer 1
Netzwerken ist der Schlüssel! Nutze Plattformen wie LinkedIn, um mit Leuten aus der Branche in Kontakt zu treten. Frag nach informellen Gesprächen oder Mentoring – oft ergeben sich so die besten Jobchancen.
✨Tipp Nummer 2
Bereite dich auf Vorstellungsgespräche vor, indem du häufige Fragen und technische Herausforderungen übst. Wir empfehlen, Mock-Interviews mit Freunden oder Kollegen zu machen, um dein Selbstbewusstsein zu stärken.
✨Tipp Nummer 3
Zeig deine Leidenschaft für das Thema! Wenn du über deine Projekte sprichst, sei es in Interviews oder bei Networking-Events, lass deine Begeisterung für KI und Daten durchscheinen. Das bleibt im Gedächtnis!
✨Tipp Nummer 4
Bewirb dich direkt über unsere Website! So hast du die besten Chancen, gesehen zu werden. Und vergiss nicht, deine Bewerbung individuell anzupassen – zeig, warum du perfekt zu Aleph Alpha passt!
Diese Fähigkeiten machen dich zur top Bewerber*in für die Stelle: Senior AI Engineer – Pre-training Data (f/m/d)
Tipps für deine Bewerbung 🫡
Sei authentisch!: Wenn du deine Bewerbung schreibst, sei einfach du selbst. Zeig uns, was dich motiviert und warum du für die Rolle als Senior AI Engineer brennst. Authentizität kommt immer gut an!
Mach es konkret!: Verwende konkrete Beispiele aus deiner bisherigen Erfahrung, um zu zeigen, wie du mit Daten gearbeitet hast. Erzähl uns von Projekten, bei denen du wirklich einen Unterschied gemacht hast – das bleibt im Gedächtnis!
Achte auf die Details!: Überprüfe deine Bewerbung auf Rechtschreib- und Grammatikfehler. Eine saubere und gut strukturierte Bewerbung zeigt, dass du Wert auf Qualität legst – genau wie wir bei StudySmarter!
Bewirb dich über unsere Website!: Wir empfehlen dir, deine Bewerbung direkt über unsere Website einzureichen. So stellst du sicher, dass sie schnell und unkompliziert bei uns ankommt. Wir freuen uns darauf, von dir zu hören!
Wie du dich auf ein Vorstellungsgespräch bei Aleph Alpha vorbereitest
✨Verstehe die Rolle und das Unternehmen
Mach dich mit der Mission von Aleph Alpha vertraut und verstehe, wie wichtig die Qualität der Daten für ihre Modelle ist. Überlege dir, wie deine Erfahrungen und Fähigkeiten in die spezifischen Anforderungen der Stelle als Senior AI Engineer passen.
✨Bereite konkrete Beispiele vor
Denke an konkrete Projekte oder Erfahrungen, die deine Fähigkeiten in der Datenverarbeitung und im maschinellen Lernen demonstrieren. Sei bereit, über Herausforderungen zu sprechen, die du gemeistert hast, und wie du zur Verbesserung von Modellen beigetragen hast.
✨Zeige deine Leidenschaft für Daten
Aleph Alpha sucht jemanden, der eine Leidenschaft für Daten hat. Bereite dich darauf vor, zu erklären, warum du dich für Datenqualität und -analyse interessierst und wie du innovative Ansätze zur Verbesserung der Datenpipeline entwickeln würdest.
✨Fragen stellen ist wichtig
Bereite einige durchdachte Fragen vor, die zeigen, dass du dich mit der Unternehmenskultur und den Herausforderungen der Rolle auseinandergesetzt hast. Frage nach den aktuellen Projekten des Teams oder wie sie die Zusammenarbeit zwischen Pre-Training und Post-Training gestalten.