Senior AI Engineer – Pre-training Data (f/m/d)

Senior AI Engineer – Pre-training Data (f/m/d)

Heidelberg Vollzeit 60000 - 80000 € / Jahr (geschätzt) Homeoffice (teilweise)
G

Auf einen Blick

  • Aufgaben: Entwickle und optimiere Datenpipelines für KI-Modelle in einem dynamischen Team.
  • Unternehmen: Innovatives Unternehmen in Heidelberg, das an der Spitze der KI-Forschung steht.
  • Vorteile: 30 Tage Urlaub, Fitnessangebote, mentale Gesundheitsunterstützung und flexible Arbeitszeiten.
  • Weitere Informationen: Flache Hierarchien und eine Kultur der Eigenverantwortung fördern kreatives Arbeiten.
  • Warum dieser Job: Gestalte die Zukunft der KI mit hochwertigen Daten und erlebe echten Einfluss.
  • Qualifikationen: Erfahrung in Datenverarbeitung, Python-Kenntnisse und ein Ownership-Mindset.

Das prognostizierte Gehalt liegt zwischen 60000 - 80000 € pro Jahr.

Unsere Mission

Aleph Alpha ist eines der wenigen Unternehmen in Europa, das ernsthafte Grundlagenmodell-Vortrainings durchführt. Unsere Kunden – in den Bereichen Finanzen, Fertigung und öffentliche Verwaltung – benötigen Modelle, die Deutsch verstehen, die europäischen Vorschriften entsprechen und zuverlässig in risikobehafteten Umgebungen arbeiten. Wir bauen das in Heidelberg auf.

Wir erweitern unser Vortrainingsteam und suchen jemanden, der leidenschaftlich an Daten arbeitet: Definieren, was in unsere Modelle eingeht, Systeme aufbauen, die diese beschaffen und vorbereiten, und sicherstellen, dass unser Trainingsteam die qualitativ hochwertigsten Daten hat, um die Modellfähigkeiten voranzutreiben.

Teamkultur

Bei Aleph Alpha fördern wir eine Kultur, die auf Eigenverantwortung, Autonomie und Empowerment basiert. Teams und Einzelpersonen werden ermutigt, Verantwortung für ihre Arbeit zu übernehmen und einen bedeutenden Einfluss auszuüben. Wir pflegen eine flache Organisationsstruktur mit effizientem, unterstützendem Management, das schnelle Entscheidungen, offene Kommunikation und ein starkes Gefühl gemeinsamer Ziele ermöglicht.

Über die Rolle

Als Senior AI Engineer im Bereich Vortraining Daten werden Sie über den gesamten Stack der Datenvorbereitung arbeiten – von der Beschaffung und Akquisition bis hin zu Verarbeitung, Filterung und Mischungsdesign. Einige Wochen werden Sie tief in die Datenqualitätsanalyse eintauchen, um zu verstehen, was ein Korpus wertvoll macht und wie seine Zusammensetzung die Leistung bei öffentlichen und maßgeschneiderten Bewertungsaufgaben beeinflusst. In anderen Wochen optimieren Sie großangelegte Verarbeitungs-Pipelines oder bauen Werkzeuge, die dem Team Einblick geben, worauf unsere Modelle tatsächlich trainiert werden. Und einige Wochen werden Sie die neuesten Forschungen zu Methoden des Vortrainings von Daten lesen und Erkenntnisse in Experimente umsetzen, die Sie gegen unseren Stack durchführen können.

Wir gehen datenbezogene Arbeiten evidenzbasiert an. Entscheidungen über Filterstrategien, Datenmischungen und Qualitätsstandards werden durch Ablationen unterstützt – Sie entwerfen und führen gezielte Experimente durch, um zu validieren, dass Ihre Datenentscheidungen tatsächlich die Ergebnisse des Modells verbessern.

Wir suchen jemanden, der umfangreiche Forschungserfahrung (in der Industrie oder der Wissenschaft) mit hoher Ingenieurskompetenz kombiniert. Ihre Arbeit hat hohen Einfluss: Die Daten, die Sie beschaffen, kuratieren und synthetisieren, bestimmen direkt, was unsere Modelle lernen, wie gut sie abschneiden und wo sie Schwächen aufweisen. Sie haben direkten Einfluss auf die Modelle, die wir ausliefern.

Ihre Verantwortlichkeiten

  • Co-Ownership von Datenpipelines von Ende zu Ende: Entwerfen, Bauen und Warten der Infrastruktur, die vortrainierte Korpora in großem Maßstab beschafft, verarbeitet, dedupliziert, filtert und vorbereitet.
  • Eigentum an der Umwandlung von kuratierten Korpora in trainingsbereite Streaming-Formate.
  • Datenmischungen kuratieren und komponieren: Definieren und Iterieren der Datenmischungen, die für das Vortraining verwendet werden – Ausbalancieren von Domänen, Sprachen, Qualitätsstufen und Lizenzanforderungen zur Maximierung der Modellfähigkeit.
  • Datenqualitätswerkzeuge aufbauen: Entwickeln von Klassifikatoren, Heuristiken und Analyseframeworks, die die Datenqualität über Terabyte-große Korpora messen und durchsetzen.
  • Pipeline-Gesundheit und Datenqualitätsmetriken im großen Maßstab überwachen.
  • Datenlücken schließen: Mit Evaluierungs- und Nachtrainingsteams zusammenarbeiten, um zu identifizieren, wo Modellschwächen auf Datenabdeckung zurückzuführen sind, und dann die benötigten Daten beschaffen oder generieren.
  • Mit dem Nachtraining zusammenarbeiten: Eng mit dem Nachtrainingsteam zusammenarbeiten, um sicherzustellen, dass die Entscheidungen über Vortrainingsdaten die Ziele der Feinabstimmung, Ausrichtung und Bereitstellung unterstützen – Datenentscheidungen upstream prägen, was downstream möglich ist.
  • Co-Ownership von deutschsprachigen Daten: Sicherstellen einer tiefen, hochwertigen Abdeckung deutscher Korpora – dies ist zentral für unser Wertversprechen, nicht nur eine nachträgliche Überlegung.
  • Signal von Daten zu Leistung etablieren: Ablationsstudien entwerfen und durchführen, um Datenentscheidungen zu validieren – messen, wie Änderungen in der Zusammensetzung, Filterung oder Beschaffung die Evaluierungsmetriken des Vortrainings und die Fähigkeiten downstream beeinflussen.
  • Daten-Transparenz ernst nehmen: Datenherkunft und -provenienz aufrechterhalten, damit das Team genau weiß, was in jeden Trainingslauf eingeflossen ist.

Ihr Profil

Grundlegende Qualifikationen

  • Erfolgreiche Umsetzung von wirkungsvoller technischer Arbeit – sei es Forschung, Infrastruktur oder beides.
  • Starke Python-Kenntnisse und Vertrautheit mit Datenengineering und ML-Infrastruktur, einschließlich Erfahrung mit Deep-Learning-Frameworks, Workflow-Orchestrierung, Objektspeicherung, spaltenbasierten Datenformaten und verteiltem Processing.
  • Fähigkeit, darüber nachzudenken, was ein Datensatz zum Modelltraining beiträgt und ob es wichtig ist – nicht nur Daten verarbeiten, sondern sie auch verstehen.
  • Eigenverantwortung: Sie sehen Probleme von der Diagnose bis zur Lösung und Bereitstellung durch.
  • Bereitschaft, nach Heidelberg umzuziehen oder mindestens alle zwei Wochen zu reisen.

Bevorzugte Qualifikationen

  • Erfahrung mit der großangelegten Datenverarbeitung für ML, einschließlich Korpusbeschaffung, -kuratierung, -reinigung, -deduplizierung und -filterung.
  • Vertrautheit mit Methoden zur Datenqualität: klassifikatorbasierte Filterung, heuristische Bewertung, perplexitätsbasierte Auswahl und Dekontamination.
  • Verständnis des Trainings von Grundlagenmodellen – wie Datenzusammensetzung, -größe und Mischungsverhältnisse die Fähigkeiten beeinflussen.
  • Erfahrung mit webskalierter Datenbeschaffung und Crawl-Verarbeitung (z.B. Common Crawl, WARC-Pipelines).
  • Rust-Kenntnisse (Teile unserer Datenpipeline sind leistungs-kritisch).
  • Infrastrukturwissen – Erfahrung mit Kubernetes, Container-Orchestrierung oder cloud-nativer ML-Infrastruktur.
  • PhD in Maschinenlernen, NLP, Datenengineering oder einem verwandten Bereich (geschätzt, aber nicht erforderlich – uns interessiert, was Sie tun können).
  • Bonus, aber nicht erforderlich: Deutschkenntnisse können hilfreich sein, um deutsche Daten zu kuratieren und zu bewerten.

Vergütung und Vorteile

  • 30 Tage bezahlter Urlaub
  • Zugang zu einer Vielzahl von Fitness- und Wellnessangeboten über Wellhub
  • Unterstützung der psychischen Gesundheit durch nilo.health
  • Substantielle Subventionierung der betrieblichen Altersvorsorge für Ihre zukünftige Sicherheit
  • Subventioniertes deutschlandweites Verkehrsticket
  • Budget für zusätzliche technische Ausrüstung
  • Flexible Arbeitszeiten für eine bessere Work-Life-Balance und hybrides Arbeitsmodell
  • Virtuelles Aktienoptionsprogramm
  • JobRad Fahrrad-Leasing

Senior AI Engineer – Pre-training Data (f/m/d) Arbeitgeber: GEA Group Aktiengesellschaft

Aleph Alpha ist ein hervorragender Arbeitgeber, der eine Kultur der Eigenverantwortung und Autonomie fördert. Mit einem flachen Organisationsaufbau und einem starken Fokus auf Teamarbeit bietet das Unternehmen in Heidelberg nicht nur die Möglichkeit, an innovativen KI-Projekten zu arbeiten, sondern auch umfangreiche Entwicklungsmöglichkeiten und attraktive Benefits wie 30 Tage Urlaub, flexible Arbeitszeiten und ein umfassendes Gesundheitsangebot. Hier haben Sie die Chance, direkt Einfluss auf die Leistungsfähigkeit von Modellen zu nehmen und in einem dynamischen Umfeld zu wachsen.

G

Kontaktdaten:

GEA Group Aktiengesellschaft Recruiting-Team

StudySmarter Expertenrat🤫

Wir sind der Meinung, dass Sie so Senior AI Engineer – Pre-training Data (f/m/d) erhalten könnten

Tipp Nummer 1

Netzwerken ist der Schlüssel! Nutze Plattformen wie LinkedIn, um mit Leuten aus der Branche in Kontakt zu treten. Lass uns wissen, wenn du Fragen hast oder Unterstützung brauchst!

Tipp Nummer 2

Bereite dich auf technische Interviews vor! Übe Coding-Challenges und sei bereit, deine Denkweise zu erklären. Wir können dir Ressourcen zur Verfügung stellen, um dich optimal vorzubereiten.

Tipp Nummer 3

Sei proaktiv und zeige Interesse! Wenn du eine Stelle im Auge hast, zögere nicht, direkt Kontakt aufzunehmen. Wir lieben es, wenn Bewerber Initiative zeigen!

Tipp Nummer 4

Bewirb dich über unsere Website! Das gibt dir die beste Chance, direkt ins Gespräch zu kommen. Wir freuen uns darauf, von dir zu hören und gemeinsam an spannenden Projekten zu arbeiten!

Wir glauben, dass du diese Fähigkeiten brauchst, um Senior AI Engineer – Pre-training Data (f/m/d) mit Bravour zu bestehen

Python
Datenengineering
Maschinelles Lernen Infrastruktur
Deep Learning Frameworks
Workflow-Orchestrierung
Objektspeicherung
Spaltenformat-Daten

Einige Tipps für deine Bewerbung 🫡

Sei authentisch!:Zeig uns, wer du wirklich bist! Deine Persönlichkeit und Leidenschaft für das, was du tust, sollten in deiner Bewerbung deutlich werden. Lass uns wissen, warum du dich für die Rolle als Senior AI Engineer interessierst und was dich motiviert.

Mach es konkret!:Verwende konkrete Beispiele aus deiner bisherigen Erfahrung, um deine Fähigkeiten zu untermauern. Erzähl uns von Projekten, an denen du gearbeitet hast, und wie du Herausforderungen gemeistert hast. Das gibt uns einen klaren Eindruck von deinem Können.

Achte auf Details!:Überprüfe deine Bewerbung auf Rechtschreib- und Grammatikfehler. Eine gut strukturierte und fehlerfreie Bewerbung zeigt, dass du sorgfältig arbeitest und Wert auf Qualität legst – genau das, was wir bei StudySmarter schätzen!

Bewirb dich über unsere Website!:Der einfachste Weg, um Teil unseres Teams zu werden, ist, dich direkt über unsere Website zu bewerben. So stellst du sicher, dass deine Bewerbung schnell und unkompliziert bei uns ankommt. Wir freuen uns darauf, von dir zu hören!

Wie man sich auf ein Vorstellungsgespräch bei GEA Group Aktiengesellschaft vorbereitet

Verstehe die Rolle und das Unternehmen

Mach dich mit der Mission von Aleph Alpha vertraut und verstehe, wie deine Rolle als Senior AI Engineer in Pre-training Data dazu beiträgt. Informiere dich über die spezifischen Anforderungen an die Datenqualität und die Herausforderungen, die das Unternehmen in der KI-Entwicklung hat.

Bereite konkrete Beispiele vor

Überlege dir konkrete Projekte oder Erfahrungen, die deine Fähigkeiten in der Datenverarbeitung und im maschinellen Lernen demonstrieren. Sei bereit, darüber zu sprechen, wie du Probleme identifiziert und Lösungen implementiert hast, insbesondere in Bezug auf Datenqualität und -management.

Zeige deine Leidenschaft für Daten

Betone deine Begeisterung für die Arbeit mit Daten und wie wichtig sie für den Erfolg von KI-Modellen ist. Diskutiere aktuelle Trends und Forschungen im Bereich der Datenvorbereitung und wie du diese in deiner Arbeit anwenden würdest.

Fragen stellen

Bereite einige durchdachte Fragen vor, die zeigen, dass du dich mit dem Team und den Projekten auseinandergesetzt hast. Frage nach den aktuellen Herausforderungen im Bereich der Datenpipeline oder wie das Team die Qualität der Daten sicherstellt. Das zeigt dein Interesse und Engagement.