Senior AI Research Engineer Model Inference Remote

Senior AI Research Engineer Model Inference Remote

Vollzeit 60000 - 80000 € / Jahr (geschätzt) Kein Homeoffice möglich
F

Auf einen Blick

  • Aufgaben: Optimiere KI-Modelle und entwickle innovative Inferenzlösungen für mobile Geräte.
  • Unternehmen: Führendes Unternehmen im Bereich KI mit Fokus auf neueste Technologien.
  • Vorteile: Flexibles Arbeiten, wettbewerbsfähiges Gehalt und Möglichkeiten zur beruflichen Weiterentwicklung.
  • Weitere Informationen: Dynamisches Team mit großartigen Wachstumschancen.
  • Warum dieser Job: Gestalte die Zukunft der KI mit und arbeite an spannenden Projekten.
  • Qualifikationen: Erfahrung in C++ und GPU-Programmierung sowie Kenntnisse in Vulkan.

Das prognostizierte Gehalt liegt zwischen 60000 - 80000 € pro Jahr.

Wir suchen einen erfahrenen AI Model Engineer mit tiefgreifender Expertise in der Kernel-Entwicklung, Modelloptimierung, Feinabstimmung und GPU-Beschleunigung. Der Ingenieur wird das Inferenz-Framework erweitern, um Inferenz und Feinabstimmung für Sprachmodelle zu unterstützen, mit einem starken Fokus auf mobile und integrierte GPU-Beschleunigung unter Verwendung von Vulkan.

Verantwortlichkeiten

  • Implementierung und Optimierung benutzerdefinierter Inferenz- und Feinabstimmungskernels für kleine und große Sprachmodelle über mehrere Hardware-Backends.
  • Implementierung und Optimierung von vollständiger und LoRA Feinabstimmung für kleine und große Sprachmodelle über mehrere Hardware-Backends.
  • Entwurf und Erweiterung der Unterstützung für Datentypen und Präzision (int, float, gemischte Präzision, ternäre QTypes usw.).
  • Entwurf, Anpassung und Optimierung von Vulkan-Compute-Shadern für quantisierte Operatoren und Feinabstimmungs-Workflows.
  • Untersuchung und Behebung von GPU-Beschleunigungsproblemen auf Vulkan und integrierten/mobilen GPUs.
  • Architektur und Vorbereitung der Unterstützung für fortgeschrittene Quantisierungstechniken zur Verbesserung der Effizienz und Speichernutzung.
  • Debugging und Optimierung von GPU-Operatoren (int8, fp16, fp4, ternär).
  • Integration und Validierung von Quantisierungs-Workflows für Training und Inferenz.
  • Durchführung von Evaluierungen und Benchmarking (z.B. Perplexitätstests, Leistung feinabgestimmter Adapter).
  • Durchführung von GPU-Tests auf Desktop- und Mobilgeräten.
  • Zusammenarbeit mit Forschungs- und Engineering-Teams zur Prototypenerstellung, Benchmarking und Skalierung neuer Methoden zur Modelloptimierung.
  • Bereitstellung einer produktionsreifen, effizienten Bereitstellung von Sprachmodellen für mobile und Edge-Anwendungsfälle.
  • Enge Zusammenarbeit mit funktionsübergreifenden Teams zur Integration optimierter Bereitstellungs- und Inferenz-Frameworks in Produktionspipelines, die für Edge- und On-Device-Anwendungen konzipiert sind, sowie Definition klarer Erfolgsmetriken wie verbesserte reale Leistung, niedrige Fehlerraten, robuste Skalierbarkeit, optimale Speichernutzung und Gewährleistung kontinuierlicher Überwachung und iterativer Verfeinerungen für nachhaltige Verbesserungen.

Qualifikationen

  • Beherrschung von C++ und GPU-Kernel-Programmierung.
  • Nachgewiesene Expertise in der GPU-Beschleunigung mit dem Vulkan-Framework.
  • Starker Hintergrund in der Quantisierung und gemischten Präzisionsmodelloptimierung.
  • Erfahrung und Expertise in der Entwicklung und Anpassung von Vulkan-Compute-Shadern.
  • Vertrautheit mit LoRA Feinabstimmung und parameter-effizienten Trainingsmethoden.
  • Fähigkeit, GPU-spezifische Leistungs- und Stabilitätsprobleme auf Desktop- und Mobilgeräten zu debuggen.
  • Praktische Erfahrung mit mobiler GPU-Beschleunigung und Modellinferenz.
  • Vertrautheit mit großen Sprachmodellarchitekturen (z.B. Qwen, Gemma, LLaMA, Falcon usw.).
  • Erfahrung in der Implementierung benutzerdefinierter Rückwärtsoperatoren für Feinabstimmungen.
  • Erfahrung in der Erstellung und Pflege benutzerdefinierter Datensätze.
  • Nachgewiesene Fähigkeit, empirische Forschung anzuwenden, um Herausforderungen in der Modellentwicklung zu überwinden.

Senior AI Research Engineer Model Inference Remote Arbeitgeber: Framework Ventures

Unser Unternehmen bietet eine dynamische und innovative Arbeitsumgebung, die sich auf die Entwicklung fortschrittlicher KI-Technologien konzentriert. Als Senior AI Research Engineer profitieren Sie von flexiblen Arbeitszeiten, einer starken Teamkultur und umfangreichen Möglichkeiten zur beruflichen Weiterentwicklung in einem wachsenden Bereich der Technologie. Darüber hinaus fördern wir eine offene Kommunikation und kreative Problemlösungen, um sicherzustellen, dass unsere Mitarbeiter in ihren Rollen erfolgreich sind und ihre Fähigkeiten kontinuierlich erweitern können.

F

Kontaktdaten:

Framework Ventures Recruiting-Team

Wir glauben, dass du diese Fähigkeiten brauchst, um Senior AI Research Engineer Model Inference Remote mit Bravour zu bestehen

C++
GPU-Kernel-Programmierung
Vulkan-Framework
Quantisierung
Mixed-Precision-Modelloptimierung
Vulkan-Compute-Shader-Entwicklung
LoRA-Fine-Tuning