Senior Research Scientist - Reinforcement Learning, MoEs

Senior Research Scientist - Reinforcement Learning, MoEs

Wien Vollzeit 80000 - 110000 € / Jahr (geschätzt) Homeoffice (teilweise)
B

Auf einen Blick

  • Aufgaben: Führe bahnbrechende Forschung in Reinforcement Learning und agentischen Systemen durch.
  • Unternehmen: Innovatives Unternehmen, das Design neu definiert und eine inklusive Kultur pflegt.
  • Vorteile: Aktienpakete, flexible Urlaubsoptionen und jährliche Wohlfühlzulagen.
  • Weitere Informationen: Dynamisches Arbeitsumfeld mit vielen Möglichkeiten zur persönlichen und beruflichen Entwicklung.
  • Warum dieser Job: Gestalte die Zukunft von KI im Design und mache echten Einfluss auf Millionen von Nutzern.
  • Qualifikationen: Erfahrung in Reinforcement Learning, MoEs und experimentellem Design.

Das prognostizierte Gehalt liegt zwischen 80000 - 110000 € pro Jahr.

Unternehmensbeschreibung

Wir bei Canva haben die Mission, die Welt zum Gestalten zu befähigen. Wir entwickeln KI, die magisch wirkt und echten Einfluss auf Millionen von Menschen hat - und jedem hilft, mit Vertrauen zu gestalten.

Jobbeschreibung

Wir suchen einen Senior Research Scientist, der sich leidenschaftlich mit Reinforcement Learning, agentischen Systemen und Mixture of Expert-Modellen beschäftigt, um die Grenzen des Denkens, der Werkzeugnutzung, der Latenz und der Zuverlässigkeit zu erweitern und dies an die Nutzer zu bringen.

Über das Team

Wir erkunden multimodale agentische Architekturen, bauen skalierbare Trainings- und Evaluationsschleifen und arbeiten eng mit Produkt- und Plattformteams zusammen, um Durchbrüche in erfreuliche Produktmerkmale umzusetzen. Wir sind ein innovatives Post-Training-Team, das neue multimodale agentische Systeme entwickelt.

Über die Rolle

Sie werden Forschungsrichtungen vorantreiben und eine führende Rolle bei praktischen Arbeiten im gesamten Agentenstapel spielen - von der Belohnungsgestaltung und der Politikoptimierung bis hin zu Planung, Gedächtnis und Werkzeugkoordination, Datensatzkonstruktion, Post-Training und der Entwicklung neuartiger Post-Training-Ansätze. Sie werden enge Experimente entwerfen, schnell iterieren und vertrauenswürdige Schlussfolgerungen ziehen. Am wichtigsten ist, dass Sie helfen, Forschung in zuverlässige, sichere und qualitativ hochwertige Produkterlebnisse umzuwandeln.

Was Sie tun werden:

  • Entwicklung von Agentensystemen (Planung, multimodale Werkzeugnutzung, Abruf, neuartige Trainingsansätze, Modellierungsablationen) für reale Aufgaben in Design, Vision und Sprache.
  • Skalierung von Post-Training und RL über verteilte Systeme (PyTorch) mit effizienten Datenladeprogrammen, Tracing/Telemetrie, stabilem Training von Mixture-of-Experts (MoE)-Architekturen und reproduzierbaren Pipelines; Profilierung, Debugging und Optimierung.
  • Beitrag zur Forschungsagenda für RL/agentische Systeme, die mit den Produktzielen von Canva übereinstimmt; Identifizierung von hochwirksamen Wetten und schnelles Beenden von Sackgassen.
  • Entwicklung von Belohnungsmodellen und Lernschleifen: RLHF/RLAIF, Präferenzmodellierung, DPO/IPO-Stilziele, Offline/Online RL, Curriculum-Lernen und Kreditzuweisung für mehrstufiges Denken.
  • Entwicklung von Simulations- und Sandbox-Aufgaben, die Fehlermodi aufdecken (Planungsfehler, Zerbrechlichkeit der Werkzeugnutzung, Halluzination, unsichere Aktionen) und diese in messbare Ziele umwandeln.
  • Hilfe bei der Ausrichtung auf rigorose Bewertungen für Agenten (Aufgabenerfolg, Zuverlässigkeit, Latenz, Sicherheit, Regressionen). Einrichtung von Offline-Suiten und Online-A/B-Tests; Bevorzugung einfacher, kontrollierter Experimente, die verallgemeinern.
  • Zusammenarbeit und Versand: Schulter an Schulter mit Produkt-, Design-, Sicherheits- und Plattformteams arbeiten, um Forschung als zuverlässige Funktionen zu implementieren - und dann iterieren.
  • Teilen und Erhöhen: Mentoring von Teamkollegen, Präsentation von Ergebnissen intern und Rückgabe an die Gemeinschaft, wenn es dem Bereich und unseren Nutzern hilft.

Sie passen wahrscheinlich gut, wenn Sie:

  • Tiefe Erfahrung in der Implementierung und im Post-Training von MoEs/LLMs/VLMs/Diffusionsmodellen haben, mit einer Erfolgsbilanz an veröffentlichten Forschungen oder Veröffentlichungen in MoEs, RL oder Agenten.
  • Erfahrung in der Modifikation und Anpassung von Open-Source-Modellen haben.
  • Starke Erfahrung im experimentellen Design: enge Baselines, saubere Ablationen, Reproduzierbarkeit und klare, datengestützte Schlussfolgerungen.
  • Fließend in Python und PyTorch sind; Sie sind in großen ML-Codebasen vertraut und können Training und Inferenz profilieren, debuggen und optimieren.
  • Praktische Erfahrung im Aufbau von Agentenschleifen (Planung, Werkzeugaufruf, Abruf, Gedächtnis) und der Bewertung der Qualität des mehrstufigen Denkens haben.
  • Praktische Erfahrung mit Politikoptimierung, Belohnungsmodellierung und Präferenzlernen (z.B. RLHF/RLAIF, DPO/IPO, Actor-Critic/PPO, Offline RL).
  • Erfahrung mit großflächigem Training (verteiltes Training, Experimentverfolgung, Evaluierungswerkzeuge) und cloudbasierten multimodalen Werkzeugen haben.
  • Erfahrung mit RL für MoE-Architekturen haben.

Schön zu haben:

  • Erfahrung mit Video- und Audio-Modellierung.
  • Erfahrung mit Multi-Agenten-Einstellungen.
  • Stärke in der Ausrichtung und Sicherheitsbewertungen, einschließlich Red-Teaming und Risikominderung für werkzeugbenutzende Agenten.
  • Beiträge zu Open-Source, Benchmarks oder gemeinsamen Evaluierungssuiten für Agenten.

Zusätzliche Informationen

Was ist für Sie drin? Das Erreichen unserer verrückt großen Ziele motiviert uns, hart zu arbeiten - und das tun wir - aber Sie werden auch viele Momente der Magie, Verbundenheit und des Spaßes erleben, die das Leben bei Canva durchziehen. Wir bieten auch eine Reihe von Vorteilen, um Sie für jeden Erfolg im und außerhalb der Arbeit vorzubereiten.

Hier ist ein Vorgeschmack auf das, was angeboten wird:

  • Aktienpakete - wir möchten, dass unser Erfolg auch Ihrer ist.
  • Inklusive Elternzeitregelung, die alle Eltern und Betreuer unterstützt.
  • Ein jährliches Vibe & Thrive-Zuschuss zur Unterstützung Ihres Wohlbefindens, sozialer Verbindung, Home-Office-Setup und mehr.
  • Flexible Urlaubsoptionen, die es Ihnen ermöglichen, eine Kraft für das Gute zu sein, Zeit zum Auftanken zu nehmen und Sie persönlich zu unterstützen.

Weitere Informationen finden Sie unter lifeatcanva.com.

Sonstige Informationen

Wir treffen Einstellungsentscheidungen basierend auf Ihren Erfahrungen, Fähigkeiten und Ihrer Leidenschaft sowie darauf, wie Sie Canva und unsere Kultur bereichern können. Wenn Sie sich bewerben, teilen Sie uns bitte die Pronomen mit, die Sie verwenden, und alle angemessenen Anpassungen, die Sie während des Interviewprozesses benötigen.

Bitte beachten Sie, dass die Interviews überwiegend virtuell durchgeführt werden.

Senior Research Scientist - Reinforcement Learning, MoEs Arbeitgeber: black.ai

Canva ist ein hervorragender Arbeitgeber, der seinen Mitarbeitern die Freiheit gibt, ihren Arbeitsort und -stil zu wählen, um eine optimale Balance zwischen beruflichem und persönlichem Leben zu finden. Mit einem starken Fokus auf Innovation im Bereich KI und einem unterstützenden Arbeitsumfeld bietet Canva nicht nur wettbewerbsfähige Vergütungen und Aktienpakete, sondern auch umfassende Möglichkeiten zur persönlichen und beruflichen Weiterentwicklung. Die Unternehmenskultur fördert Kreativität, Zusammenarbeit und Spaß, was das Arbeiten in unserem Wiener Büro zu einer einzigartigen Erfahrung macht.

B

Kontaktdaten:

black.ai Recruiting-Team

StudySmarter Expertenrat🤫

Wir sind der Meinung, dass Sie so Senior Research Scientist - Reinforcement Learning, MoEs erhalten könnten

Tipp Nummer 1

Mach dir eine Liste von Fragen, die du während des Interviews stellen möchtest. Das zeigt nicht nur dein Interesse, sondern hilft dir auch, herauszufinden, ob das Unternehmen wirklich zu dir passt.

Tipp Nummer 2

Übe deine Antworten auf häufige Interviewfragen. Wir sollten uns darauf konzentrieren, wie wir unsere Erfahrungen und Fähigkeiten am besten präsentieren können, um die Anforderungen der Stelle zu erfüllen.

Tipp Nummer 3

Netzwerken ist der Schlüssel! Nutze Plattformen wie LinkedIn, um mit aktuellen Mitarbeitern in Kontakt zu treten. Sie können dir wertvolle Einblicke geben und vielleicht sogar eine Empfehlung aussprechen.

Tipp Nummer 4

Bewirb dich direkt über unsere Website! So stellst du sicher, dass deine Bewerbung die richtigen Leute erreicht und du die besten Chancen hast, gesehen zu werden.

Wir glauben, dass du diese Fähigkeiten brauchst, um Senior Research Scientist - Reinforcement Learning, MoEs mit Bravour zu bestehen

Reinforcement Learning (RL)
Mixture of Expert Models (MoEs)
Post-Training
Python
PyTorch
Experimentelles Design
Belohnungsmodellierung

Einige Tipps für deine Bewerbung 🫡

Sei du selbst!:Wenn du deine Bewerbung schreibst, sei authentisch und zeig uns, wer du wirklich bist. Wir suchen nach Menschen, die Leidenschaft für das haben, was sie tun, also lass das in deinen Worten durchscheinen!

Mach es konkret!:Verwende konkrete Beispiele aus deiner bisherigen Erfahrung, um deine Fähigkeiten zu untermauern. Zeig uns, wie du Herausforderungen gemeistert hast und welche Erfolge du erzielt hast – das macht einen großen Unterschied!

Pass auf die Details auf!:Achte darauf, dass deine Bewerbung gut strukturiert und fehlerfrei ist. Ein klarer, professioneller Auftritt zeigt uns, dass du dir Mühe gibst und die Position ernst nimmst.

Bewirb dich über unsere Website!:Wir empfehlen dir, deine Bewerbung direkt über unsere Website einzureichen. So stellst du sicher, dass alles reibungslos läuft und wir deine Unterlagen schnellstmöglich erhalten.

Wie man sich auf ein Vorstellungsgespräch bei black.ai vorbereitet

Verstehe die Rolle und das Unternehmen

Mach dich mit der Mission von Canva vertraut und verstehe, wie deine Rolle als Senior Research Scientist in die Gesamtstrategie passt. Informiere dich über aktuelle Projekte im Bereich Reinforcement Learning und Mixture of Experts, um gezielte Fragen stellen zu können.

Bereite konkrete Beispiele vor

Denke an spezifische Projekte oder Erfahrungen, die deine Fähigkeiten in der Implementierung von MoEs und RL demonstrieren. Sei bereit, diese Beispiele während des Interviews zu erläutern und zu zeigen, wie du Herausforderungen gemeistert hast.

Zeige deine Teamfähigkeit

Da die Zusammenarbeit mit verschiedenen Teams wichtig ist, solltest du Beispiele für erfolgreiche Kooperationen parat haben. Betone, wie du in der Vergangenheit mit Produkt- und Designteams zusammengearbeitet hast, um Forschungsergebnisse in nutzbare Features umzusetzen.

Stelle Fragen zur Unternehmenskultur

Nutze die Gelegenheit, um mehr über die Unternehmenskultur bei Canva zu erfahren. Frage nach den Werten, die das Team leiten, und wie sie Innovation und Kreativität fördern. Das zeigt dein Interesse an der langfristigen Zusammenarbeit und deinem Engagement für die Unternehmensziele.