אנו צוות מחקר רב-תחומי במכון המחקר האונקולוגי במרכז הרפואי שיבא, הפועל בחזית המחקר המשלב למידת מכונה ורפואה גנומית. עבודתנו מתמקדת בפיתוח מודלי שפה רחבי היקף (LLMs) עבור נתונים ביולוגיים וגנומיים, במטרה לקדם את תחום הרפואה המותאמת אישית. הצוות פועל בסביבה בינלאומית ודינמית, בשיתוף פעולה עם גופי מחקר מובילים ובגישה למשאבי מחשוב מתקדמים ומאגרי נתונים ייחודיים.
תחומי אחריות
תכנון, אימון מוקדם (Pre-training) והתאמת מודלי שפה רחבי היקף לנתונים ביולוגיים וגנומיים.
פיתוח אסטרטגיות ייצוג וטוקניזציה חדשניות.
מחקר ויישום של ארכיטקטורות מתקדמות, לרבות מודלים בעלי הקשרים ארוכים (Long-Context Modeling).
בניית תהליכי הערכה ובקרה למודלים, תוך שימוש במדדי ביצוע מתקדמים.
ביצוע אימונים מבוזרים בסביבות GPU מרובות התקנים ואופטימיזציה של ביצועים, זיכרון ותהליכי עבודה.
עבודה בשיתוף פעולה הדוק עם חוקרים, ביולוגים וקלינאים.
השתתפות בכתיבת מאמרים ופרסומים מדעיים בכנסים וכתבי עת מובילים.
דרישות:
תואר שני (M.Sc.) או שלישי (Ph.D.) במדעי המחשב, מתמטיקה, סטטיסטיקה, הנדסה, פיזיקה, ביואינפורמטיקה או תחום כמותי רלוונטי, או ניסיון מקביל מוכח.
שליטה גבוהה באנגלית (קריאה, כתיבה ותקשורת מדעית) - חובה.
ניסיון מוכח בפיתוח ואימון מודלי למידת עומק, בדגש על מודלי שפה גדולים (LLMs) וארכיטקטורות מבוססות Transformer.
שליטה גבוהה ב- Python ובספריות למידת עומק כגון PyTorch או JAX.
הבנה מעמיקה של ארכיטקטורות Transformer ומנגנוני קשב מתקדמים, לרבות FlashAttention, RoPE ו-ALiBi.
היכרות עם שיטות אימון בלמידה עצמית, Learning Representation, Contrastive Learning ו-Masked Language Modeling.
ניסיון בעבודה בסביבות Linux ובניהול גרסאות באמצעות Git.
יכולת עבודה עם מערכי נתונים גדולים ותכנון תהליכי נתונים יעילים.
היכרות עם מודלי שפה ביולוגיים וגנומיים כגון DNABERT, DNABERT-2, HyenaDNA ו-GENA-LM.
ניסיון בעבודה עם ארכיטקטורות לטיפול ברצפים ארוכים במיוחד (Hyena, Mamba וגישות Sub-Quadratic Atte המשרה מיועדת לנשים ולגברים כאחד.