سال 19, شماره 147, ماهنامه عرصه پزشکی

ایجاد پروتئین‌های جدید برای درمان‌های پزشکی

مترجم: آناهیتا خاقانی مهندس بهداشت

کاربردهای اخیر روش‌های طراحی محاسباتی مبتنی بر هوش مصنوعی، امکان ایجاد پروتئین‌های جدیدی را فراهم کرده است که در طبیعت وجود ندارند اما اثرات قوی بر سلول‌ها و سیستم‌های اندام‌های انسانی دارند. این روش‌های سریع همچنین امکان اصلاح پروتئین‌ها را در یک مرحله فراهم می‌کنند. همچنین عملکرد، قدرت، پایداری، مقاومت در برابر تجزیه زیستی، توزیع سلولی و بافتی و نیمه عمر بیولوژیکی را بهینه می‌کند. چنین پروتئین‌هایی که تا به امروز تولید شده‌اند شامل سیتوکین‌ها، آنتی‌بادی‌ها، مهارکننده‌های پروتئین‌های مرگ سلولی و آنتاگونیست‌های گیرنده‌های خارج سلولی برای فاکتورهای رشد و ویروس‌ها هستند. پروتئین‌های تازه طراحی شده دارای پتانسیل‌های تشخیصی و درمانی پزشکی گسترده و همچنین ظرفیت تغییر بسیاری از فعالیت‌های طبیعی سلول‌های انسانی هستند.

اهمیت بالینی

  • سیستم‌های محاسباتی مبتنی بر مدل‌های Large Language و Diffusion برای طراحی پروتئین‌های طبیعی مفیدتر و پروتئین‌های کاملاً جدید استفاده می‌شوند.
  • پروتئین‌ها را می‌توان برای افزایش قدرت، پایداری، مقاومت در برابر پروتئولیز و نیمه عمر بیولوژیکی اصلاح کرد.
  • طیف وسیعی از پروتئین‌های درمانی در یک مرحله اختراع شده‌اند، از جمله سیتوکین‌ها، واکسن‌ها، آنتی‌بادی‌ها، مهارکننده‌های پروتئین‌های مرگ سلولی، آنتاگونیست‌های گیرنده‌های خارج سلولی برای ویروس‌ها و مهارکننده‌های اتصال آلرژن.

مقدمه

پروتئین‌ها دسته‌ای گسترده و متنوع از مولکول‌های زیستی هستند که می‌توانند به عنوان داربست برای حفظ ساختارهای سلولی و بافتی، کاتالیزورها، سایر انتقال‌دهنده‌های یونی و مولکولی، آنتی‌بادی‌ها، گیرنده‌ها، فرستنده‌های سیگنال و درمان‌هایی با قدرت بالا و مکانیسم‌های پیچیده ناشی از ساختارهای سه‌بعدی پیچیده خود عمل کنند. مهندسی پروتئین درمانی جدید شامل چالش‌های متمایزی مانند تمایل ذاتی آنها به تجمع، توزیع و حذف بافتی اغلب غیرقابل پیش‌بینی و حساسیت به تجزیه زیستی سریع است. روش‌های استاندارد برای بهینه‌سازی خواص پروتئین درمانی شامل جهش‌های اسکلت و ترکیب با لیپید، کربوهیدرات و سایر بخش‌ها بوده است. کاربردهای در حال تکامل روش‌های طراحی محاسباتی مبتنی بر یادگیری ماشین و هوش مصنوعی اکنون امکانات بی‌شماری را برای تولید پروتئین‌های درمانی قدرتمند جدید که در طبیعت وجود ندارند، فراهم کرده است.

سیستم‌های محاسباتی

وظیفه اولیه ایجاد ساختارهای پروتئینی از توالی‌های اسید آمینه آنها توسط سیستم‌های محاسباتی، نیاز به مجموعه داده‌های بزرگی از جمله بانک داده‌های پروتئین (PDB)، یک بایگانی مرکزی برای تمام ساختارهای تعیین‌شده تجربی، و ارزیابی مهم پیش‌بینی ساختار پروتئین (CASP-شماره مجموعه فعلی)، یک زیرمجموعه منتشر نشده از ساختارهای PDB برای آزمایش کور که هر دو سال یک بار به روز می شود. همچنین به یک برنامه یا مدل یادگیری ماشین از نوع یادگیری عمیق، که شبکه عصبی نیز نامیده می‌شود، نیاز بود که به رایانه‌ها آموزش دهد پدیده‌ها را شناسایی کنند، گزینه‌ها را بسنجند و با گره‌ها یا نورون‌های به هم پیوسته در یک ساختار لایه‌ای که شبیه مغز انسان است، به نتیجه‌گیری برسند. مدل‌های AlphaFold2 و RoseTTAFold ابتدا از هر دو ساختار پیش‌بینی‌شده در عرض چند دقیقه تا چند ساعت استفاده کردند، اما به هم‌ترازی چندگانه توالی متکی بودند، نیازهای محاسباتی بالایی داشتند و به پروتئین‌های طبیعی محدود بودند. هر ساختار جدید تولید شده به صورت محاسباتی با ساختار تجربی ایجاد شده یک پروتئین با روش‌های فیزیکی متعدد بر اساس موقعیت هر اسید آمینه و فواصل محلی بین مختصات اتمی اسیدهای آمینه مقایسه می‌شود. طراحی پروتئین مبتنی بر هوش مصنوعی/ ماشین لرنینگ اساساً از منابع مشابهی برای تعیین ساختارهای پروتئین استفاده می‌کند، اما از ترتیب معکوس رویه‌هایی که ابتدا برای تعیین چین‌خوردگی‌ها و شکل یک پروتئین در سطح اتمی از توالی اسید آمینه آن استفاده می‌شد، پیروی می‌کند. دو رویکرد اساسی وجود دارد:

۱) تولید توالی، که به آن طراحی ستون فقرات ثابت نیز گفته می‌شود، توالی‌های اسید آمینه دامنه‌های عملکردی را تولید می‌کند که در ساختار ستون فقرات ثابت داده شده تا می‌شوند (شکل ۱).

۲) طراحی ساختاری ستون فقرات، که در هسته ایجاد ساختارهای سه‌بعدی جدید پروتئین کاملاً از ابتدا قرار دارد، مختصاتی را برای هر اتم ستون فقرات هر اسید آمینه تولید می‌کند (شکل ۲). مجموعه داده‌های مورد استفاده برای تولید توالی شامل مجموعه‌هایی از پروتئین‌ها و زیرتوالی‌ها یا دامنه‌های پروتئین‌های انتخاب شده در رابطه با کلاس، معماری، توپولوژی، خانواده یا عملکرد آنها است. مجموعه داده‌های مورد استفاده برای طراحی ساختاری ستون فقرات همچنین شامل مجموعه‌ای از توالی‌ها از ساختارهای پیش‌بینی شده با رنگ‌آمیزی برخی از اسیدهای آمینه از توالی‌های بومی است.

شکل ۱ طراحی پروتئین LLM مبتنی بر توالی.

شکل ۲ طراحی پروتئین مدل انتشار مبتنی بر ساختار مختصات اتمی.

دشوارترین ویژگی مدل‌های مبتنی بر هوش مصنوعی/یادگیری ماشین که برای طراحی پروتئین de novo استفاده می‌شوند، مفاهیم علوم محاسباتی مربوط به آموزش، عملیات بعدی و اعتبارسنجی تجربی نتایج است. واضح‌ترین رویکرد به چنین مدل‌هایی، توصیف چند ویژگی اساسی مرتبط با تولید توالی و طراحی ساختاری ستون فقرات است. فضای پروتئین، نمایش گسترده‌ای از هر پروتئین طبیعی با ۲ مختصات است، ۱ توالی آن و دیگری عملکرد اصلی آن. برخی از مدل‌ها را می‌توان برای یادگیری و کار در فضای پروتئین طبیعی و سپس فراتر از فضای پروتئین طبیعی برای ایجاد طرح‌های de novo (جدید) آموزش داد. تولید توالی عمدتاً از مدل‌های large language استفاده کرده است، در حالی که طراحی ساختاری ستون فقرات تا حد زیادی بر مدل‌های انتشار متمرکز بوده است. مدل‌های large language  برای تولید توالی برای پیش‌بینی هویت اسیدهای آمینه پنهان آموزش داده می‌شوند، زمانی که یک توالی شناخته شده که حاوی این اسیدهای آمینه است، ارائه شود (شکل ۱). فراوانی اسید آمینه در یک موقعیت توالی به تدریج بر اساس انتخاب‌های درست و نادرست تغییر می‌کند.

سپس تولید ساختار پروتئین با پیش‌بینی تکراری اسیدهای آمینه متوالی بر اساس زمینه توالی در حال توسعه و توزیع احتمال یادگیری آن برای اسید آمینه بعدی ادامه می‌یابد. ویژگی‌های خاص مانند شبکه‌های پیوند هیدروژنی و همچنین توابع خاص هدایت‌شده توسط برچسب‌های شرطی‌سازی ممکن است در این فرآیند گنجانده شوند. مدل‌های انتشار برای طراحی ساختار ستون فقرات با افزودن مکرر مقادیر کمی از توالی‌های پروتئینی Gaussian (با توزیع نرمال) به پروتئینی با توالی و مختصات ستون فقرات که به صورت تجربی تعیین شده‌اند، توسط فرآیندی به نام “نویزینگ” آموزش داده می‌شوند (شکل ۲). این آموزش به مدل اجازه می‌دهد تا توالی‌ها و مختصات ستون فقرات اصلی و نزدیک به هم را از داده‌های نویزدار توسط فرآیند “حذف نویز” بازیابی کند. هنگامی که مدل، توزیع‌های احتمال فضای پروتئین را آموخته است، می‌تواند ساختارهای پروتئینی جدیدی را از نویز Gaussian تولید کند. مدل‌های انتشار را می‌توان به عنوان مدل‌های large language اصلاح کرد تا خواص و عملکردهای خاص جدیدی مانند پایداری پروتئین، نیمه عمر بیولوژیکی، توزیع سلولی و بافتی، اتصال لیگاند و عملکردهای کاتالیزوری را در خود جای دهند. استفاده از مجموعه‌ای از معیارها، شامل خواص فیزیکوشیمیایی و شباهت‌های ساختاری پروتئین‌های طراحی‌شده و بومی با توالی اسید آمینه یکسان، برای توصیف پروتئین‌های de novo و در نتیجه نظارت بر فرآیندهای طراحی استفاده می‌شود. فرآیندهای طراحی همچنین با آزمایش عملکردهای مرتبطی که در صورت عملکرد پروتئین‌ها در داخل بدن (in vivo)، که هدف نهایی درمانی است، مورد نیاز هستند، نظارت می‌شوند.

Edward J. Goetzl, MD

The American Journal of Medicine. Volume 138, Issue 4. P604-607. April 2025