مترجم: آناهیتا خاقانی – مهندس بهداشت
کاربردهای اخیر روشهای طراحی محاسباتی مبتنی بر هوش مصنوعی، امکان ایجاد پروتئینهای جدیدی را فراهم کرده است که در طبیعت وجود ندارند اما اثرات قوی بر سلولها و سیستمهای اندامهای انسانی دارند. این روشهای سریع همچنین امکان اصلاح پروتئینها را در یک مرحله فراهم میکنند. همچنین عملکرد، قدرت، پایداری، مقاومت در برابر تجزیه زیستی، توزیع سلولی و بافتی و نیمه عمر بیولوژیکی را بهینه میکند. چنین پروتئینهایی که تا به امروز تولید شدهاند شامل سیتوکینها، آنتیبادیها، مهارکنندههای پروتئینهای مرگ سلولی و آنتاگونیستهای گیرندههای خارج سلولی برای فاکتورهای رشد و ویروسها هستند. پروتئینهای تازه طراحی شده دارای پتانسیلهای تشخیصی و درمانی پزشکی گسترده و همچنین ظرفیت تغییر بسیاری از فعالیتهای طبیعی سلولهای انسانی هستند.
اهمیت بالینی
- سیستمهای محاسباتی مبتنی بر مدلهای Large Language و Diffusion برای طراحی پروتئینهای طبیعی مفیدتر و پروتئینهای کاملاً جدید استفاده میشوند.
- پروتئینها را میتوان برای افزایش قدرت، پایداری، مقاومت در برابر پروتئولیز و نیمه عمر بیولوژیکی اصلاح کرد.
- طیف وسیعی از پروتئینهای درمانی در یک مرحله اختراع شدهاند، از جمله سیتوکینها، واکسنها، آنتیبادیها، مهارکنندههای پروتئینهای مرگ سلولی، آنتاگونیستهای گیرندههای خارج سلولی برای ویروسها و مهارکنندههای اتصال آلرژن.
مقدمه
پروتئینها دستهای گسترده و متنوع از مولکولهای زیستی هستند که میتوانند به عنوان داربست برای حفظ ساختارهای سلولی و بافتی، کاتالیزورها، سایر انتقالدهندههای یونی و مولکولی، آنتیبادیها، گیرندهها، فرستندههای سیگنال و درمانهایی با قدرت بالا و مکانیسمهای پیچیده ناشی از ساختارهای سهبعدی پیچیده خود عمل کنند. مهندسی پروتئین درمانی جدید شامل چالشهای متمایزی مانند تمایل ذاتی آنها به تجمع، توزیع و حذف بافتی اغلب غیرقابل پیشبینی و حساسیت به تجزیه زیستی سریع است. روشهای استاندارد برای بهینهسازی خواص پروتئین درمانی شامل جهشهای اسکلت و ترکیب با لیپید، کربوهیدرات و سایر بخشها بوده است. کاربردهای در حال تکامل روشهای طراحی محاسباتی مبتنی بر یادگیری ماشین و هوش مصنوعی اکنون امکانات بیشماری را برای تولید پروتئینهای درمانی قدرتمند جدید که در طبیعت وجود ندارند، فراهم کرده است.
سیستمهای محاسباتی
وظیفه اولیه ایجاد ساختارهای پروتئینی از توالیهای اسید آمینه آنها توسط سیستمهای محاسباتی، نیاز به مجموعه دادههای بزرگی از جمله بانک دادههای پروتئین (PDB)، یک بایگانی مرکزی برای تمام ساختارهای تعیینشده تجربی، و ارزیابی مهم پیشبینی ساختار پروتئین (CASP-شماره مجموعه فعلی)، یک زیرمجموعه منتشر نشده از ساختارهای PDB برای آزمایش کور که هر دو سال یک بار به روز می شود. همچنین به یک برنامه یا مدل یادگیری ماشین از نوع یادگیری عمیق، که شبکه عصبی نیز نامیده میشود، نیاز بود که به رایانهها آموزش دهد پدیدهها را شناسایی کنند، گزینهها را بسنجند و با گرهها یا نورونهای به هم پیوسته در یک ساختار لایهای که شبیه مغز انسان است، به نتیجهگیری برسند. مدلهای AlphaFold2 و RoseTTAFold ابتدا از هر دو ساختار پیشبینیشده در عرض چند دقیقه تا چند ساعت استفاده کردند، اما به همترازی چندگانه توالی متکی بودند، نیازهای محاسباتی بالایی داشتند و به پروتئینهای طبیعی محدود بودند. هر ساختار جدید تولید شده به صورت محاسباتی با ساختار تجربی ایجاد شده یک پروتئین با روشهای فیزیکی متعدد بر اساس موقعیت هر اسید آمینه و فواصل محلی بین مختصات اتمی اسیدهای آمینه مقایسه میشود. طراحی پروتئین مبتنی بر هوش مصنوعی/ ماشین لرنینگ اساساً از منابع مشابهی برای تعیین ساختارهای پروتئین استفاده میکند، اما از ترتیب معکوس رویههایی که ابتدا برای تعیین چینخوردگیها و شکل یک پروتئین در سطح اتمی از توالی اسید آمینه آن استفاده میشد، پیروی میکند. دو رویکرد اساسی وجود دارد:
۱) تولید توالی، که به آن طراحی ستون فقرات ثابت نیز گفته میشود، توالیهای اسید آمینه دامنههای عملکردی را تولید میکند که در ساختار ستون فقرات ثابت داده شده تا میشوند (شکل ۱).
۲) طراحی ساختاری ستون فقرات، که در هسته ایجاد ساختارهای سهبعدی جدید پروتئین کاملاً از ابتدا قرار دارد، مختصاتی را برای هر اتم ستون فقرات هر اسید آمینه تولید میکند (شکل ۲). مجموعه دادههای مورد استفاده برای تولید توالی شامل مجموعههایی از پروتئینها و زیرتوالیها یا دامنههای پروتئینهای انتخاب شده در رابطه با کلاس، معماری، توپولوژی، خانواده یا عملکرد آنها است. مجموعه دادههای مورد استفاده برای طراحی ساختاری ستون فقرات همچنین شامل مجموعهای از توالیها از ساختارهای پیشبینی شده با رنگآمیزی برخی از اسیدهای آمینه از توالیهای بومی است.
شکل ۱ طراحی پروتئین LLM مبتنی بر توالی.
شکل ۲ طراحی پروتئین مدل انتشار مبتنی بر ساختار مختصات اتمی.
دشوارترین ویژگی مدلهای مبتنی بر هوش مصنوعی/یادگیری ماشین که برای طراحی پروتئین de novo استفاده میشوند، مفاهیم علوم محاسباتی مربوط به آموزش، عملیات بعدی و اعتبارسنجی تجربی نتایج است. واضحترین رویکرد به چنین مدلهایی، توصیف چند ویژگی اساسی مرتبط با تولید توالی و طراحی ساختاری ستون فقرات است. فضای پروتئین، نمایش گستردهای از هر پروتئین طبیعی با ۲ مختصات است، ۱ توالی آن و دیگری عملکرد اصلی آن. برخی از مدلها را میتوان برای یادگیری و کار در فضای پروتئین طبیعی و سپس فراتر از فضای پروتئین طبیعی برای ایجاد طرحهای de novo (جدید) آموزش داد. تولید توالی عمدتاً از مدلهای large language استفاده کرده است، در حالی که طراحی ساختاری ستون فقرات تا حد زیادی بر مدلهای انتشار متمرکز بوده است. مدلهای large language برای تولید توالی برای پیشبینی هویت اسیدهای آمینه پنهان آموزش داده میشوند، زمانی که یک توالی شناخته شده که حاوی این اسیدهای آمینه است، ارائه شود (شکل ۱). فراوانی اسید آمینه در یک موقعیت توالی به تدریج بر اساس انتخابهای درست و نادرست تغییر میکند.
سپس تولید ساختار پروتئین با پیشبینی تکراری اسیدهای آمینه متوالی بر اساس زمینه توالی در حال توسعه و توزیع احتمال یادگیری آن برای اسید آمینه بعدی ادامه مییابد. ویژگیهای خاص مانند شبکههای پیوند هیدروژنی و همچنین توابع خاص هدایتشده توسط برچسبهای شرطیسازی ممکن است در این فرآیند گنجانده شوند. مدلهای انتشار برای طراحی ساختار ستون فقرات با افزودن مکرر مقادیر کمی از توالیهای پروتئینی Gaussian (با توزیع نرمال) به پروتئینی با توالی و مختصات ستون فقرات که به صورت تجربی تعیین شدهاند، توسط فرآیندی به نام “نویزینگ” آموزش داده میشوند (شکل ۲). این آموزش به مدل اجازه میدهد تا توالیها و مختصات ستون فقرات اصلی و نزدیک به هم را از دادههای نویزدار توسط فرآیند “حذف نویز” بازیابی کند. هنگامی که مدل، توزیعهای احتمال فضای پروتئین را آموخته است، میتواند ساختارهای پروتئینی جدیدی را از نویز Gaussian تولید کند. مدلهای انتشار را میتوان به عنوان مدلهای large language اصلاح کرد تا خواص و عملکردهای خاص جدیدی مانند پایداری پروتئین، نیمه عمر بیولوژیکی، توزیع سلولی و بافتی، اتصال لیگاند و عملکردهای کاتالیزوری را در خود جای دهند. استفاده از مجموعهای از معیارها، شامل خواص فیزیکوشیمیایی و شباهتهای ساختاری پروتئینهای طراحیشده و بومی با توالی اسید آمینه یکسان، برای توصیف پروتئینهای de novo و در نتیجه نظارت بر فرآیندهای طراحی استفاده میشود. فرآیندهای طراحی همچنین با آزمایش عملکردهای مرتبطی که در صورت عملکرد پروتئینها در داخل بدن (in vivo)، که هدف نهایی درمانی است، مورد نیاز هستند، نظارت میشوند.
Edward J. Goetzl, MD
The American Journal of Medicine. Volume 138, Issue 4. P604-607. April 2025