دانشمندی که به هوش مصنوعی، خواندن و نوشتن دیانای آموخت
ارتباط فردا: دیانای(DNA) اغلب با یک زبان نوشتاری مقایسه میشود، چرا که مانند حروف الفبا، مولکولها با پایههای نوکلئوتیدی A، T، C و G، برای آدنین، تیمین، سیتوزین و گوانین در هر موجود زندهای، از باکتری گرفته تا انسان، به ترتیبی مانند کلمات و پاراگرافها مرتب میشوند.
آنها مانند یک زبان، اطلاعات را رمزگذاری میکنند، اما انسانها نمیتوانند به راحتی این دستورالعملها را برای زندگی بخوانند یا تفسیر کنند. ما نمیتوانیم در یک نگاه، تفاوت بین یک توالی دیانای را که در یک موجود زنده عمل میکند با یک رشته تصادفی از A، T، C و G تشخیص دهیم.
برایان های، دانشمند رایانه که سرپرست آزمایشگاه طراحی تکاملی در دانشگاه استنفورد، مستقر در مؤسسه غیرانتفاعی Arc است، میگوید: درک توالی بیولوژیکی برای انسان واقعاً سخت است. این انگیزه پشت اختراع جدید او به نام Evo بود؛ یک مدل زبان بزرگ ژنومی(LLM) که او آن را یک ChatGPT برای DNA توصیف میکند.
هوش مصنوعی ChatGPT بر روی حجم زیادی از متون انگلیسی مکتوب آموزش داده شد که الگوریتم هوش مصنوعی از آن الگوهایی یاد گرفت که به آن اجازه خواندن و نوشتن جملات را میداد. به طور مشابه، Evo نیز بر روی حجم زیادی از دیانای (۳۰۰ میلیارد جفت پایه از ۲.۷ میلیون ژنوم باکتریایی، باستانی و ویروسی) برای جمعآوری اطلاعات عملکردی از بخشهایی از دیانای که کاربر به عنوان درخواست وارد میکند، آموزش دیده است.
های میگوید که درک کاملتر از کد حیات میتواند طراحی بیولوژیکی را تسریع کند و منجر به ایجاد ابزارهای بیولوژیکی بهتر برای بهبود پزشکی و محیط زیست شود.
های در دوران تحصیلات تکمیلی به استفاده از مدلهای زبانی برای زیستشناسی علاقهمند شد؛ زمانی که شروع به ساخت پروتئینهای LLM کرد که میتواند نحوه تا شدن پروتئینها را پیشبینی کند و به طراحی نمونههای جدید کمک کند.
پروتئینها ماشینهای مولکولی هستند که توسط دیانای در بخشهای کلمهمانندی که ما «ژن» مینامیم، کدگذاری میشوند، اما ژنوم یک موجود زنده (تمام طول دیانای آن) اطلاعات بیشتری را نسبت به فهرستی از پروتئینها نشان میدهد؛ همانطور که یک جمله حاوی اطلاعات بیشتری نسبت به فهرستی از کلمات است.
زیستشناسان هنوز در تلاش برای درک دستور زبان دیانای هستند. علاوه بر این، ژنومها شامل مناطق زیادی هستند که برای پروتئینها کد نمیشوند. های در فکر این بود که اگر یادگیری ماشینی بتواند به درک کتابخانه ژنتیکی کمک کند، چه میشود؟
هوش مصنوعی Evo از غوطهور شدن در زبان نوکلئوتیدها، الگوهایی را دریافت میکند که انسان نمیتواند ببیند و از این الگوها برای پیشبینی اینکه تغییرات دیانای چگونه بر عملکرد محصولات، RNA و پروتئینهای خود تأثیر میگذارد، استفاده میکند.
این مدل زبان بزرگ همچنین توالیهای جدیدی را برای نسخههای جایگزین مولکولها نوشته است. در برخی موارد حتی این مجتمعهای ساخته شده توسط Evo وظایف خود را به خوبی یا بهتر از نسخههای طبیعی انجام میدهند.
های میگوید: این تغییرات مانند مسیرهای جایگزینی هستند که میتوانست توسط تکامل طی شود، اما اینطور نشده است. اکنون ما مدلی داریم که به ما امکان میدهد این جهانهای تکاملی متناوب را کشف کنیم.
فرمول موفقیت Evo در یک اصل اساسی است. این مدل بزرگ است، دارای ۷ میلیارد متغیر است که در علم رایانه به عنوان پارامتر شناخته میشود و بر روی بارهای داده آموزش داده شده است. هدف آن ساده است: پیشبینی جفت باز بعدی در توالی دیانای.
ویژگیهای پیچیده از یک مدل بزرگ و یک هدف ساده به وجود میآیند. های میگوید: این یک پارادایم بسیار قدرتمند است که در چند سال گذشته در یادگیری ماشینی ظاهر شده است. تحت این پارادایم، Evo مهارت عجیبی در پیشبینی اینکه چه توالیهایی با زندگی سازگار است و برای چرخاندن انواع مفید مولکولهای طبیعت به دست میآورد. Evo حتی یک ژنوم کامل را با طرح خود نوشت، اگرچه هنوز نتوانسته ژنومی بنویسد که بتواند در یک موجود زنده عمل کند.
وی افزود: طراحی بیولوژیکی در حال حاضر بسیار حرفهای است. این کار بسیار تصادفی است و نرخ موفقیت بسیار پایینی دارد. ما امیدواریم که بتوانیم همه این جنبهها را با یادگیری ماشینی بهبود ببخشیم.
میتوان گفت «برایان های» یک ناممکن را ممکن کرده است. به همین خاطر میخواهیم بیشتر با او آشنا شویم. های درباره تشابهات بین دیانای و زبان انسان و آنچه که Evo میتواند و نمیتواند انجام دهد و گونهای از شعرنویسی در برنامهنویسی صحبت کرده است.
علاقه اصلی؛ رایانه، زیستشناسی یا زبان؟
های میگوید من علایق بسیار گستردهای دارم و مسیرهای شغلی زیادی را بررسی کردهام. در مقطعی از زندگی میخواستم در مقطع دکترا ادامه تحصیل بدهم. در مطالعه ادبیات انگلیسی در دبیرستان و دانشگاه یاد گرفتم که قدر شعر را بدانم. نوع شعری که من واقعاً دوست داشتم، اشعاری بود که ساختار و مفاهیم بزرگی دارد و از زبان به شیوههای بسیار جدید و جالب استفاده میکند.
تمایل به خواندن یک غزل یا شناسایی ساختار در یک شعر خوب به زبان انگلیسی، شبیه به توسعه مدلهایی است که توالیهای ژنومی یا پروتئینی را قابل تفسیرتر میکند و ساختار پنهان آنها را آشکار میکند. این تقریباً مانند نقد ادبی در توالیهای زیستشناسی است. به این ترتیب، میتوان گفت که من همچنان به نقد ادبی میپردازم.
وی در پاسخ به این پرسش که چه چیزی باعث شد فکر کنید با دیانای میتوان مانند یک زبان رفتار کرد، گفت: دیانای مانند زبان طبیعی انسان، متوالی است. یک دنباله از بلوکهای سازنده مجزا است. ما زبان طبیعی انسان را به کلمات و حروف الفبا تبدیل میکنیم. در زیستشناسی، یک نشانه میتواند با یک جفت باز دیانای یا یک اسید آمینه (اجزای سازنده مولکولی برای پروتئینها) مطابقت داشته باشد.
دیانای مانند زبان طبیعی، ساختاری طبیعی دارد. توالیها تصادفی نیستند. بسیاری از ساختار در زبان طبیعی نیز غیر رسمی است. میتواند مبهم باشد و همیشه در حال تغییر است. به همین ترتیب، توالیهای دیانای دارای ابهاماتی هستند و توالی یکسان در زمینه متفاوت میتواند معانی متفاوتی داشته باشد.
علاقه به استفاده از مدلهای زبان بزرگ در دیانای
های میگوید درست در ابتدای کار فعلیام در دانشکده، در پاییز ۲۰۲۳ بود که به استفاده از مدلهای زبان بزرگ در دیانای علاقه پیدا کردم. چیزی در مورد تغییر شغل باعث میشود که فرد بخواهد در امور مختلف تجدید نظر کند. من در تعطیلات با دوستانم در توکیو بودم. دچار تاثیرات اختلاف زمانی شده بودم، بنابراین زود بیدار شدم. از آنجایی که بقیه خواب بودند، خودم یک پیادهروی طولانی انجام دادم و در طول آن به مدلسازی زبان دیانای فکر میکردم.
اصل اساسی در زیستشناسی مولکولی چیز بسیار زیبایی است که بیان میکند دیانای، RNA را که پروتئین را کد میکند، رمزگذاری میکند. بنابراین اگر مدلی را با دیانای آموزش دهید، مدلسازی زبان RNA و پروتئین را به صورت رایگان دریافت میکنید، زیرا ارتباط مستقیمی بین دیانای و توالی پروتئین وجود دارد.
شما همچنین میتوانید روی خود ژنوم آموزش دهید. ژنها همانطور که در کنار یکدیگر روی ژنوم هستند. هنگامی که یک مدل زبان پروتئینی را آموزش میدهید، اساساً یک ژنوم کامل را میگیرید و تمام بخشهایی را که برای پروتئینها کد میشوند، برش میزنید و روی تمام آن بخشهای کوچک به صورت جداگانه تمرین میکنید. اما شما بافت ژنتیکی وسیعی را که پروتئینها در آن قرار دارند، نادیده میگیرید.
در ژنومهای میکروبی، به ویژه پروتئینهایی با عملکردهای مرتبط مستقیماً در کنار یکدیگر روی ژنوم قرار دارند، بنابراین ترتیب این مناطق کدکننده پروتئین در ژنوم مهم است و شما آن اطلاعات را در یک مدل زبان پروتئینی از دست میدهید.
های میگوید من متوجه شدم که آموزش یک مدل در سطح پایهتر (از پروتئین به دیانای) میتواند قابلیتهای یک مدل را گسترش دهد.
نحوه آموزش Evo برای خواندن دیانای
یکی از تفاوتهای مهم بین مدلهای زبان پروتئین و دیانای، طول دنبالهای است که مدل برای پیشبینیهای جفت پایه بعدی خود استفاده میکند که آن را «طول زمینه» مینامیم. طول زمینه شبیه به یک یا دو صفحه از رمانی است که شخص میتواند همزمان ببیند.
مدل Evo بر روی یک رمان متشکل از ژنومهای بسیاری آموزش دید. به عنوان مثال ژنوم باکتری ای.کولی(E. coli) به تنهایی دارای ۲ میلیون تا ۴ میلیون جفت پایه است. البته Evo با طول زمینه حداکثر ۱۳۱ هزار توکن آموزش دیده است. در مقایسه، مدلهای زبان پروتئین اصلی با طول زمینه ۱۰۰۰ اسید آمینه آموزش داده شدهاند.
این امر مستلزم توسعه فناوری بود، زیرا طول زمینه طولانی، توان محاسباتی زیادی را مصرف میکند. های میگوید این نیاز به قدرت که با طول زمینه افزایش یافت، نسخههای اصلی ChatGPT را محدود میکرد، اما زمانی که به Evo فکر میکردیم، راهی برای کاهش محاسبات مورد نیاز برای طولهای زمینه طولانیتر پیدا کردیم. یک دانشجو از آزمایشگاه استنفورد به ما کمک کرد تا این پیشرفتها را در مدل دیانای خود اعمال کنیم.
مجموعه دادههای آموزشی Evo نیز مهم بود. این یعنی قرار گرفتن در معرض ۲.۷ میلیون ژنوم از باکتریها، باستانیان و ویروسها. های میگوید از مدلسازی زبان پروتئینی یاد گرفتم که تنوع توالی مهم است. این مدل جایگزینهای تکاملی برای زندگی را نشان میدهد. یعنی روشهای مختلف بیان یک ایده که این مدل میتواند از آنها برای یادگیری قوانین کلی مثلاً برای ساختن پروتئینهایی که عملکرد خاصی را انجام میدهند، استفاده کند.
برایان های خاطرنشان میکند که ما آموزش Evo را در دسامبر ۲۰۲۳ شروع کردیم. ما به آن اعلانهای مختلف دیانای را دادیم و از آن خواستیم تا توکن بعدی (در این مورد، یک جفت باز دیانای) را در یک دنباله پیشبینی کند و در ژانویه ۲۰۲۴ تصمیم گرفتیم آزمایش کنیم که آیا کار میکند یا خیر.
نحوه آزمایش Evo
های میگوید توالیهای دیانای کدکننده پروتئین را به Evo دادم که دارای جهشهای مختلف بودند؛ جفتهای باز که با توالی ژنی معمولی متفاوت بودند. وظیفه پیشبینی «احتمال تکاملی» این جهشها، احتمال وجود آنها در طبیعت بود. جهشهایی که محتمل تلقی میشوند باید عملکرد پروتئین را در آزمایشگاه حفظ کنند یا بهبود بخشند و جهشهای بعید باید با عملکرد ضعیف مرتبط باشند.
مدل Evo هیچ دانش صریحی از این عملکرد نداشت، بلکه فقط میدانست چه جهشهایی توسط تکامل در گذشته استفاده شده است. علاوه بر این، این مدل تنها بر روی دیانای، بدون هیچ دستورالعملی در مورد اینکه کدام بخش از دیانای با پروتئینها مطابقت دارد، آموزش داده شد. بنابراین باید مشخص میکرد که دیانای چگونه پروتئینها را کد میکند و پروتئینها از کجا شروع میشوند و در ژنوم متوقف میشوند.
به گفته های، محققان احتمالات را از مدل با استفاده از آزمایشهای تجربی عملکرد پروتئین به ثمر رساندند. وی میگوید ما دریافتیم که اگر یک جفت پایه تحت Evo احتمال بالایی داشته باشد، آن جفت باز احتمالاً عملکرد پروتئین را حفظ میکند یا بهبود میبخشد، اما اگر آن جفت باز احتمال کمی برای وقوع داشته باشد، قرار دادن آن جفت باز در یک توالی پروتئین احتمالاً عملکرد را از بین میبرد.
ما همچنین نتایج مدل را با مدلهای پیشرفته زبان پروتئین مقایسه کردیم و دریافتیم که Evo با وجود اینکه هرگز روی توالی پروتئینی آموزش ندیده است، با عملکرد مدلهای پروتئین مطابقت دارد. این اولین نشانهای بود که نشان میدهد ما موفق بودهایم.
کارهایی که از Evo خواسته شد
های میگوید ما از Evo برای تولید توالیهای دیانای استفاده کردیم، همانطور که ChatGPT میتواند متن تولید کند. یکی از شاگردانم به نام برایان کانگ(Brian Kang) به من کمک کرد تا مدل Evo را روی دیانای که یک پروتئین و حداقل یک مولکول RNA را کد میکند، تنظیم کنم. آنها به یکدیگر متصل میشوند تا مجموعهای به نام کریسپر-کس(CRISPR-Cas) را ایجاد کنند. کریسپر-کس، دیانای را در نقاط خاصی میشکند که به باکتریها در دفاع در برابر ویروسها کمک میکند. دانشمندان از آنها برای ویرایش ژنوم استفاده میکنند.
وی افزود: پس از آموزش Evo بر روی بیش از ۷۰ هزار توالی طبیعی دیانای برای مجموعه کریسپر-کس، از آن خواستیم تا سیستم کامل را در کد دیانای تولید کند. برای ۱۱ پیشنهاد آن، توالیهای دیانای را از یک شرکت سفارش دادیم و از آنها برای ایجاد مجتمعهای کریسپر-کس در آزمایشگاه و آزمایش عملکرد آنها استفاده کردیم.
وی ادامه داد: یکی از آنها کار کرد. ما آن را یک نمونه بسیار موفق میدانیم. با جریانهای کاری طراحی پروتئین معمولی، شما خوش شانس خواهید بود که به ازای هر ۱۰۰ دنباله آزمایش شده، یک پروتئین فعال پیدا کنید.
توالی موفق چقدر خوب کار کرد؟
این کار به خوبی سیستم پیشرفته کس(Cas) عمل میکند. اگر کمی روی آن کار شود، شاید کمی سریعتر بتواند به بریدن رشته دیانای اقدام کند.
های در پاسخ به این پرسش که آیا قبلا این کار انجام شده است، گفت: این یک کار بسیار پیچیده است. آنزیم Cas بیش از حد طولانی است که مدلهای زبان پروتئین کنونی نمیتوانند آن را پردازش کنند. علاوه بر این، یک مدل پروتئینی نمیتواند RNA را تولید کند.
طولانیترین توالی دیانای که Evo تولید کرده، چیست؟
این مدل، یک میلیون توکن را آزادانه از ابتدا تولید کرد که اساساً معادل یک ژنوم کامل باکتری است. اگر از ChatGPT بخواهید معادل یک میلیون توکن متن تولید کند، در یک نقطه از ریل خارج میشود.
گفتنی است که ژنوم Evo ساختار نیز داشت. چگالی ژنها مشابه ژنومهای طبیعی و پروتئینهایی بود که مانند پروتئینهای طبیعی تا میخورند، اما از چیزی که بتواند ارگانیسم را به حرکت درآورد، عاجز بود، زیرا فاقد ژنهای بسیاری بود که میدانیم برای بقای یک موجود حیاتی هستند.
این مدل برای تولید یک ژنوم منسجم، نیاز به توانایی ویرایش محصول خود و تصحیح خطاها دارد، درست همانطور که یک نویسنده انسانی برای یک متن طولانی انجام میدهد.
محدودیتهای Evo چیست؟
به گفته های، این تازه آغاز ماجراست. Evo فقط روی ژنومهای سادهترین موجودات یعنی پروکاریوتها آموزش دیده است.
وی میگوید: ما میخواهیم آن را به یوکاریوتها که موجوداتی مانند حیوانات، گیاهان و قارچها هستند که سلولهای آنها دارای هسته است، گسترش دهیم. ژنوم آنها بسیار پیچیدهتر است.
مدل Evo همچنین فقط زبان دیانای را میخواند و دیانای تنها بخشی از آن چیزی است که ویژگیهای یک موجود زنده یا فنوتیپ آن را تعیین میکند. محیط نیز نقش دارد. بنابراین، محققان مایلند که علاوه بر داشتن یک مدل خوب از ژنوتیپ، یک مدل واقعاً خوب از محیط و ارتباط آن با فنوتیپ بسازند.
آیا Evo دقیق است یا مستعد خطاست؟
در استفاده از رباتهای هوش مصنوعی مانند ChatGPT همه میخواهند حقایق را به درستی دریافت کنند. در زیستشناسی، ابهامات تقریباً میتوانند یک ویژگی باشند و نه یک اشکال.
به گفته برایان های، Evo اشتباه هم میکند. برای مثال، ممکن است ساختار پروتئینی را از دنبالهای پیشبینی کند که وقتی پروتئین را در آزمایشگاه میسازیم، اشتباه دربیاید. با این حال، یک انسان در چنین کاری تقریباً ناتوان خواهد بود و هیچ انسانی نمیتواند از ابتدا یک توالی دیانای بنویسد که در یک مجموعه کریسپر-کس جمع شود.
این فناوری در ۵ تا ۱۰ سال آینده به کجا خواهد رسید؟
برایان های میگوید: ما میخواهیم مرزهای طراحی بیولوژیکی را فراتر از مولکولهای پروتئین فردی به سیستمهای پیچیدهتری که شامل پروتئینهای زیادی است یا به پروتئینهای متصل به RNA یا DNA توسعه دهیم. این پیامِ Evo است. ما ممکن است مسیری مصنوعی را مهندسی کنیم که دارویی با مولکول کوچک با ارزش درمانی تولید کند یا پلاستیک یا روغن دور ریخته شده را در اثر نشت تخریب کند.
وی افزود: من همچنین انتظار دارم که این مدلها به کشف بیولوژیکی کمک کنند. وقتی یک ارگانیسم جدید را از طبیعت توالییابی میکنید، فقط DNA به دست میآورید و تشخیص اینکه چه بخشهایی از ژنوم با عملکردهای مختلف مطابقت دارد، بسیار دشوار است. اگر مدلها بتوانند مفهوم، مثلاً یک سیستم دفاعی فاژی یا یک مسیر بیوسنتزی را بیاموزند، به ما کمک میکنند تا سیستمهای بیولوژیکی جدید را در توالییابی دادهها حاشیهنویسی و کشف کنیم. این الگوریتم به زبان مسلط است، در حالی که انسانها چندان مسلط نیستند.
آیا Evo میتواند خطرناک باشد؟
برایان های میگوید اگر از این مدل هوش مصنوعی برای طراحی ویروسها استفاده شود، شاید آن ویروسها بتوانند برای اهداف پلید استفاده شوند. ما باید راهی برای اطمینان از استفاده خوب از این مدلها داشته باشیم، اما سطح بیوتکنولوژی در حال حاضر برای ایجاد چیزهای خطرناک کافی است. کاری که بیوتکنولوژی هنوز نمیتواند انجام دهد، این است که از ما در برابر چیزهای خطرناک محافظت کند.
وی در پایان گفت: طبیعت همیشه در حال ایجاد ویروسهای کشنده است. من فکر میکنم که اگر سطح تواناییهای فناورانه خود را بهبود بخشیم، تأثیر بیشتری بر توانایی ما برای دفاع از خود در برابر تهدیدات بیولوژیکی خواهد داشت تا ایجاد تهدیدهای جدید.
انتهای پیام