Taalas با جاسازی کل مدل های هوش مصنوعی به طور مستقیم در سیلیکون، طراحی تراشه های معمولی را به چالش می کشد
طراحی پردازنده کاملاً متفاوت، کل مدلهای هوش مصنوعی را در سیلیکون جاسازی میکند و سرعت و کارایی بسیار بالایی را برای بارهای کاری استنتاج نسل بعدی ارائه میکند.
معماری جدید پردازنده هوش مصنوعی توسط Taalas با جاسازی کل مدلهای هوش مصنوعی به طور مستقیم در سیلیکون، طراحی تراشههای معمولی را به چالش میکشد و عملکرد و کارایی استنتاج را بهطور چشمگیری افزایش میدهد.این رویکرد نیاز به لایههای اجرای نرمافزار سنتی را از بین میبرد و پاسخهای فوری را ممکن میسازد و هزینههای عملیاتی را بهطور قابلتوجهی کاهش میدهد.
برخلاف پردازندههای گرافیکی و شتابدهندههای هوش مصنوعی همهمنظوره که انعطافپذیری را در اولویت قرار میدهند، این معماری برای تخصصیسازی تکمدل ساخته شده است.هر چیپ به صورت سفارشی برای یک مدل هوش مصنوعی خاص طراحی شده است و پارامترها و وزن آن را در خود سیلیکون متصل می کند.این تغییر باعث افزایش عملکرد یک تا دو مرتبه نسبت به راه حل های موجود می شود.
ویژگی های کلیدی عبارتند از:
یک مدل هوش مصنوعی کامل (وزن + پارامترها) را مستقیماً به سیلیکون متصل می کند
عملکرد استنتاج 10-100× بالاتر از GPU ها را ارائه می دهد
تأخیر زیر میلی ثانیه با 14K+ توکن در ثانیه
تا 100× هزینه کمتر برای هر توکن برای حجم کار استنتاج
چرخه ایجاد تراشه سریع (~2 ماه در هر مدل)**
این پردازنده را می توان در عرض دو ماه پس از عرضه یک مدل توسعه داد و امکان استقرار سریع سخت افزار بهینه را فراهم کرد.نمایشهای اولیه تأخیر زیر میلیثانیهای و توان عملیاتی بیش از 14000 توکن در ثانیه را در مدلهای زبان رایج نشان میدهند، که باعث میشود خروجیها تقریباً آنی به نظر برسند.
این جهش عملکرد همچنین به مزایای اقتصادی عمده تبدیل می شود.هزینه های استنتاج به کسری از یک درصد در میلیون توکن کاهش می یابد - بسیار کمتر از سیستم های مبتنی بر GPU - به طور بالقوه ارائه دهندگان ابری را قادر می سازد تا درخواست های بسیار بیشتری را با هزینه کمتر انجام دهند.
با این حال، طراحی با معاوضه هایی همراه است.با تمرکز بر یک مدل واحد، تراشه قابلیت برنامه ریزی را قربانی می کند و نمی تواند برای بارهای کاری دیگر مورد استفاده قرار گیرد.در حالی که انعطافپذیری محدود ممکن است پذیرش گستردهتر را محدود کند، معماری گام مهمی به سمت تخصصی شدن شدید در سختافزار هوش مصنوعی است.
این توسعه نشان دهنده یک تغییر صنعت رو به رشد به سمت سیلیکون مخصوص دامنه است، جایی که دستاوردهای عملکرد و کارایی بیشتر از نیاز به محاسبات همه منظوره است.اگر به طور گسترده مورد استفاده قرار گیرد، این رویکرد مدل محور می تواند زیرساخت هوش مصنوعی را تغییر شکل دهد، به ویژه برای حجم کاری استنتاج با حجم بالا.