خانهاخبارTaalas با جاسازی کل مدل های هوش مصنوعی به طور مستقیم در سیلیکون، طراحی تراشه های معمولی را به چالش می کشد

Taalas با جاسازی کل مدل های هوش مصنوعی به طور مستقیم در سیلیکون، طراحی تراشه های معمولی را به چالش می کشد




طراحی پردازنده کاملاً متفاوت، کل مدل‌های هوش مصنوعی را در سیلیکون جاسازی می‌کند و سرعت و کارایی بسیار بالایی را برای بارهای کاری استنتاج نسل بعدی ارائه می‌کند.

معماری جدید پردازنده هوش مصنوعی توسط Taalas با جاسازی کل مدل‌های هوش مصنوعی به طور مستقیم در سیلیکون، طراحی تراشه‌های معمولی را به چالش می‌کشد و عملکرد و کارایی استنتاج را به‌طور چشمگیری افزایش می‌دهد.این رویکرد نیاز به لایه‌های اجرای نرم‌افزار سنتی را از بین می‌برد و پاسخ‌های فوری را ممکن می‌سازد و هزینه‌های عملیاتی را به‌طور قابل‌توجهی کاهش می‌دهد.


برخلاف پردازنده‌های گرافیکی و شتاب‌دهنده‌های هوش مصنوعی همه‌منظوره که انعطاف‌پذیری را در اولویت قرار می‌دهند، این معماری برای تخصصی‌سازی تک‌مدل ساخته شده است.هر چیپ به صورت سفارشی برای یک مدل هوش مصنوعی خاص طراحی شده است و پارامترها و وزن آن را در خود سیلیکون متصل می کند.این تغییر باعث افزایش عملکرد یک تا دو مرتبه نسبت به راه حل های موجود می شود.

ویژگی های کلیدی عبارتند از:

یک مدل هوش مصنوعی کامل (وزن + پارامترها) را مستقیماً به سیلیکون متصل می کند
عملکرد استنتاج 10-100× بالاتر از GPU ها را ارائه می دهد
تأخیر زیر میلی ثانیه با 14K+ توکن در ثانیه
تا 100× هزینه کمتر برای هر توکن برای حجم کار استنتاج
چرخه ایجاد تراشه سریع (~2 ماه در هر مدل)**
این پردازنده را می توان در عرض دو ماه پس از عرضه یک مدل توسعه داد و امکان استقرار سریع سخت افزار بهینه را فراهم کرد.نمایش‌های اولیه تأخیر زیر میلی‌ثانیه‌ای و توان عملیاتی بیش از 14000 توکن در ثانیه را در مدل‌های زبان رایج نشان می‌دهند، که باعث می‌شود خروجی‌ها تقریباً آنی به نظر برسند.


این جهش عملکرد همچنین به مزایای اقتصادی عمده تبدیل می شود.هزینه های استنتاج به کسری از یک درصد در میلیون توکن کاهش می یابد - بسیار کمتر از سیستم های مبتنی بر GPU - به طور بالقوه ارائه دهندگان ابری را قادر می سازد تا درخواست های بسیار بیشتری را با هزینه کمتر انجام دهند.

با این حال، طراحی با معاوضه هایی همراه است.با تمرکز بر یک مدل واحد، تراشه قابلیت برنامه ریزی را قربانی می کند و نمی تواند برای بارهای کاری دیگر مورد استفاده قرار گیرد.در حالی که انعطاف‌پذیری محدود ممکن است پذیرش گسترده‌تر را محدود کند، معماری گام مهمی به سمت تخصصی شدن شدید در سخت‌افزار هوش مصنوعی است.

این توسعه نشان دهنده یک تغییر صنعت رو به رشد به سمت سیلیکون مخصوص دامنه است، جایی که دستاوردهای عملکرد و کارایی بیشتر از نیاز به محاسبات همه منظوره است.اگر به طور گسترده مورد استفاده قرار گیرد، این رویکرد مدل محور می تواند زیرساخت هوش مصنوعی را تغییر شکل دهد، به ویژه برای حجم کاری استنتاج با حجم بالا.