چگونه SEA-LION قصد دارد شکاف فرهنگی موجود در ابزارهای محبوب هوش مصنوعی را پر کند


دکتر لزلی تئو، مدیر ارشد محصولات هوش مصنوعی در AI سنگاپور

با وجود محبوبیت و استفاده گسترده از آن، یک مشکل شکاف فرهنگی وجود دارد که می توان آن را در محبوب ترین ابزارهای هوش مصنوعی امروزی مانند ChatGPT یافت. از آنجایی که 40 درصد از مدل‌های موجود در بازار امروز توسط شرکت‌های مستقر در ایالات متحده تولید می‌شوند، این مدل‌ها بیشتر با فرهنگ غربی سازگار هستند و باعث ایجاد فاصله برای مصرف‌کنندگان در بازارهایی مانند آسیای جنوب شرقی (SEA) می‌شوند.

هدف هوش مصنوعی سنگاپور این است که از طریق SEA-LION، اولین مدل زبان بزرگ منبع باز SEA (LLM) که به طور خاص به موارد استفاده منطقه ای، صنایع، زبان ها و زمینه ها می پردازد، به این چالش رسیدگی کند.

بر اساس بیانیه این سازمان، برخلاف بسیاری از مدل‌های فعلی، SEA-LION مزایای درک تفاوت‌های ظریف زبان‌های محلی و نشان دادن آگاهی بیشتر از بافت فرهنگی خاص منطقه را در اختیار کاربران قرار می‌دهد.

این امر محدودیت پذیرش توسط دولت‌ها، کسب‌وکارها و دانشگاه‌ها را کاهش می‌دهد، در حالی که به طور موثر زبان‌های SEA و نمایندگی فرهنگی را در LLM‌های جریان اصلی، که در حال حاضر تحت سلطه مدل‌هایی هستند که عمدتاً بر روی مجموعه داده‌های انگلیسی غربی و توسعه‌یافته انگلیسی آموزش داده شده‌اند، گسترش می‌دهد.»

در ارائه‌ای در دانشگاه ملی سنگاپور در ۲۴ ژانویه، دکتر لزلی تئو، مدیر ارشد محصولات هوش مصنوعی در AI سنگاپور، توضیح داد که این پروژه قصد ندارد با سازندگان ابزار هوش مصنوعی مانند OpenAI رقابت کند. وی تاکید کرد: در عوض، ما می خواهیم ابزارهای موجود را تکمیل کنیم.

همچنین بخوانید: چگونه Transparently.AI از هوش مصنوعی برای تشخیص دستکاری حسابداری، کلاهبرداری استفاده می کند

پروژه SEA-LION که در نوامبر 2023 راه اندازی شد، ابتدا بر توسعه دهندگان متمرکز بود، اما سپس شروع به دریافت سوالات تجاری کرد. این منجر به پروژه ایجاد زیرساخت عمومی مورد نیاز در فضای هوش مصنوعی شد.

SEA-LION از طریق مشارکت موسسات مختلف کار می کند، جایی که هر یک از داده ها و معیارهای مورد نیاز برای توسعه فناوری کمک می کند. SEA LION هنگام جمع‌آوری داده‌ها با مواد غیر دارای حق چاپ (“کوشر”) کار می‌کند.

«داده‌های مورد استفاده برای پیش‌آموزش مدل عمدتاً از اینترنت، به‌ویژه مجموعه داده CommonCrawl که در دسترس عموم است، به‌دست آمد. این داده‌ها برای استفاده در پیش‌آموزش SEA-LION بارگیری، تمیز و از پیش پردازش شده‌اند. نسبت زبان‌های مختلف SEA در مجموعه داده‌های پیش‌آموزشی نیز برای منعکس‌کننده دقیق‌تر توزیع زبان‌ها در منطقه ما تنظیم شد.» در این پروژه آمده است.

در تظاهراتی که e27 شاهد، SEA-LION در کنار LLM های محبوبی مانند OpenAI، Llama و SEA LLM قرار گرفت. برای پاسخ به همه ابزارها به زبان های منطقه ای مانند باهاسا اندونزیایی و تایلندی سوالات یکسانی داده شد و دیدن تفاوت ها جالب است.

از همه LLM ها، SEALION، SEA LLM و OpenAI آنهایی بودند که توانستند پاسخ هایی را به زبان اندونزیایی بهاسا و تایلندی ایجاد کنند.

SEA LION و OpenAI تمایل داشتند پاسخ‌های واضحی را ارائه دهند که متناسب با جعبه گفتگو بود. اگرچه OpenAI در ایجاد پاسخ کندتر بود، اما توانست زمینه را بهتر درک کند. از نظر دقت، این دو LLM نیز دقیق ترین بودند.

همچنین بخوانید: هوش مصنوعی در تبلیغات موبایلی: تغییر ارتباط، عملکرد و تجربیات فراگیر

آینده SEA LION چیست

از نظر استفاده عملی و روزمره، SEA-LION قصد دارد به شرکت های SEA کمک کند تا هوش مصنوعی را در فرآیندهای کاری خود بگنجانند. برای مثال، می‌توان از آن برای فعال کردن چت‌ربات‌های خدمات مشتری استفاده کرد که توانایی کشف تفاوت‌های محلی در زبان‌های SEA، بهبود تشخیص تقلب در بازارهای آنلاین در SEA، و فعال کردن ترجمه و خلاصه‌سازی دقیق‌تر زبان‌های اطلاعات منطقه‌ای را دارند.

دکتر تئو در ارائه خود همچنین به یک مورد استفاده اشاره کرد که در آن از SEA-LION برای کمک به مشاوره حقوقی استفاده می شود.

برای توسعه SEA-LION AI سنگاپور با شرکت هایی مانند خدمات وب آمازون و Google Research همکاری کرد. همچنین با جوامعی مانند SEACrowd برای ایجاد مجموعه ای متنوع از داده ها به زبان های محلی شریک می شود.

این مدل قرار است توسط کاربران سازمانی مانند NCS و Tokopedia به صورت آزمایشی اجرا شود. علاوه بر این، SEA-LION علاقه نهادهای مرتبط با دولت منطقه ای مانند KORIKA در اندونزی را به خود جلب کرده است که در استفاده از SEA-LION برای کاربردهای مختلف پیشگام بوده است.

SEA-LION به صورت عمومی در پلتفرم هایی مانند Huggingface و Github در دسترس است. همچنین در آینده نزدیک در AWS Jumpstart و Bedrock و همچنین Google's Model Garden در دسترس خواهد بود. این مدل رایگان است و تحقیقات و استفاده تجاری را تشویق می کند تا نوآوری و برنامه های کاربردی را در صنایع، زبان ها و زمینه ها هدایت کند.

همچنین بخوانید : در عصر هوش مصنوعی، کدام مهارت های انسانی به طور فزاینده ای در حال ظهور است؟

SEA-LION در ابتدا زبان‌های پرکاربرد در SEA از جمله باهاسا اندونزی، مالایی، تایلندی و ویتنامی را در اولویت قرار می‌دهد و قصد دارد در آینده پوشش خود را به سایر زبان‌های آسیای جنوب شرقی مانند برمه و لائوس گسترش دهد.

در مصاحبه با e27دکتر تئو تاکید کرد که علیرغم موارد استفاده تجاری، SEA LION به عنوان یک پروژه تجاری ایجاد نشده است. در عوض، هدف این پروژه ایجاد زیرساخت های عمومی است.

“اگر موفق باشیم، شاهد اتفاقات تجاری خواهیم بود…امیدواریم به این دلیل، بتوانیم با تغییر زبان به سرمایه گذاری روی داده ها و معیارها ادامه دهیم – همه چیز باید دائما به روز شود. “

این مقاله برای اولین بار در 31 ژانویه 2024 منتشر شد

پست چگونه SEA-LION قصد دارد شکاف فرهنگی موجود در ابزارهای محبوب هوش مصنوعی را پر کند اولین بار در e27 ظاهر شد.

دیدگاهتان را بنویسید