با وجود محبوبیت و استفاده گسترده از آن، یک مشکل شکاف فرهنگی وجود دارد که می توان آن را در محبوب ترین ابزارهای هوش مصنوعی امروزی مانند ChatGPT یافت. از آنجایی که 40 درصد از مدلهای موجود در بازار امروز توسط شرکتهای مستقر در ایالات متحده تولید میشوند، این مدلها بیشتر با فرهنگ غربی سازگار هستند و باعث ایجاد فاصله برای مصرفکنندگان در بازارهایی مانند آسیای جنوب شرقی (SEA) میشوند.
هدف هوش مصنوعی سنگاپور این است که از طریق SEA-LION، اولین مدل زبان بزرگ منبع باز SEA (LLM) که به طور خاص به موارد استفاده منطقه ای، صنایع، زبان ها و زمینه ها می پردازد، به این چالش رسیدگی کند.
بر اساس بیانیه این سازمان، برخلاف بسیاری از مدلهای فعلی، SEA-LION مزایای درک تفاوتهای ظریف زبانهای محلی و نشان دادن آگاهی بیشتر از بافت فرهنگی خاص منطقه را در اختیار کاربران قرار میدهد.
این امر محدودیت پذیرش توسط دولتها، کسبوکارها و دانشگاهها را کاهش میدهد، در حالی که به طور موثر زبانهای SEA و نمایندگی فرهنگی را در LLMهای جریان اصلی، که در حال حاضر تحت سلطه مدلهایی هستند که عمدتاً بر روی مجموعه دادههای انگلیسی غربی و توسعهیافته انگلیسی آموزش داده شدهاند، گسترش میدهد.»
در ارائهای در دانشگاه ملی سنگاپور در ۲۴ ژانویه، دکتر لزلی تئو، مدیر ارشد محصولات هوش مصنوعی در AI سنگاپور، توضیح داد که این پروژه قصد ندارد با سازندگان ابزار هوش مصنوعی مانند OpenAI رقابت کند. وی تاکید کرد: در عوض، ما می خواهیم ابزارهای موجود را تکمیل کنیم.
همچنین بخوانید: چگونه Transparently.AI از هوش مصنوعی برای تشخیص دستکاری حسابداری، کلاهبرداری استفاده می کند
پروژه SEA-LION که در نوامبر 2023 راه اندازی شد، ابتدا بر توسعه دهندگان متمرکز بود، اما سپس شروع به دریافت سوالات تجاری کرد. این منجر به پروژه ایجاد زیرساخت عمومی مورد نیاز در فضای هوش مصنوعی شد.
SEA-LION از طریق مشارکت موسسات مختلف کار می کند، جایی که هر یک از داده ها و معیارهای مورد نیاز برای توسعه فناوری کمک می کند. SEA LION هنگام جمعآوری دادهها با مواد غیر دارای حق چاپ (“کوشر”) کار میکند.
«دادههای مورد استفاده برای پیشآموزش مدل عمدتاً از اینترنت، بهویژه مجموعه داده CommonCrawl که در دسترس عموم است، بهدست آمد. این دادهها برای استفاده در پیشآموزش SEA-LION بارگیری، تمیز و از پیش پردازش شدهاند. نسبت زبانهای مختلف SEA در مجموعه دادههای پیشآموزشی نیز برای منعکسکننده دقیقتر توزیع زبانها در منطقه ما تنظیم شد.» در این پروژه آمده است.
در تظاهراتی که e27 شاهد، SEA-LION در کنار LLM های محبوبی مانند OpenAI، Llama و SEA LLM قرار گرفت. برای پاسخ به همه ابزارها به زبان های منطقه ای مانند باهاسا اندونزیایی و تایلندی سوالات یکسانی داده شد و دیدن تفاوت ها جالب است.
از همه LLM ها، SEALION، SEA LLM و OpenAI آنهایی بودند که توانستند پاسخ هایی را به زبان اندونزیایی بهاسا و تایلندی ایجاد کنند.
SEA LION و OpenAI تمایل داشتند پاسخهای واضحی را ارائه دهند که متناسب با جعبه گفتگو بود. اگرچه OpenAI در ایجاد پاسخ کندتر بود، اما توانست زمینه را بهتر درک کند. از نظر دقت، این دو LLM نیز دقیق ترین بودند.
همچنین بخوانید: هوش مصنوعی در تبلیغات موبایلی: تغییر ارتباط، عملکرد و تجربیات فراگیر
آینده SEA LION چیست
از نظر استفاده عملی و روزمره، SEA-LION قصد دارد به شرکت های SEA کمک کند تا هوش مصنوعی را در فرآیندهای کاری خود بگنجانند. برای مثال، میتوان از آن برای فعال کردن چترباتهای خدمات مشتری استفاده کرد که توانایی کشف تفاوتهای محلی در زبانهای SEA، بهبود تشخیص تقلب در بازارهای آنلاین در SEA، و فعال کردن ترجمه و خلاصهسازی دقیقتر زبانهای اطلاعات منطقهای را دارند.
دکتر تئو در ارائه خود همچنین به یک مورد استفاده اشاره کرد که در آن از SEA-LION برای کمک به مشاوره حقوقی استفاده می شود.
برای توسعه SEA-LION AI سنگاپور با شرکت هایی مانند خدمات وب آمازون و Google Research همکاری کرد. همچنین با جوامعی مانند SEACrowd برای ایجاد مجموعه ای متنوع از داده ها به زبان های محلی شریک می شود.
این مدل قرار است توسط کاربران سازمانی مانند NCS و Tokopedia به صورت آزمایشی اجرا شود. علاوه بر این، SEA-LION علاقه نهادهای مرتبط با دولت منطقه ای مانند KORIKA در اندونزی را به خود جلب کرده است که در استفاده از SEA-LION برای کاربردهای مختلف پیشگام بوده است.
SEA-LION به صورت عمومی در پلتفرم هایی مانند Huggingface و Github در دسترس است. همچنین در آینده نزدیک در AWS Jumpstart و Bedrock و همچنین Google's Model Garden در دسترس خواهد بود. این مدل رایگان است و تحقیقات و استفاده تجاری را تشویق می کند تا نوآوری و برنامه های کاربردی را در صنایع، زبان ها و زمینه ها هدایت کند.
همچنین بخوانید : در عصر هوش مصنوعی، کدام مهارت های انسانی به طور فزاینده ای در حال ظهور است؟
SEA-LION در ابتدا زبانهای پرکاربرد در SEA از جمله باهاسا اندونزی، مالایی، تایلندی و ویتنامی را در اولویت قرار میدهد و قصد دارد در آینده پوشش خود را به سایر زبانهای آسیای جنوب شرقی مانند برمه و لائوس گسترش دهد.
در مصاحبه با e27دکتر تئو تاکید کرد که علیرغم موارد استفاده تجاری، SEA LION به عنوان یک پروژه تجاری ایجاد نشده است. در عوض، هدف این پروژه ایجاد زیرساخت های عمومی است.
“اگر موفق باشیم، شاهد اتفاقات تجاری خواهیم بود…امیدواریم به این دلیل، بتوانیم با تغییر زبان به سرمایه گذاری روی داده ها و معیارها ادامه دهیم – همه چیز باید دائما به روز شود. “
–
این مقاله برای اولین بار در 31 ژانویه 2024 منتشر شد
پست چگونه SEA-LION قصد دارد شکاف فرهنگی موجود در ابزارهای محبوب هوش مصنوعی را پر کند اولین بار در e27 ظاهر شد.