تاریخ انتشار: ۲۲ می ۲۰۲۵
هوش مصنوعی نحوه ساخت وب سایت ها و برنامه های کاربردی وب توسط توسعه دهندگان وب را تغییر می دهد. در Google I/O 2025، آنچه را که در سال گذشته روی آن کار میکردیم به اشتراک گذاشتیم، نشان دادیم که شرکای ما چگونه از هوش مصنوعی در وب استفاده میکنند و APIهای جدید هوش مصنوعی را اعلام کردیم .
آیا رویداد را از دست داده اید؟ خبر خوب، اکنون می توانید مذاکرات را به صورت درخواستی تماشا کنید!
هوش مصنوعی داخلی کاربردی با Gemini Nano در کروم
ماموریت اصلی ما این است که Chrome و وب را برای همه توسعه دهندگان و همه کاربران هوشمندتر کنیم. در این سخنرانی، توماس اشتاینر بهروزرسانیهای هوش مصنوعی داخلی ، موارد استفاده عملی و نگاهی به آینده ما را به اشتراک میگذارد.
هوش مصنوعی داخلی مدل های سمت مشتری را در مرورگر اجرا می کند که چندین مزیت دارد:
- خصوصی : داده های حساس کاربر در دستگاه باقی می ماند و هرگز نیازی به ترک مرورگر نیست.
- آفلاین : برنامه ها حتی بدون اتصال به اینترنت می توانند به قابلیت های هوش مصنوعی دسترسی داشته باشند.
- عملکرد : به لطف شتاب سخت افزاری، این APIها عملکرد عالی ارائه می دهند.
به نمونه کدهای هر یک از APIهای هوش مصنوعی داخلی نگاهی بیندازید، وضعیت آنها را بهروزرسانی دریافت کنید و ببینید چه شرکتهایی این فناوری را پیادهسازی میکنند.
API های چندوجهی
ما روی APIهای چندوجهی کاملاً جدید کار می کنیم. این بدان معناست که می توانید از Gemini Nano در مورد آنچه که در محتوای بصری "می بیند" یا در محتوای صوتی "می شنود" بپرسید. به عنوان مثال، پیشنهادهایی برای متن جایگزین در تصاویر آپلود شده در یک پلت فرم وبلاگ دریافت کنید، که کاربران می توانند آن را اصلاح و اصلاح کنند. یا میتوانید از Gemini Nano بخواهید توضیحات یا رونویسی برای پادکستها بنویسد.
هوش مصنوعی ترکیبی
یکی از چالشهایی که توسعهدهندگان با هوش مصنوعی سمت مشتری با آن روبرو هستند این است که همه پلتفرمها و مرورگرها الزامات سختافزاری را برای اجرای یک مدل روی دستگاه برآورده نمیکنند. Gemini و Firebase برای ساختن Firebase Web SDK با یکدیگر همکاری کردند تا زمانی که پیادهسازیهای سمت کلاینت در دسترس نیستند، بتوانید به Gemini Nano بر روی یک سرور بازگردید.
کار با شما
ما بسیار خوشحالیم که با توسعه دهندگان بسیاری روی APIهای AI داخلی کار کرده ایم. تلاش های ما بدون شما امکان پذیر نیست.
- برنامه پیشنمایش اولیه : بیش از 16000 توسعهدهنده به EPP پیوستهاند، APIهای جدید را آزمایش کردهاند، موارد استفاده جدید را کشف کردهاند و بازخوردی برای ایجاد هوش مصنوعی بهتر برای وب ارائه میکنند.
- Hackathons : ما دو هکاتون را میزبانی کردهایم، و شما وبسایتها و برنامههای افزودنی باورنکردنی ایجاد کردید .
کار شما تمام نشده است بازخورد خود را به اشتراک بگذارید، APIهای داخلی جدید را آزمایش کنید، و ما به تکرار ادامه خواهیم داد. حتی میتوانید با پیوستن به گروه جامعه یادگیری ماشین وب W3C به استانداردسازی این APIها کمک کنید.
آینده برنامه های افزودنی Chrome با Gemini در مرورگر شما
تعداد افزونه های مجهز به هوش مصنوعی در دو سال گذشته دو برابر شده است. در واقع، 10٪ از تمام برنامه های افزودنی نصب شده از فروشگاه وب کروم از هوش مصنوعی استفاده می کنند. در این سخنرانی، سباستین بنز مثالهای عملی برای اینکه چرا افزونههای کروم و جمینی چنین ترکیب قدرتمندی هستند، ارائه میکند.
نمونههایی از این که چگونه میتوانید مرورگر را با استخراج و پردازش دادهها از وبسایتهای روی کلاینت با استفاده از API اعلان تازه راهاندازی شده Chrome مفیدتر کنید، متفاوت است.
بیش از نشان دادن پتانسیل قابلیتهای چندوجهی جدید API محرک Chrome در برنامههای افزودنی Chrome برای دسترسی بیشتر به صدا و تصاویر برای کاربران.
برای نگاهی به آینده مرور با توضیح اینکه چگونه Google DeepMind's Project Mariner از افزونههای Chrome و آخرین APIهای Gemini Cloud برای ساخت یک عامل مرورگر کامل استفاده میکند.
پتانسیل استفاده از Gemini را در فضای ابری یا در مرورگر در برنامههای افزودنی Chrome برای ایجاد تجربههای مرور جدید و مفیدتر کردن مرورگر کاوش کنید.
موارد و استراتژی های استفاده از هوش مصنوعی وب در دنیای واقعی
یوریکو هیروتا و سوئتا گوپالاکریشنان نمونههای واقعی شرکتهایی را که از هوش مصنوعی در وب برای بهبود کسبوکار و تجربه کاربری خود استفاده میکنند، برجسته کردند. چه راهحل آنها از مدلهای سمت سرویس گیرنده، چه از سمت سرور یا یک راهحل ترکیبی استفاده کند، مهم عملکردها و ویژگیهای جدید و هیجانانگیزی است که در حال حاضر در اختیار کاربران خود قرار میدهید.
BILIBILI پخش جریانی ویدیوی خود را با یک ویژگی جدید جذابتر کرد: نظرات در صفحه گلوله . آنها نظرات کاربر را در زمان واقعی در ویدیو ارائه می دهند که پشت بلندگو ارائه می شود. برای انجام این کار، آنها از تقسیم بندی تصویر، یک مفهوم یادگیری ماشینی به خوبی درک شده استفاده می کنند. در نتیجه، مدت زمان جلسه 30٪ افزایش یافت! Tokopedia اصطکاک را در فرآیند تأیید فروشنده خود با استفاده از یک مدل تشخیص چهره کاهش داد تا کیفیت عکسهای آپلود شده را ارزیابی کند. در نتیجه، آنها تأییدیه های دستی را تقریباً 70٪ کاهش دادند.
Vision Nanny، یک پلتفرم وب برای کودکان مبتلا به اختلال بینایی مغزی (CVI)، فعالیت های تحریک بینایی مبتنی بر هوش مصنوعی را ارائه می دهد. آنها از چندین کتابخانه MediaPipe استفاده میکنند، از جمله مدل تشخیص نقطه عطف دست، که نقاط کلیدی دستها را در یک تصویر، ویدیو یا در زمان واقعی تعیین میکند. یک خلبان با 50 کودک نشان داد که Vision Nanny 5 برابر سریعتر از فعالیت های تحریک بینایی دستی پاسخ می دهد. درمانگران گزارش دادند که با حذف تنظیمات دستی به طور متوسط سه ساعت در هر جلسه صرفه جویی می کنند.
Google Meet دارای چندین ویژگی است که توسط هوش مصنوعی فعال شده است، از بهبود نور گرفته تا کاهش تاری و تار شدن ویدیوها. بزرگترین چالش این است که این ویژگی ها باید در زمان واقعی کار کنند. اینجاست که WebAssembly (Wasm) وارد می شود تا از تمام قدرت CPU رایانه استفاده کند و پردازش ویدیوی بلادرنگ را فعال کند.
اینها تنها چند نمونه واقعی از هوش مصنوعی در وب هستند. چندین شرکت دیگر با APIهای هوش مصنوعی داخلی آزمایش کردند، که برخی از آنها کار خود را در مطالعات موردی به اشتراک گذاشتند.
عوامل هوش مصنوعی وب سمت مشتری برای ایجاد تجربیات کاربری هوشمندتر در آینده
جیسون میز در آینده اینترنت قدم زد: عوامل هوش مصنوعی وب. وب آینده ای نمایندگی دارد و قابلیت های هوش مصنوعی را مستقیماً به مرورگر می آورد تا کارهای مفیدی را از طرف شما انجام دهد، فراتر از قابلیت های مدل های زبان بزرگ (LLM).
با رویکرد سمت مشتری، حفظ حریم خصوصی بهبود یافته، تاخیر کاهش یافته و صرفه جویی قابل توجهی در هزینه وجود دارد. Agents به شما اجازه میدهد تا وبسایت موجود خود را ارتقا دهید، وظایف را بهطور مستقل برای کاربر انجام دهید، ابزارهای در معرض دید را به صورت پویا انتخاب کرده و از آنها استفاده کنید - احتمالاً در یک حلقه - به عامل اجازه میدهد تا وظایف بالقوه پیچیده یا چند مرحلهای را انجام دهد.
نمایندگان می توانند:
- وظایف فرعی را برنامه ریزی و تقسیم کنید ، مشکلات پیچیده تر را از طریق برنامه ریزی چند مرحله ای مدیریت کنید تا کار را به مراحل منطقی برای تکمیل تقسیم کنید.
- بهترین ابزارها را انتخاب کنید ، خواه توابع، استفاده از API، یا دسترسی به داده های ذخیره شده به دانش پایه مدل زبان تقویت شده، سپس اقداماتی را در دنیای خارج انجام دهید.
- حافظه مبتنی بر زمینه را بر اساس خروجی های قبلی از عامل یا ابزارهای خارجی حفظ کنید . حافظه کوتاه مدت مانند یک بافر FIFO از تاریخچه زمینه تا اندازه پنجره زمینه مدل عمل می کند، در مقابل حافظه بلند مدت که در آن می توان از یک پایگاه داده برداری برای ذخیره اطلاعات برای یادآوری در صورت نیاز از جلسات مکالمه قبلی یا سایر منابع داده به طور کامل استفاده کرد.
عوامل هوش مصنوعی وب برای ادغام با فناوری های وب موجود در جاوا اسکریپت طراحی شده اند. در نهایت، مهم است که ما به سخت افزار خود برای اجرای بهترین مدل ها در مرورگر تسریع کنیم. با نگاهی به آینده، فناوری مانند WebNN نقش کلیدی در بهینه سازی اجرای مدل در CPU ها، GPU ها و NPU ها خواهد داشت. با گرایش به سمت LLM های کوچکتر و پیشرفت مداوم، این تنها در آینده قدرتمندتر خواهد شد.
استفاده از یک رویکرد ترکیبی، ترکیب پردازش روی دستگاه با تماسهای ابری استراتژیک را در نظر بگیرید، بنابراین میتوانید در حال حاضر تجربههای کاربری هوشمند، پاسخگو و شخصیسازی شده را در مرورگر ایجاد کنید. به زودی، با افزایش توانایی دستگاه ها در اجرای LLM، بازگشت شما از سرمایه گذاری در رویکرد هوش مصنوعی وب نتیجه خواهد داد.
با Google I/O 2025 آشنا شوید
ما همه گفتگوهای Google I/O 2025 را با یک لیست پخش اختصاص داده شده به توسعه دهندگان وب منتشر کرده ایم. حتی بیشتر در io.google/2025 تماشا کنید.