گفتگوهای هوش مصنوعی ما را در I/O 2025 تماشا کنید

تاریخ انتشار: ۲۲ می ۲۰۲۵

هوش مصنوعی نحوه ساخت وب سایت ها و برنامه های کاربردی وب توسط توسعه دهندگان وب را تغییر می دهد. در Google I/O 2025، آنچه را که در سال گذشته روی آن کار می‌کردیم به اشتراک گذاشتیم، نشان دادیم که شرکای ما چگونه از هوش مصنوعی در وب استفاده می‌کنند و APIهای جدید هوش مصنوعی را اعلام کردیم .

آیا رویداد را از دست داده اید؟ خبر خوب، اکنون می توانید مذاکرات را به صورت درخواستی تماشا کنید!

هوش مصنوعی داخلی کاربردی با Gemini Nano در کروم

ماموریت اصلی ما این است که Chrome و وب را برای همه توسعه دهندگان و همه کاربران هوشمندتر کنیم. در این سخنرانی، توماس اشتاینر به‌روزرسانی‌های هوش مصنوعی داخلی ، موارد استفاده عملی و نگاهی به آینده ما را به اشتراک می‌گذارد.

هوش مصنوعی داخلی مدل های سمت مشتری را در مرورگر اجرا می کند که چندین مزیت دارد:

  • خصوصی : داده های حساس کاربر در دستگاه باقی می ماند و هرگز نیازی به ترک مرورگر نیست.
  • آفلاین : برنامه ها حتی بدون اتصال به اینترنت می توانند به قابلیت های هوش مصنوعی دسترسی داشته باشند.
  • عملکرد : به لطف شتاب سخت افزاری، این APIها عملکرد عالی ارائه می دهند.

به نمونه کدهای هر یک از APIهای هوش مصنوعی داخلی نگاهی بیندازید، وضعیت آنها را به‌روزرسانی دریافت کنید و ببینید چه شرکت‌هایی این فناوری را پیاده‌سازی می‌کنند.

API های چندوجهی

ما روی APIهای چندوجهی کاملاً جدید کار می کنیم. این بدان معناست که می توانید از Gemini Nano در مورد آنچه که در محتوای بصری "می بیند" یا در محتوای صوتی "می شنود" بپرسید. به عنوان مثال، پیشنهادهایی برای متن جایگزین در تصاویر آپلود شده در یک پلت فرم وبلاگ دریافت کنید، که کاربران می توانند آن را اصلاح و اصلاح کنند. یا می‌توانید از Gemini Nano بخواهید توضیحات یا رونویسی برای پادکست‌ها بنویسد.

هوش مصنوعی ترکیبی

یکی از چالش‌هایی که توسعه‌دهندگان با هوش مصنوعی سمت مشتری با آن روبرو هستند این است که همه پلتفرم‌ها و مرورگرها الزامات سخت‌افزاری را برای اجرای یک مدل روی دستگاه برآورده نمی‌کنند. Gemini و Firebase برای ساختن Firebase Web SDK با یکدیگر همکاری کردند تا زمانی که پیاده‌سازی‌های سمت کلاینت در دسترس نیستند، بتوانید به Gemini Nano بر روی یک سرور بازگردید.

کار با شما

ما بسیار خوشحالیم که با توسعه دهندگان بسیاری روی APIهای AI داخلی کار کرده ایم. تلاش های ما بدون شما امکان پذیر نیست.

کار شما تمام نشده است بازخورد خود را به اشتراک بگذارید، APIهای داخلی جدید را آزمایش کنید، و ما به تکرار ادامه خواهیم داد. حتی می‌توانید با پیوستن به گروه جامعه یادگیری ماشین وب W3C به استانداردسازی این APIها کمک کنید.

آینده برنامه های افزودنی Chrome با Gemini در مرورگر شما

تعداد افزونه های مجهز به هوش مصنوعی در دو سال گذشته دو برابر شده است. در واقع، 10٪ از تمام برنامه های افزودنی نصب شده از فروشگاه وب کروم از هوش مصنوعی استفاده می کنند. در این سخنرانی، سباستین بنز مثال‌های عملی برای اینکه چرا افزونه‌های کروم و جمینی چنین ترکیب قدرتمندی هستند، ارائه می‌کند.

نمونه‌هایی از این که چگونه می‌توانید مرورگر را با استخراج و پردازش داده‌ها از وب‌سایت‌های روی کلاینت با استفاده از API اعلان تازه راه‌اندازی شده Chrome مفیدتر کنید، متفاوت است.

بیش از نشان دادن پتانسیل قابلیت‌های چندوجهی جدید API محرک Chrome در برنامه‌های افزودنی Chrome برای دسترسی بیشتر به صدا و تصاویر برای کاربران.

برای نگاهی به آینده مرور با توضیح اینکه چگونه Google DeepMind's Project Mariner از افزونه‌های Chrome و آخرین APIهای Gemini Cloud برای ساخت یک عامل مرورگر کامل استفاده می‌کند.

پتانسیل استفاده از Gemini را در فضای ابری یا در مرورگر در برنامه‌های افزودنی Chrome برای ایجاد تجربه‌های مرور جدید و مفیدتر کردن مرورگر کاوش کنید.

موارد و استراتژی های استفاده از هوش مصنوعی وب در دنیای واقعی

یوریکو هیروتا
Yuriko Hirota
سوئتا گوپالاکریشنان
Swetha Gopalakrishnan

یوریکو هیروتا و سوئتا گوپالاکریشنان نمونه‌های واقعی شرکت‌هایی را که از هوش مصنوعی در وب برای بهبود کسب‌وکار و تجربه کاربری خود استفاده می‌کنند، برجسته کردند. چه راه‌حل آنها از مدل‌های سمت سرویس گیرنده، چه از سمت سرور یا یک راه‌حل ترکیبی استفاده کند، مهم عملکردها و ویژگی‌های جدید و هیجان‌انگیزی است که در حال حاضر در اختیار کاربران خود قرار می‌دهید.

BILIBILI پخش جریانی ویدیوی خود را با یک ویژگی جدید جذاب‌تر کرد: نظرات در صفحه گلوله . آنها نظرات کاربر را در زمان واقعی در ویدیو ارائه می دهند که پشت بلندگو ارائه می شود. برای انجام این کار، آنها از تقسیم بندی تصویر، یک مفهوم یادگیری ماشینی به خوبی درک شده استفاده می کنند. در نتیجه، مدت زمان جلسه 30٪ افزایش یافت! Tokopedia اصطکاک را در فرآیند تأیید فروشنده خود با استفاده از یک مدل تشخیص چهره کاهش داد تا کیفیت عکس‌های آپلود شده را ارزیابی کند. در نتیجه، آنها تأییدیه های دستی را تقریباً 70٪ کاهش دادند.

Vision Nanny، یک پلتفرم وب برای کودکان مبتلا به اختلال بینایی مغزی (CVI)، فعالیت های تحریک بینایی مبتنی بر هوش مصنوعی را ارائه می دهد. آنها از چندین کتابخانه MediaPipe استفاده می‌کنند، از جمله مدل تشخیص نقطه عطف دست، که نقاط کلیدی دست‌ها را در یک تصویر، ویدیو یا در زمان واقعی تعیین می‌کند. یک خلبان با 50 کودک نشان داد که Vision Nanny 5 برابر سریعتر از فعالیت های تحریک بینایی دستی پاسخ می دهد. درمانگران گزارش دادند که با حذف تنظیمات دستی به طور متوسط ​​سه ساعت در هر جلسه صرفه جویی می کنند.

Google Meet دارای چندین ویژگی است که توسط هوش مصنوعی فعال شده است، از بهبود نور گرفته تا کاهش تاری و تار شدن ویدیوها. بزرگترین چالش این است که این ویژگی ها باید در زمان واقعی کار کنند. اینجاست که WebAssembly (Wasm) وارد می شود تا از تمام قدرت CPU رایانه استفاده کند و پردازش ویدیوی بلادرنگ را فعال کند.

اینها تنها چند نمونه واقعی از هوش مصنوعی در وب هستند. چندین شرکت دیگر با APIهای هوش مصنوعی داخلی آزمایش کردند، که برخی از آنها کار خود را در مطالعات موردی به اشتراک گذاشتند.

عوامل هوش مصنوعی وب سمت مشتری برای ایجاد تجربیات کاربری هوشمندتر در آینده

جیسون میز در آینده اینترنت قدم زد: عوامل هوش مصنوعی وب. وب آینده ای نمایندگی دارد و قابلیت های هوش مصنوعی را مستقیماً به مرورگر می آورد تا کارهای مفیدی را از طرف شما انجام دهد، فراتر از قابلیت های مدل های زبان بزرگ (LLM).

با رویکرد سمت مشتری، حفظ حریم خصوصی بهبود یافته، تاخیر کاهش یافته و صرفه جویی قابل توجهی در هزینه وجود دارد. Agents به شما اجازه می‌دهد تا وب‌سایت موجود خود را ارتقا دهید، وظایف را به‌طور مستقل برای کاربر انجام دهید، ابزارهای در معرض دید را به صورت پویا انتخاب کرده و از آنها استفاده کنید - احتمالاً در یک حلقه - به عامل اجازه می‌دهد تا وظایف بالقوه پیچیده یا چند مرحله‌ای را انجام دهد.

نمایندگان می توانند:

  • وظایف فرعی را برنامه ریزی و تقسیم کنید ، مشکلات پیچیده تر را از طریق برنامه ریزی چند مرحله ای مدیریت کنید تا کار را به مراحل منطقی برای تکمیل تقسیم کنید.
  • بهترین ابزارها را انتخاب کنید ، خواه توابع، استفاده از API، یا دسترسی به داده های ذخیره شده به دانش پایه مدل زبان تقویت شده، سپس اقداماتی را در دنیای خارج انجام دهید.
  • حافظه مبتنی بر زمینه را بر اساس خروجی های قبلی از عامل یا ابزارهای خارجی حفظ کنید . حافظه کوتاه مدت مانند یک بافر FIFO از تاریخچه زمینه تا اندازه پنجره زمینه مدل عمل می کند، در مقابل حافظه بلند مدت که در آن می توان از یک پایگاه داده برداری برای ذخیره اطلاعات برای یادآوری در صورت نیاز از جلسات مکالمه قبلی یا سایر منابع داده به طور کامل استفاده کرد.

عوامل هوش مصنوعی وب برای ادغام با فناوری های وب موجود در جاوا اسکریپت طراحی شده اند. در نهایت، مهم است که ما به سخت افزار خود برای اجرای بهترین مدل ها در مرورگر تسریع کنیم. با نگاهی به آینده، فناوری مانند WebNN نقش کلیدی در بهینه سازی اجرای مدل در CPU ها، GPU ها و NPU ها خواهد داشت. با گرایش به سمت LLM های کوچکتر و پیشرفت مداوم، این تنها در آینده قدرتمندتر خواهد شد.

استفاده از یک رویکرد ترکیبی، ترکیب پردازش روی دستگاه با تماس‌های ابری استراتژیک را در نظر بگیرید، بنابراین می‌توانید در حال حاضر تجربه‌های کاربری هوشمند، پاسخگو و شخصی‌سازی شده را در مرورگر ایجاد کنید. به زودی، با افزایش توانایی دستگاه ها در اجرای LLM، بازگشت شما از سرمایه گذاری در رویکرد هوش مصنوعی وب نتیجه خواهد داد.

با Google I/O 2025 آشنا شوید

ما همه گفتگوهای Google I/O 2025 را با یک لیست پخش اختصاص داده شده به توسعه دهندگان وب منتشر کرده ایم. حتی بیشتر در io.google/2025 تماشا کنید.