Google đang đẩy nhanh tốc độ triển khai hơn bao giờ hết. Đây là cách Google đang làm cho AI trở nên hữu ích hơn với Gemini.
Những ý chính:
Gemini 2.5 ra mắt, cải tiến mạnh mẽ về suy luận, cá nhân hóa và tốc độ.
AI được tích hợp sâu vào Search, Chrome, Gmail, Meet… với tính năng như Agent Mode, dịch giọng nói thời gian thực.
Ra mắt mô hình tạo sinh mới: Veo 3 (video + âm thanh), Imagen 4 (ảnh), Lyria 2 (nhạc).
Công cụ sáng tạo mới: Canvas, Flow và Deep Research giúp người dùng tạo nội dung, học tập và làm việc hiệu quả hơn.
Google tăng tốc phổ cập AI, với 400 triệu người dùng Gemini và 7 triệu lập trình viên tham gia phát triển.
Thông thường, Google không tiết lộ nhiều thông tin vào những tuần trước I/O, bởi lẽ họ muốn để dành thông tin về những mô hình tiên tiến nhất công bố ngay tại sự kiện. Thế nhưng, trong kỷ nguyên Gemini này, Google đã ra mắt mô hình thông minh nhất vào một ngày thứ Ba của tháng 3, và một đột phá thực sự ấn tượng như AlphaEvolve chỉ một tuần trước sự kiện.
Mục tiêu là nhanh chóng mang đến những mô hình tốt nhất để bạn trải nghiệm và tích hợp vào các sản phẩm của mình; vì vậy, Google đang đẩy nhanh tốc độ triển khai hơn bao giờ hết.
Không ngừng cải tiến mô hình
Điểm Elo, thước đo tiến trình, đã tăng hơn 300 điểm kể từ thế hệ đầu tiên của mô hình Gemini Pro. Ngày hôm nay, Gemini 2.5 Pro đã bức phá bảng xếp hạng LMArena ở mọi hạng mục.
Sự tiến bộ của mô hình được thúc đẩy nhờ vào cơ sở hạ tầng hàng đầu thế giới của Google. TPU thế hệ thứ bảy, Ironwood, là sản phẩm đầu tiên được thiết kế chuyên biệt để xử lý các tác vụ AI suy luận và tư duy ở quy mô lớn, mang lại hiệu suất gấp 10 lần so với thế hệ trước và đạt khả năng tính toán 42,5 exaflops đáng kinh ngạc trên mỗi cụm vi xử lý (pod) — thật tuyệt vời.
Chính sức mạnh của cơ sở hạ tầng, đặc biệt là các TPU, giúp có thể mang đến những mô hình vượt trội về tốc độ, ngay cả khi chi phí mô hình đã giảm đi đáng kể. Google đã nỗ lực không ngừng để có thể cung cấp các mô hình tốt nhất với mức giá tối ưu nhất. Hiện tại, Google không chỉ ở vị trí tiên phong trên Biểu đồ Pareto mà còn đang mở rộng ranh giới đó.
Thế giới đang đón nhận AI
Ngày càng nhiều mô hình trí tuệ nhân tạo đang phổ biến hơn cho mọi người, ở mọi nơi; và thế giới cũng đang đón nhận AI một cách nhanh chóng và mạnh mẽ hơn bao giờ hết. Dưới đây là một số cột mốc quan trọng trong sự phát triển này:
Vào thời điểm này năm 2024, Google xử lý 9,7 nghìn tỷ token mỗi tháng trên các sản phẩm và API của mình. Giờ đây, con số này đã vượt hơn 480 nghìn tỷ token — tức tăng gấp 50 lần.
Hơn 7 triệu nhà phát triển đang xây dựng sản phẩm với Gemini, gấp 5 lần so với cùng kỳ năm 2024, và mức độ sử dụng Gemini trên Vertex AI đã tăng gấp 40 lần.
Ứng dụng Gemini hiện có hơn 400 triệu người dùng hoạt động hàng tháng. Google đang chứng kiến sự tăng trưởng và tương tác mạnh mẽ, đặc biệt là với dòng mô hình Gemini 2.5. Mức độ người dùng sử dụng mô hình 2.5 Pro trong ứng dụng Gemini đã tăng 45%.
Từ nghiên cứu đến hiện thực
Tất cả những tiến bộ này cho thấy chúng ta đang bước vào một giai đoạn mới của quá trình chuyển đổi nền tảng AI. Những thành quả nghiên cứu suốt nhiều thập kỷ qua nay đang được hiện thực hóa, phục vụ mọi người, các doanh nghiệp và cộng đồng trên toàn cầu.
Từ Dự án Starline đến Google Beam và dịch thuật giọng nói
Vài năm trước tại sự kiện I/O, Google đã giới thiệu Dự án Starline – công nghệ video 3D đột phá với mục tiêu tạo ra trải nghiệm chân thực như đang trò chuyện trực tiếp cùng một người, dù bạn đang ở cách xa họ.
Không ngừng bứt phá những tiến bộ kỹ thuật, hôm nay Google giới thiệu một chương mới của dự án: Google Beam, một nền tảng giao tiếp video mới được xây dựng ưu tiên trên nền tảng AI.
Beam sử dụng một mô hình video tiên tiến mới để biến đổi luồng video 2D thành trải nghiệm 3D sống động. Nó sử dụng một dãy sáu camera và AI để hợp nhất các luồng video lại với nhau và hiển thị bạn trên màn hình trường ánh sáng 3D. Google Beam có khả năng theo dõi chuyển động đầu gần như hoàn hảo, chính xác đến từng milimet, với tốc độ 60 khung hình mỗi giây, tất cả đều diễn ra trong thời gian thực.
Điều này mang lại một trải nghiệm trò chuyện tự nhiên và chân thực hơn một cách đáng kể. Các thiết bị Google Beam đầu tiên hợp tác cùng HP sẽ được cung cấp cho những khách hàng đầu tiên vào cuối năm nay.
Trong những năm qua, Google cũng đã tạo ra nhiều trải nghiệm sống động hơn trong Google Meet, trong đó có công nghệ giúp mọi người phá vỡ rào cản ngôn ngữ với tính năng dịch giọng nói, sẽ sớm có mặt trên Google Meet.
Với thời gian gần như tức thì, tính năng này có thể khớp chính xác giọng điệu, ngữ điệu và thậm chí cả biểu cảm của người nói, giúp chúng ta tiến gần hơn đến những cuộc trò chuyện tự nhiên và trôi chảy giữa các ngôn ngữ. Tính năng dịch từ tiếng Anh sang tiếng Tây Ban Nha đang được triển khai dưới dạng beta cho người đăng ký Google AI Pro và Ultra, với nhiều ngôn ngữ hơn sẽ ra mắt trong vài tuần tới. Tính năng này cũng sẽ được cung cấp cho khách hàng doanh nghiệp của Workspace để thử nghiệm sớm trong năm nay.
Từ Dự án Astra đến Gemini Live
Một dự án nghiên cứu thú vị khác được giới thiệu lần đầu tại I/O là Dự án Astra, hướng tới việc phát triển một trợ lý AI toàn năng có thể hiểu thế giới xung quanh bạn. Hiện tại, Gemini Live đã tích hợp khả năng chia sẻ camera và màn hình từ Dự án Astra Mọi người đang sử dụng nó trong nhiều trường hợp thú vị, từ chuẩn bị phỏng vấn đến huấn luyện chạy marathon. Tính năng này đã có mặt cho tất cả người dùng Android và sẽ được triển khai cho người dùng iOS bắt đầu từ hôm nay.
Google cũng đang đưa các tính năng tương tự này vào các sản phẩm như Search.
Từ Dự án Mariner đến Agent Mode
Các tác nhân (agents) là những hệ thống kết hợp trí tuệ của các mô hình AI tiên tiến với khả năng truy cập công cụ, để chúng có thể thực hiện công việc thay mặt bạn và dưới sự kiểm soát của bạn.
Nguyên mẫu nghiên cứu ban đầu, Dự án Mariner, là một bước tiến sớm trong việc phát triển các tác nhân (agents) có khả năng sử dụng máy tính để tương tác với web và hoàn thành công việc giúp bạn.
Kể từ khi ra mắt nguyên mẫu nghiên cứu ban đầu vào tháng 12, Google đã đạt được nhiều tiến bộ đáng kể, bao gồm các khả năng đa nhiệm mới. Một phương pháp được gọi là "dạy và lặp lại" giúp nó học hỏi: chỉ cần chỉ dẫn một lần, nó sẽ tự động lập kế hoạch cho những tác vụ tương tự sau này.
Google đang mang các khả năng sử dụng máy tính của Dự án Mariner đến các nhà phát triển thông qua API Gemini. Các nhà thử nghiệm đáng tin cậy như Automation Anywhere và UiPath đã bắt đầu phát triển sản phẩm dựa trên công nghệ này, và dự kiến nó sẽ được cung cấp rộng rãi hơn vào mùa hè.
Việc sử dụng máy tính là một phần của bộ công cụ rộng hơn mà chúng ta cần xây dựng để hệ sinh thái tác nhân phát triển mạnh mẽ. Giống như Giao thức Agent2Agent mở, để các tác nhân có thể nói chuyện với nhau hoặc Giao thức Bối cảnh Mô hình do Anthropic giới thiệu, để các tác nhân có thể truy cập các dịch vụ khác. Google rất vui được thông báo rằng kể từ hôm nay, API và SDK Gemini đã tương thích hoàn toàn với các công cụ MCP.
Google đang dần tích hợp các khả năng tác nhân này vào Chrome, Search và ứng dụng Gemini. Ví dụ, một Agent Mode mới trong ứng dụng Gemini sẽ giúp bạn hoàn thành được nhiều đầu việc hơn.
Nếu bạn đang tìm thuê căn hộ, Agent Mode sẽ giúp tìm các căn hộ phù hợp với tiêu chí của bạn trên các trang web như Zillow, điều chỉnh bộ lọc và sử dụng MCP để truy cập danh sách, thậm chí sắp xếp lịch hẹn xem nhà cho bạn. Phiên bản thử nghiệm của Agent Mode trong ứng dụng Gemini sẽ sớm được cung cấp cho những người đăng ký. Tính năng này mang lại lợi ích lớn cho các công ty như Zillow, giúp họ thu hút khách hàng và tăng tỷ lệ chuyển đổi.
Đây là một lĩnh vực mới nổi và đang phát triển, và Google rất hào hứng muốn tìm hiểu cách tốt nhất để mang lợi ích của các tác nhân cho người dùng và toàn bộ hệ sinh thái một cách rộng hơn.
Sức mạnh của cá nhân hóa
Để biến nghiên cứu thành hiện thực, cách tốt nhất là làm cho nó thực sự hữu ích— ngay trong cuộc sống của bạn. Đó là lúc cá nhân hóa phát huy sức mạnh vượt trội.
Google đang nỗ lực hiện thực hóa điều này bằng cách tập trung vào ngữ cảnh cá nhân. Với sự cho phép của bạn, các mô hình Gemini có thể sử dụng ngữ cảnh cá nhân có liên quan từ những ứng dụng Google của bạn một cách riêng tư, minh bạch và hoàn toàn dưới sự kiểm soát của bạn.
Một ví dụ về điều này là tính năng Trả lời thông minh được cá nhân hóa(personalized Smart Replies) mới trong Gmail. Nếu có bạn bè hỏi ý kiến về chuyến đi bạn từng đi, Gemini có thể tìm kiếm trong các email và tệp cũ của bạn trên Google Drive, chẳng hạn như hành trình bạn đã tạo trong Google Docs, để đề xuất một phản hồi với các chi tiết cụ thể và chính xác.
Bản thảo sẽ đề xuất lời chào quen thuộc của bạn, đồng thời nắm bắt giọng điệu, phong cách và thậm chí cả những từ ngữ bạn yêu thích. Tất cả nhằm tạo ra một câu trả lời phù hợp và chân thật như chính bạn đang thao tác. Tính năng Trả lời thông minh được cá nhân hóa sẽ được triển khai cho người đăng ký vào cuối năm nay.
Bạn có thể hình dung về lợi ích tuyệt vời mà ngữ cảnh cá nhân sẽ mang lại trên Search, Gemini và các ứng dụng khác.
AI Mode trong Search
Các mô hình Gemini đang khiến Google Search trở nên thông minh hơn, có khả năng thực hiện tác vụ (agentic) và mang tính cá nhân hóa hơn.
Kể từ khi ra mắt vào năm ngoái, tính năng AI Overviews đã tiếp cận hơn 1,5 tỷ người dùng và hiện có mặt tại 200 quốc gia và vùng lãnh thổ. Khi mọi người sử dụng AI Overviews, Google nhận thấy họ hài lòng hơn với kết quả tìm kiếm và tìm kiếm thường xuyên hơn. Tại các thị trường lớn nhất như Mỹ và Ấn Độ, AI Overviews đang thúc đẩy tăng trưởng hơn 10% trong các loại truy vấn hiển thị chúng, và mức tăng trưởng này vẫn tiếp tục gia tăng theo thời gian.
Đây là một trong những đợt ra mắt tính năng của Search thành công nhất trong thập kỷ qua.
Đối với những ai muốn trải nghiệm AI Search từ đầu tới cuối, Google giới thiệu tính năng AI Mode hoàn toàn mới. Đây là một sự tái hình dung tổng thể về Search. Với khả năng suy luận tiên tiến hơn, bạn có thể đưa ra những truy vấn dài và phức tạp hơn cho AI Mode. Thực tế, những người thử nghiệm sớm đã đặt ra những truy vấn dài gấp hai đến ba lần so với các tìm kiếm truyền thống, dẫu vậy, bạn có thể tìm kiếm sâu hơn với các câu hỏi tiếp theo. Tất cả những điều này đều có sẵn dưới dạng một tab mới ngay trong Search.
Tôi đã sử dụng nó rất nhiều, và nó đã thay đổi hoàn toàn cách tôi dùng Search. Tôi rất vui khi được chia sẻ rằng bắt đầu từ hôm nay, AI Mode sẽ được triển khai cho tất cả người dùng ở Mỹ. Với các mô hình Gemini mới nhất, phản hồi AI đạt đến chất lượng và độ chính xác mà bạn mong đợi từ Search, đồng thời có tốc độ nhanh nhất trong ngành. Và bắt đầu từ tuần này, Gemini 2.5 cũng sẽ được triển khai trong Search ở thị trường Mỹ.
Phát triển mô hình thông minh nhất của Google: Gemini 2.5
Mô hình mạnh mẽ và hiệu quả nhất, Gemini 2.5 Flash, đã trở nên vô cùng phổ biến với các nhà phát triển nhờ tốc độ và chi phí thấp. Phiên bản 2.5 Flash mới này còn cải thiện đáng kể ở hầu hết mọi khía cạnh — nâng cao hiệu suất trên các tiêu chuẩn chính về suy luận, đa phương thức, mã hóa và ngữ cảnh dài. Mô hình này chỉ xếp sau 2.5 Pro trên bảng xếp hạng LMArena.
Google đang cải thiện 2.5 Pro tốt hơn nữa bằng cách giới thiệu một chế độ suy luận nâng cao gọi là Deep Think. Chế độ này sử dụng nghiên cứu tiên tiến nhất về tư duy và suy luận, bao gồm các kỹ thuật tư duy song song.
Một ứng dụng Gemini cá nhân hóa, chủ động và mạnh mẽ hơn
Google đang biến Deep Research trở nên cá nhân hơn, cho phép bạn tải lên tệp của mình và sắp tới là kết nối với Google Drive và Gmail, từ đó nâng cao khả năng tạo báo cáo nghiên cứu tùy chỉnh.
Google cũng đang tích hợp tính năng này với Canvas, cho phép tạo ra các infographic sống động, bài kiểm tra (quiz) và thậm chí cả podcast bằng nhiều ngôn ngữ chỉ với một cú nhấp chuột. Ngoài ra, sự đón nhận nồng nhiệt của xu hướng vibe coding với Canvas, giúp ngày càng nhiều người có thể phát triển các ứng dụng tiện ích chỉ bằng cách trò chuyện với Gemini.
Google sẽ cung cấp miễn phí tính năng chia sẻ camera và màn hình của Gemini Live — một tính năng rất được ưa chuộng — cho tất cả người dùng, kể cả trên iOS. Đặc biệt, Google sẽ sớm kết nối tính năng này với các ứng dụng Google yêu thích của bạn để tăng cường trải nghiệm liền mạch.
Những tiến bộ trong các mô hình truyền thông tạo sinh
Giờ đây, Veo 3 – mô hình video tiên tiến nhất đã có khả năng tạo âm thanh tự nhiên. Đồng thời, Google cũng giới thiệu Imagen 4, mô hình tạo ảnh mới nhất và tốt nhất. Cả hai đều có sẵn trong ứng dụng Gemini — mở ra một thế giới hoàn toàn mới cho sự sáng tạo.
Google cũng mang đến những tính năng trên đến các nhà làm phim bằng một công cụ mới có tên là Flow. Với Flow, bạn có thể tạo các thước phim điện ảnh và mở rộng một clip ngắn thành một cảnh dài hơn.
Cơ hội để cải thiện cuộc sống
Cơ hội mà AI mang lại thực sự vô cùng lớn như những gì nó có thể làm. Việc đảm bảo ngày càng có nhiều người nhận được lợi ích từ AI sẽ phụ thuộc vào làn sóng từ các nhà phát triển, những người xây dựng công nghệ và các nhà giải quyết vấn đề. Thật sự truyền cảm hứng là khi nghĩ rằng những nghiên cứu Google đang thực hiện hôm nay sẽ trở thành nền tảng cho ngày mai, từ robot học đến lượng tử, AlphaFold và Waymo.
Cơ hội để cải thiện cuộc sống là điều tôi không hề xem nhẹ. Một trải nghiệm gần đây đã giúp tôi nhận ra điều đó một cách rõ ràng. Khi tôi ở San Francisco cùng bố mẹ, điều đầu tiên họ muốn làm là thử Waymo (xe tự lái) – phương tiện đang trở thành một trong những điều thu hút khách du lịch của thành phố. Dù tôi đã đi Waymo trước đây, nhưng bố tôi, người đã ngoài 80, vẫn hoàn toàn kinh ngạc. Nhờ đó, tôi đã nhìn thấy sự tiến bộ dưới một góc nhìn hoàn toàn mới.
Đó là một lời nhắc nhở về sức mạnh phi thường của công nghệ trong việc truyền cảm hứng, để thán phục và thúc đẩy chúng ta tiến về phía trước. Tôi rất nóng lòng muốn thấy những điều tuyệt vời mà chúng ta sẽ cùng nhau xây dựng trong tương lai.
Thúc đẩy sức sáng tạo với các mô hình và công cụ truyền thông tạo sinh mới
Google công bố các mô hình truyền thông tạo sinh mới nhất, đánh dấu bước đột phá. Những mô hình này có khả năng tạo hình ảnh, video và âm nhạc một cách kinh ngạc, không chỉ giúp nghệ sĩ hiện thực hóa tầm nhìn về sự sáng tạo mà còn trao quyền cho mọi người thể hiện bản thân thông qua những công cụ tuyệt vời này.
Google tiếp tục bứt phá giới hạn trong lĩnh vực sáng tạo nội dung đa phương tiện thông qua việc ra mắt hai mô hình tạo ảnh và video mới nhất – Veo 3 và Imagen 4, mang đến những khả năng hoàn toàn mới và đột phá. Bên cạnh đó, Google cũng mở rộng truy cập vào Lyria 2, cung cấp thêm công cụ cho các nhạc sĩ thỏa sức sáng tạo.
Cuối cùng, Google mời các nhà làm phim trải nghiệm Flow, công cụ làm phim bằng AI mới được hỗ trợ bởi các mô hình AI hàng đầu của Google DeepMind. Flow cho phép bạn tạo ra những thước phim điện ảnh với khả năng kiểm soát nhân vật, cảnh quay và phong cách tinh xảo hơn, giúp hiện thực hóa câu chuyện của bạn.
Google đã hợp tác chặt chẽ với những người làm việc trong ngành sáng tạo, bao gồm các nhà làm phim, nhạc sĩ, nghệ sĩ, nhà sáng tạo nội dung YouTube để xây dựng những mô hình và sản phẩm này một cách có trách nhiệm, cũng như cung cấp cho các nhà sáng tạo những công cụ mới để khai phá tiềm năng của AI trong tác phẩm nghệ thuật của họ.
Veo 3: Video có âm thanh sống động
Veo 3, mô hình tạo video tân tiến không chỉ nâng cao chất lượng so với mô hình Veo 2 mà lần đầu tiên còn có khả năng tạo video kèm âm thanh — tiếng giao thông trên nền khung cảnh đường phố, tiếng chim hót trong công viên, thậm chí cả lời thoại giữa các nhân vật.
Veo 3 thể hiện nổi bật trên mọi phương diện, từ việc tạo nội dung dựa trên gợi ý văn bản và hình ảnh cho đến khả năng mô phỏng vật lý chân thực và đồng bộ khẩu hình chính xác. Khả năng hiểu của mô hình này rất tốt; bạn có thể đưa một câu chuyện ngắn gọn trong thông qua câu lệnh (prompt), mô hình sẽ tạo ra một đoạn clip sống động dựa trên yêu cầu của bạn.
Từ hôm nay, người dùng gói Ultra tại Mỹ đã có thể sử dụng mô hình Veo 3 trong ứng dụng Gemini và trong Flow. Công cụ này cũng khả dụng cho người dùng doanh nghiệp trên Vertex AI.
Các cập nhật mới trên Veo 2: Các khả năng mới được xây dựng cùng và dành cho các nhà làm phim
Khi phát triển Veo 3, Google cũng đã bổ sung các tính năng mới cho mô hình Veo 2, dựa trên những gì rút ra được từ quá trình làm việc với các nhà sáng tạo và nhà làm phim. Hôm nay, Google giới thiệu những tính năng mới trên mô hình Veo 2, bao gồm:
Tính năng tham chiếu video tiên tiến (state-of-the-art reference powered video capability) cho phép bạn cung cấp mô hình Veo những hình ảnh nhân vật, cảnh vật, đối tượng, thậm chí cả phong cách nhằm kiểm soát sáng tạo và đảm bảo tính nhất quán tốt hơn.
Tính năng điều khiển camera (Camera controls) giúp bạn xác định chính xác các chuyển động của máy quay, bao gồm xoay, di chuyển ngang và phóng to để có được cảnh quay hoàn hảo.
Tính năng mở rộng khung hình (Outpainting) cho phép bạn mở rộng khung hình video, chuyển đổi từ định dạng dọc sang ngang, giúp dễ dàng điều chỉnh với mọi kích thước màn hình, tự động thêm các chi tiết vào cảnh quay một cách thông minh.
Tính năng thêm và xóa đối tượng (Object add and remove) cho phép bạn thêm hoặc xóa các đối tượng khỏi video của mình. Veo có khả năng hiểu về tỷ lệ, kỹ thuật tương tác và đổ bóng, đồng thời sử dụng những kiến thức này để tạo ra một cảnh quay trông tự nhiên và chân thực.
Tính năng tham chiếu video và điều khiển camera hiện đã có trong Flow. Google rất hào hứng khi sẽ sớm mang tất cả những khả năng mới này đến API trong Vertex AI vào những tuần tới, và tiếp tục tích hợp trong nhiều sản phẩm khác trong những tháng tiếp theo.
Flow: Công cụ làm phim bằng AI thiết kế riêng cho Veo
Được xây dựng cùng và dành cho giới sáng tạo, Flow là một công cụ làm phim bằng AI cho phép bạn tạo ra các đoạn clip, cảnh quay và câu chuyện điện ảnh một cách liền mạch thông qua việc kết hợp các mô hình tiên tiến nhất của Google DeepMind: Veo, Imagen và Gemini. Bạn có thể sử dụng ngôn ngữ tự nhiên để mô tả ý tưởng cảnh quay của mình cho Flow, kiểm soát những yếu tố cốt lõi của câu chuyện như nhân vật, địa điểm, đối tượng và phong cách tại một điểm quay duy nhất, và sử dụng Flow để biến câu chuyện của bạn thành những cảnh quay tuyệt đẹp.
Flow hiện đã được triển khai cho những người đăng ký gói Google AI Pro và Ultra tại Mỹ, và sẽ sớm được mở rộng trên nhiều quốc gia khác.
Imagen 4: Chất lượng hình ảnh cao cùng khả năng sắp xếp chữ vượt trội
Mô hình Imagen mới nhất kết hợp giữa tốc độ và độ chính xác để tạo ra những hình ảnh tuyệt đẹp. Imagen 4 có độ rõ nét đáng kể trong các chi tiết nhỏ như họa tiết vải tinh xảo, giọt nước và lông động vật, đồng thời vượt trội ở cả phong cách siêu thực lẫn trừu tượng.
Imagen 4 có thể tạo hình ảnh ở nhiều tỷ lệ khung hình khác nhau và có độ phân giải lên tới 2K – thậm chí có chất lượng tốt hơn phục vụ cho việc in ấn hoặc thuyết trình. Mô hình này cũng vượt trội hơn trong việc đánh vần và sắp xếp chữ, giúp bạn dễ dàng tạo thiệp chúc mừng, áp phích và thậm chí là truyện tranh của riêng mình.
Các hình ảnh khởi tạo từ Imagen 4
Imagen 4 hiện đã tích hợp trong ứng dụng Gemini, Whisk, Vertex AI và khắp các công cụ Slides, Vids, Docs cùng nhiều ứng dụng khác thuộc Workspace.
Trong thời gian tới, Google cũng sẽ ra mắt một phiên bản Imagen 4 nhanh hơn, có tốc độ gấp 10 lần so với Imagen 3 — giúp bạn phát triển ý tưởng nhanh chóng hơn nữa.
Lyria 2: Khả năng sáng tác vượt trội và sáng tạo không giới hạn
Vào tháng 4, Google đã mở rộng quyền truy cập vào Music AI Sandbox – công cụ được hỗ trợ bởi Lyria 2. Music AI Sandbox cung cấp cho các nhạc sĩ, nhà sản xuất và người sáng tác một bộ công cụ thử nghiệm, có thể khơi gợi những khả năng sáng tạo mới và giúp các nghệ sĩ khai thác thêm nhiều chất liệu âm nhạc độc đáo.
Kiến thức chuyên môn và phản hồi quý báu từ giới sáng tạo âm nhạc giúp đảm bảo các công cụ của mình có thể trao quyền cho các nhà sáng tạo, đồng thời khuyến khích họ khai phá tiềm năng của AI trong tác phẩm nghệ thuật của mình.
Lyria 2 mang đến khả năng sáng tác vượt trội và sáng tạo không giới hạn, và mô hình này hiện đã được mang đến cho các nhà sáng tạo thông qua YouTube Shorts và người dùng doanh nghiệp trong Vertex AI. Google cũng đã triển khai mô hình Lyria RealTime – mô hình tạo nhạc tương tác trong công cụ MusicFX DJ thông qua API và trong AI Studio. Lyria RealTime cho phép bất kỳ ai cũng có thể tương tác sáng tạo, kiểm soát và biểu diễn nhạc tạo sinh theo thời gian thực.
Sáng tạo có trách nhiệm và hợp tác với cộng đồng sáng tạo
Kể từ khi ra mắt vào năm 2023, SynthID đã gắn dấu mộc (watermark) lên hơn 10 tỷ hình ảnh, video, tệp âm thanh và văn bản, giúp xác định chúng là nội dung do AI tạo ra và giảm thiểu nguy cơ thông tin sai lệch hay gán ghép sai nguồn. Các nội dung được tạo ra bởi Veo 3, Imagen 4 và Lyria 2 sẽ tiếp tục có watermark của SynthID.
Hôm nay, Google ra mắt SynthID Detector, một cổng xác minh giúp mọi người nhận diện nội dung do AI tạo ra. Bạn chỉ cần tải một nội dung lên và SynthID Detector sẽ xác định xem liệu toàn bộ tệp hay chỉ một phần của nó có chứa watermark của SynthID hay không.
Với tất cả các mô hình AI tạo sinh của mình, Google mong muốn bứt phá sự sáng tạo của con người và hỗ trợ các nghệ sĩ, nhà sáng tạo thực thi ý tưởng của mình nhanh chóng và dễ dàng hơn bao giờ hết.
Gemini 2.5: Mô hình thông minh nhất của Google đang ngày càng tốt hơn
Gemini 2.5 Pro tiếp tục được các nhà phát triển yêu thích với vai trò là mô hình tối ưu cho việc lập trình. 2.5 Flash cũng ngày càng hoàn thiện hơn với bản cập nhật mới. Bên cạnh đó, Google đang mang đến những khả năng mới cho các mô hình của mình, trong đó có Deep Think – một chế độ suy luận chuyên sâu dành cho 2.5 Pro.
Tháng Ba vừa qua, Gemini 2.5 Pro – mô hình thông minh nhất từ trước đến nay đã được ra mắt. Hai tuần trước, Google đã cung cấp sớm bản cập nhật I/O dành cho các nhà phát triển để tạo ra những ứng dụng web ấn tượng. Hôm nay, họ sẽ tiếp tục mang đến nhiều cập nhật mới cho dòng mô hình Gemini 2.5:
Không chỉ đạt hiệu suất ấn tượng trên các tiêu chuẩn đánh giá học thuật, 2.5 Pro hiện còn dẫn đầu trên bảng xếp hạng WebDev Arena và LMArena, và là công cụ hỗ trợ học tập đắc lực.
Google đang tích hợp nhiều khả năng mới cho cả 2.5 Pro và 2.5 Flash, bao gồm tính năng xuất âm thanh trực tiếp cho trải nghiệm hội thoại tự nhiên hơn, các biện pháp bảo mật tiên tiến, cùng khả năng điều khiển máy tính từ Project Mariner. Đặc biệt, 2.5 Pro sẽ được cải thiện đáng kể nhờ Deep Think – một chế độ suy luận chuyên sâu dành cho các tác vụ toán học và lập trình phức tạp.
Google không ngừng đầu tư vào việc nâng cao trải nghiệm cho các nhà phát triển. Cụ thể, tính năng tóm tắt suy nghĩ (thought summaries) đã được tích hợp vào cả API Gemini và Vertex AI nhằm tăng tính minh bạch. Đồng thời, Google cũng mở rộng thinking budgets – một cơ chế cho phép các nhà phát triển chỉ định mức độ sức mạnh tính toán – cho 2.5 Pro, để mang lại quyền kiểm soát cao hơn, và bổ sung hỗ trợ cho các công cụ MCP trong API Gemini và SDK, giúp dễ tiếp cận nhiều công cụ mã nguồn mở.
Phiên bản 2.5 Flash hiện đã sẵn sàng cho mọi người dùng trên ứng dụng Gemini. Vào đầu tháng 6, Google sẽ tiếp tục cung cấp bản cập nhật trên Google AI Studio dành cho nhà phát triển và trên Vertex AI cho doanh nghiệp.
Những tiến bộ vượt bậc này là kết quả của sự nỗ lực không ngừng nghỉ từ đội ngũ Google nhằm cải tiến công nghệ, phát triển và triển khai chúng một cách an toàn và có trách nhiệm.
2.5 Pro hoạt động hiệu quả hơn bao giờ hết
Google vừa cập nhật 2.5 Pro để hỗ trợ các nhà phát triển tạo ra những ứng dụng web đa dạng và dễ tương tác hơn. Họ rất vui khi nhận được phản hồi tích cực từ người dùng và các nhà phát triển và sẽ tiếp tục cải tiến dựa trên những phản hồi giá trị này.
Ngoài hiệu suất vượt trội trên các bài kiểm tra học thuật, 2.5 Pro mới hiện đang dẫn đầu bảng xếp hạng lập trình phổ biến WebDev Arena với điểm ELO là 1415. Mô hình này cũng chiếm vị trí đầu tiên tại các bảng xếp hạng của LMArena – một nền tảng đánh giá mức độ yêu thích của người dùng trong nhiều tình huống khác nhau. Đặc biệt, với cửa sổ ngữ cảnh lên tới 1 triệu token, 2.5 Pro thể hiện hiệu suất vượt trội trong việc xử lý ngữ cảnh dài và hiểu video.
Nhờ việc tích hợp LearnLM – bộ mô hình được phát triển với sự cộng tác chặt chẽ cùng các chuyên gia giáo dục – 2.5 Pro nay đã trở thành mô hình dẫn đầu trong lĩnh vực học tập.
Khi so sánh trực tiếp về phương pháp sư phạm và tính hiệu quả, Gemini 2.5 Pro được các nhà giáo dục và chuyên gia đánh giá cao hơn các mô hình khác trong nhiều tình huống khác nhau. Bên cạnh đó, mô hình Gemini 2.5 Pro còn thể hiện sự vượt trội so với các mô hình hàng đầu ở năm nguyên tắc khoa học về học tập, vốn được ứng dụng để xây dựng hệ thống AI cho giáo dục.
Deep Think – Mô hình suy luận sâu
Trong quá trình khám phá các giới hạn về năng lực tư duy của Gemini, Google đã bắt đầu thử nghiệm một chế độ suy luận nâng cao mang tên Deep Think. Chế độ này ứng dụng các kỹ thuật nghiên cứu tiên tiến, cho phép mô hình cân nhắc nhiều giả thuyết khác nhau trước khi đưa ra phản hồi cuối cùng.
2.5 Pro Deep Think đạt điểm số ấn tượng trên 2025 USAMO, vốn được xem là một trong những bài kiểm tra toán học khó nhất hiện nay. Không chỉ vậy, mô hình này còn dẫn đầu LiveCodeBench, một chuẩn đánh giá khắt khe dành cho lập trình cấp độ thi đấu, đồng thời đạt 84.0% trên MMMU, bài kiểm tra khả năng suy luận đa phương thức.
Để khai phá những giới hạn mới về khả năng với 2.5 Pro DeepThink, Google đã dành thêm thời gian để thực hiện các đánh giá an toàn chuyên sâu và tiếp nhận góp ý từ các chuyên gia. Theo đó, Google sẽ cấp quyền truy cập công cụ này cho một số đối tác thử nghiệm đáng tin cậy thông qua Gemini API để thu thập phản hồi trước khi phát hành rộng rãi.
Phiên bản 2.5 Flash được nâng cấp tốt hơn
2.5 Flash là mô hình hiệu quả được tối ưu hóa về tốc độ và chi phí. 2.5 Flash hiện đã được cải tiến đáng kể trên hầu hết các khía cạnh. Mô hình này cho thấy hiệu suất vượt trội trên các tiêu chí quan trọng về suy luận, đa phương thức, lập trình và ngữ cảnh dài, đồng thời còn trở nên hiệu quả hơn khi sử dụng ít hơn 20-30% token trong các đánh giá.
Phiên bản 2.5 Flash mới hiện đã có sẵn để dùng thử cho nhà phát triển trên Google AI Studio, cho doanh nghiệp trên Vertex AI và cho người dùng trên ứng dụng Gemini. Dự kiến vào đầu tháng 6, mô hình này sẽ được cung cấp rộng rãi cho việc phát triển ứng dụng.
Các tính năng mới trong Gemini 2.5
Đầu ra âm thanh tự nhiên và cải tiến Live API
Bản dùng thử của tính năng tạo âm thanh trực tiếp cho hội thoại sẽ có trên Live API, giúp bạn xây dựng trải nghiệm đàm thoại tự nhiên hơn với Gemini.
Người dùng còn có thể tùy chỉnh tông giọng, ngữ điệu và kiểu nói. Ví dụ, bạn có thể yêu cầu mô hình dùng giọng điệu kịch tính khi kể một câu chuyện. Đồng thời, tính năng này còn hỗ trợ việc sử dụng công cụ để thực hiện tìm kiếm theo yêu cầu của bạn.
Bạn có thể thử nghiệm một số tính năng ban đầu, bao gồm:
Hội thoại cảm xúc: Mô hình có thể nhận diện cảm xúc trong giọng nói của người dùng và phản hồi phù hợp.
Âm thanh chủ động: Mô hình sẽ bỏ qua các cuộc trò chuyện nền và biết khi nào cần phản hồi.
Tư duy trong Live API: Mô hình tận dụng khả năng tư duy của Gemini để hỗ trợ các tác vụ phức tạp hơn.
Google cũng đang ra mắt các bản dùng thử mới cho tính năng chuyển văn bản thành giọng nói trong phiên bản 2.5 Pro và 2.5 Flash. Đây là lần đầu tiên Google hỗ trợ đa giọng nói, cho phép chuyển văn bản thành tiếng nói với hai giọng khác nhau thông qua đầu ra âm thanh tự nhiên.
Tương tự như hội thoại âm thanh tự nhiên, tính năng chuyển văn bản thành giọng nói có khả năng biểu đạt tốt, và có thể nắm bắt những sắc thái tinh tế nhất, ví dụ như tiếng thì thầm. Nó hoạt động với hơn 24 ngôn ngữ và có thể chuyển đổi mượt mà giữa chúng.
Tính năng chuyển văn bản thành giọng nói sẽ được tích hợp vào Gemini API hôm nay.
Khả năng điều khiển máy tính
Google đang tích hợp khả năng điều khiển máy tính của Project Mariner vào Gemini API và Vertex AI. Các công ty như Automation Anywhere, UiPath, Browserbase, Autotab, The Interaction Company và Cartwheel đang khám phá tiềm năng của khả năng này. Họ rất hào hứng khi sẽ triển khai rộng rãi hơn cho các nhà phát triển thử nghiệm vào mùa hè này.
Bảo mật tốt hơn
Google đã tăng cường đáng kể khả năng phòng vệ trước các nguy cơ về bảo mật, đặc biệt là những cuộc tấn công chèn lệnh gián tiếp – hình thức các hướng dẫn độc hại được nhúng vào dữ liệu mà mô hình AI truy xuất. Phương pháp bảo mật mới đã gia tăng đáng kể tỷ lệ bảo vệ của Gemini chống lại các cuộc tấn công chèn lệnh gián tiếp trong quá trình sử dụng công cụ, đưa Gemini 2.5 trở thành dòng mô hình an toàn nhất cho đến hiện tại.
Nâng cao trải nghiệm cho nhà phát triển
Thought summaries – Tóm tắt suy nghĩ
Các mô hình 2.5 Pro và Flash hiện sẽ bao gồm các bản tóm tắt suy nghĩ trong Gemini API và Vertex AI. Các bản tóm tắt suy nghĩ lấy các suy nghĩ thô của mô hình và sắp xếp chúng thành một định dạng rõ ràng với các tiêu đề, chi tiết chính và thông tin về các hành động của mô hình, chẳng hạn như khi chúng sử dụng các công cụ hỗ trợ.
Với quá trình tư duy của mô hình được sắp xếp bài bản và tinh gọn hơn, Google kỳ vọng các nhà phát triển và người dùng sẽ dễ dàng hiểu và xử lý các vấn đề hơn khi làm việc với Gemini.
Thinking budgets – Cơ chế cho phép các nhà phát triển chỉ định mức độ sức mạnh tính toán
Google đã giới thiệu 2.5 Flash với "Thinking budgets" nhằm giúp các nhà phát triển kiểm soát chi phí thông qua việc cân bằng giữa độ trễ và chất lượng. Và đặc điểm này tiếp tục được áp dụng cho 2.5 Pro. "Thinking budgets" cho phép bạn kiểm soát số lượng token mà mô hình sử dụng để suy nghĩ trước khi đưa ra phản hồi, hoặc thậm chí vô hiệu hóa khả năng suy luận của nó.
Gemini 2.5 Pro với mức giá phải chăng dự kiến sẽ được cung cấp rộng rãi để sử dụng ổn định trong vài tuần tới, cùng với mô hình hiện tại.
MCP Support – Hỗ trợ giao thức ngữ cảnh mô hình
Để việc tích hợp với các công cụ mã nguồn mở trở nên dễ dàng, Google đã tích hợp hỗ trợ SDK gốc cho các định nghĩa của Giao thức Ngữ cảnh Mô hình (MCP) vào Gemini API. Song song đó, Google cũng đang nghiên cứu giải pháp triển khai máy chủ MCP và những công cụ được lưu trữ khác, nhằm hỗ trợ xây dựng các ứng dụng có khả năng tự chủ một cách thuận tiện hơn.
Google luôn không ngừng đổi mới các cách tiếp cận để cải thiện cả mô hình lẫn trải nghiệm dành cho nhà phát triển, trong đó có việc nâng cao hiệu quả và hiệu suất. Google cũng sẽ tiếp tục lắng nghe những ý kiến đóng góp từ cộng đồng nhà phát triển, vì vậy rất mong nhận được phản hồi từ bạn! Đồng thời, Google không ngừng đầu tư sâu rộng vào nghiên cứu nền tảng nhằm mở rộng giới hạn khả năng của Gemini. Rất nhiều điều thú vị sẽ sớm được ra mắt.
Gemini ngày càng cá nhân hóa, chủ động và mạnh mẽ hơn
Ứng dụng Gemini gần đây đã có những phát triển vượt bậc — và hôm nay, Google giới thiệu những tính năng mới giúp bạn làm được nhiều việc hơn nữa.
Dưới đây là những thông tin được công bố tại sự kiện Google I/O 2025:
Gemini Live với tính năng chia sẻ camera và màn hình hiện đã miễn phí cho mọi người trên nền tảng Android và iOS. Giờ đây, bạn có thể hướng điện thoại vào bất kỳ vật thể nào và bắt đầu trò chuyện.
Imagen 4, mô hình tạo hình ảnh mới, được tích hợp sẵn với chất lượng hình ảnh vượt trội, khả năng xử lý văn bản tốt hơn và tốc độ nhanh hơn.
Veo 3, mô hình tạo video tân tiến nhất, được tích hợp sẵn và là mô hình đầu tiên trên thế giới hỗ trợ âm thanh tự nhiên cho hiệu ứng âm thanh, tiếng động nền và hội thoại giữa các nhân vật.
Deep Research và Canvas đang nhận được bản cập nhật lớn nhất từ trước đến nay, mở ra những phương thức mới để phân tích thông tin, tạo podcast và tùy chỉnh giao diện các trang web, ứng dụng.
Gemini sẽ có mặt trên Chrome, cho phép bạn đặt câu hỏi trong khi duyệt web.
Học sinh trên toàn cầu có thể dễ dàng tạo các câu hỏi tương tác. Đặc biệt, sinh viên đại học tại Mỹ, Brazil, Indonesia, Nhật Bản, cùng Vương quốc Anh được đủ điều kiện nhận gói Google AI Pro miễn phí một năm học.
Google AI Ultra là gói cao cấp mới dành cho những người tiên phong muốn có giới hạn sử dụng cao nhất và quyền truy cập sớm vào các tính năng mới trong ứng dụng Gemini.
2.5 Flash đã trở thành mô hình mặc định mới của Google với chất lượng đáng kinh ngạc với thời gian phản hồi tức thì.
Nhận biết và giải quyết: Gemini Live tích hợp chia sẻ camera và màn hình, miễn phí trên Android và iOS
Đã có bao giờ bạn ước chỉ cần cho Gemini thấy điều bạn muốn nói thay vì phải gõ ra tất cả? Hay bạn muốn được hỗ trợ hình ảnh trực tiếp cho một tác vụ phức tạp, ngay trên điện thoại của mình? Với Gemini Live, giờ đây bạn hoàn toàn có thể làm được điều đó.
Người dùng rất thích Gemini Live. Trên thực tế, các cuộc trò chuyện qua Gemini Live trung bình dài hơn gấp năm lần so với các cuộc trò chuyện dựa trên văn bản bởi vì nó mang đến những phương thức mới mẻ để hỗ trợ người dùng, dù là khắc phục sự cố thiết bị hay đưa ra lời khuyên mua sắm cá nhân hóa.
Đó là lý do tại sao bắt đầu từ hôm nay, Gemini Live cùng tính năng chia sẻ camera và màn hình cho tất cả mọi người trên Android và iOS hoàn toàn miễn phí.
Và trong những tuần tới, Gemini Live sẽ được tích hợp sâu hơn vào cuộc sống hàng ngày của bạn.
Bạn đang muốn lên kế hoạch gặp gỡ bạn bè vào buổi tối ? Hãy thảo luận chi tiết trong Gemini Live và nó sẽ ngay lập tức tạo một sự kiện trong Google Calendar của bạn. Thèm pizza đế dày? Chỉ cần đặt câu hỏi và nhận thông tin chi tiết mới nhất từ Google Maps. Google đang bắt đầu tích hợp Google Maps, Calendar, Tasks và Keep, đồng thời lên kế hoạch kết nối nhiều hơn với hệ sinh thái Google. Bạn có thể quản lý các kết nối ứng dụng này và thông tin của mình bất cứ lúc nào trong phần cài đặt của ứng dụng.
Tạo hình ảnh và video tuyệt đẹp với Imagen 4 và Veo 3
Ứng dụng Gemini giúp bạn dễ dàng biến ý tưởng thành hình ảnh và video ngoạn mục.
Dù bạn đang thiết kế một bài thuyết trình chuyên nghiệp, tạo hình ảnh cho bài đăng mạng xã hội hay phác thảo thiệp mời sự kiện, Imagen 4 đều mang đến những hình ảnh sống động, chi tiết chân thực cùng khả năng hiển thị văn bản và sắp xếp chữ vượt trội. Mọi người dùng đã có thể trải nghiệm Imagen 4 ngay hôm nay trong ứng dụng Gemini.
Mô hình Veo 3 đặt ra một chuẩn mực mới trong việc biến ý tưởng thành video sống động. Nó không chỉ cho phép bạn tạo ra một cảnh của video, mà còn tạo ra cả âm thanh như tiếng thành phố nhộn nhịp, tiếng lá xào xạc hay thậm chí là lời thoại giữa các nhân vật — tất cả chỉ từ những gợi ý văn bản đơn giản. Veo 3 làm được điều này nhờ khả năng tạo âm thanh gốc, mang đến những trải nghiệm thực sự sống động chưa từng có trước đây. Hôm nay, Veo 3 sẽ được triển khai trong ứng dụng Gemini dành cho người đăng ký gói Google AI Ultra tại Mỹ.
Thu thập thông tin chuyên sâu hơn: Giờ đây, bạn có thể thêm nguồn thông tin riêng vào Deep Research
Bắt đầu từ hôm nay, bạn có thể nhận được một báo cáo Deep Research hoàn chỉnh, được tùy chỉnh, kết hợp dữ liệu công khai với các tệp PDF và hình ảnh riêng tư của bạn. Điều này giúp bạn có được cái nhìn toàn diện, dễ dàng đối chiếu kiến thức của mình với các xu hướng rộng hơn, tất cả tại một nơi. Nhờ vậy, bạn tiết kiệm thời gian và có thể phát hiện ra những kết nối mà trước đây có thể đã bỏ lỡ.
Ví dụ, một nhà nghiên cứu thị trường giờ đây có thể tải lên số liệu bán hàng nội bộ (dưới dạng PDF) để đối chiếu với các xu hướng thị trường công khai, tất cả chỉ trong Deep Research. Hoặc một học giả có thể bổ sung các bài báo khoa học chuyên ngành khó tìm để làm phong phú thêm phần tổng quan tài liệu của mình. Và sắp tới, Google sẽ cho phép bạn tìm kiếm trên Google Drive và Gmail để dễ dàng truy xuất thông tin từ những nguồn đó.
Khởi tạo với Canvas
Canvas là không gian sáng tạo ngay trong ứng dụng Gemini, nơi bạn có thể xây dựng mọi ý tưởng mà mình hình dung.
Với các mô hình Gemini 2.5, Canvas giờ đây thậm chí còn trực quan và mạnh mẽ hơn. Bạn có thể tạo các infographic tương tác, bài kiểm tra (quiz) và thậm chí cả bản Audio Overviews theo phong cách podcast bằng 45 ngôn ngữ khác nhau. Tuy nhiên, điểm nổi bật của mô hình 2.5 Pro nằm ở khả năng chuyển đổi các ý tưởng phức tạp thành mã code khởi chạy được với tốc độ và độ chính xác đáng kinh ngạc.
Mọi người giờ đây có thể nhanh chóng tạo ra các ứng dụng hoàn chỉnh chỉ bằng những mô tả đơn giản. Xu hướng viết code không cần hiểu lập trình như vậy (vibe coding) làm giảm đáng kể rào cản trong việc tạo ra phần mềm, đồng thời giúp thử nghiệm ý tưởng mới và tạo mẫu phần mềm nhanh hơn bao giờ hết.
Trải nghiệm Gemini trên Google Chrome
Bắt đầu từ ngày mai, Gemini trên Google Chrome sẽ bắt đầu được triển khai trên máy tính cho người dùng đăng ký gói Google AI Pro và Google AI Ultra tại Mỹ, những người sử dụng tiếng Anh làm ngôn ngữ Chrome trên Windows và macOS. Phiên bản đầu tiên này cho phép bạn dễ dàng yêu cầu Gemini giải thích hoặc tóm tắt thông tin phức tạp trên bất kỳ trang web nào bạn đang đọc. Trong tương lai, Gemini sẽ có thể hoạt động trên nhiều tab và thay mặt bạn điều hướng các trang web.
Thử nghiệm các bài kiểm tra tương tác
Chán nản với việc chỉ đọc lại ghi chú một cách thụ động? Gemini đang thay đổi cách bạn tiếp thu kiến thức bằng việc ra mắt các bài kiểm tra tương tác, giúp việc học trở nên hấp dẫn hơn.
Ví dụ, chỉ cần yêu cầu Gemini: "Tạo một bài kiểm tra về nhiệt động lực học". Ngay lập tức, bạn sẽ có một trải nghiệm học tập được thiết kế riêng dành cho bạn. Khi bạn trả lời, Gemini sẽ phản hồi tức thì, làm nổi bật những chủ đề mà bạn cần chú ý hơn.
Khi hoàn thành, Gemini sẽ chủ động cung cấp một bài kiểm tra bổ sung được cá nhân hóa, tập trung vào những điểm bạn còn gặp khó khăn, giúp bạn cải thiện tốt hơn. Tính năng này đang được triển khai từ hôm nay cho tất cả người dùng Gemini trên toàn thế giới, cả trên máy tính và thiết bị di động.
Để hỗ trợ tối đa việc học tập, sinh viên đại học tại Mỹ, Brazil, Indonesia, Nhật Bản và Vương quốc Anh đủ điều kiện được nâng cấp gói Gemini miễn phí trong một năm học. Cập nhật này sẽ sớm được triển khai tại nhiều quốc gia khác.
Thông tin các gói Google AI Pro và Google AI Ultra
Bắt đầu từ hôm nay, Google sẽ triển khai hai gói đăng ký mới là Google AI Pro và Google AI Ultra.
Với Google AI Pro, bạn sẽ có trọn bộ công cụ AI với giá 19,99 USD/tháng. Gói Pro này sẽ nâng tầm trải nghiệm ứng dụng Gemini của bạn, đồng thời thay thế và mở rộng Gemini Advanced. Nó cũng bao gồm các sản phẩm như Flow, NotebookLM và nhiều hơn nữa, tất cả đều đi kèm các tính năng đặc biệt và giới hạn sử dụng cao hơn.
Tiếp theo là gói Google AI Ultra. Bạn sẽ được truy cập vào những mô hình mạnh mẽ nhất của Google với giới hạn sử dụng cao nhất, đồng thời có quyền truy cập sớm vào các sản phẩm AI thử nghiệm độc đáo nhất trước những người khác. Bạn có thể xem gói Ultra như tấm vé VIP của mình đến thế giới Google AI.
Ví dụ, với những người dùng ứng dụng Gemini chuyên nghiệp, bạn sẽ được trải nghiệm cấp độ cao nhất với gói Ultra — tận hưởng các tính năng độc quyền và quyền truy cập sớm nhất vào những mô hình tốt nhất, bao gồm cả Veo 3 và chế độ 2.5 Pro Deep Think sắp ra mắt.
Khi nâng cấp lên gói Ultra, bạn cũng sẽ được truy cập sớm vào Agent Mode, một khả năng thử nghiệm mới sẽ sớm có mặt trên máy tính. Hãy tưởng tượng bạn chỉ cần nói rõ mục tiêu của mình, và Gemini sẽ tự động sắp xếp các bước để đạt được điều đó một cách thông minh. Chế độ này kết hợp liền mạch các tính năng nâng cao như duyệt web trực tiếp, nghiên cứu chuyên sâu và tích hợp thông minh với các ứng dụng Google của bạn, giúp nó quản lý các tác vụ phức tạp, nhiều bước từ đầu đến cuối mà bạn không cần giám sát nhiều.
Gói Google AI Ultra hiện chỉ khả dụng ở Mỹ, và sẽ sớm ra mắt ở nhiều quốc gia khác. Gói có giá 249.99 USD/tháng, với ưu đãi cho người dùng lần đầu là 50% trong ba tháng đầu tiên.
Tất cả những cập nhật này đều được thúc đẩy bởi tầm nhìn của Google nhằm biến Gemini thành trợ lý AI cá nhân, chủ động và mạnh mẽ nhất hành tinh.
Tầm nhìn của Google về việc kiến tạo một trợ lý AI toàn năng
Google đang phát triển Gemini trở thành một "World model" (mô hình mô phỏng thế giới) có khả năng lập kế hoạch và hình dung những trải nghiệm mới thông qua việc mô phỏng các khía cạnh đa dạng của thế giới.
Trong mười năm qua, Google đã xây dựng nhiều nền tảng quan trọng cho kỷ nguyên AI hiện đại, khởi đầu từ việc tiên phong kiến trúc Transformer – cốt lõi của các mô hình ngôn ngữ lớn ngày nay – đến việc phát triển các hệ thống tiên tiến có khả năng học hỏi và lên kế hoạch như AlphaGo và AlphaZero.
Những kỹ thuật này cũng được áp dụng để tạo ra đột phá trong điện toán lượng tử, toán học, khoa học sự sống và khám phá thuật toán. Google không ngừng đẩy mạnh cả chiều rộng lẫn chiều sâu trong nghiên cứu cơ bản, nỗ lực tạo ra những bước tiến lớn nhằm phát triển trí tuệ nhân tạo tổng quát (AGI).
Đây chính là động lực để mở rộng Gemini 2.5 Pro, mô hình nền tảng đa phương thức hàng đầu, hướng tới việc kiến tạo một "World model" với khả năng lập kế hoạch và tự hình dung những trải nghiệm mới mẻ thông qua việc hiểu và mô phỏng các khía cạnh phức tạp của thế giới, tương tự như cách bộ não con người hoạt động.
Trong thời gian qua, Google đã có những bước tiến vững chắc theo định hướng này, khởi đầu từ những nghiên cứu tiên phong trong việc huấn luyện các tác nhân AI chinh phục trò chơi phức tạp như Go và StarCraft, cho đến Genie 2, một công cụ đột phá có khả năng tạo ra các môi trường mô phỏng 3D, cho phép người dùng dễ dàng tương tác, chỉ với một hình ảnh đầu vào duy nhất.
Chúng ta có thể thấy những dấu hiệu ban đầu về các khả năng này trong việc Gemini vận dụng kiến thức về thế giới và khả năng suy luận để biểu diễn và mô phỏng các môi trường tự nhiên; sự hiểu biết sâu sắc của Veo về vật lý trực quan; và cách Gemini Robotics dạy robot nắm bắt đồ vật, tuân theo chỉ dẫn và thích ứng linh hoạt trong thời gian thực.
Việc phát triển Gemini thành "World model" đóng vai trò then chốt trong quá trình kiến tạo một thế hệ AI mới, ưu việt hơn về tính tổng quát và ứng dụng thực tiễn — một trợ lý AI toàn năng. Đây là một mô hình trí tuệ nhân tạo thông minh, có khả năng thấu hiểu sâu sắc ngữ cảnh hiện tại của bạn, lên kế hoạch và thực hiện các tác vụ thay bạn theo yêu cầu, trên mọi thiết bị.
Tích hợp khả năng phát trực tiếp của Project Astra vào các sản phẩm của Google
Mục tiêu lớn nhất của Google là phát triển Ứng dụng Gemini thành một trợ lý AI toàn năng, hỗ trợ người dùng trong các công việc thường nhật, xử lý các tác vụ hành chính, gợi mở những ý tưởng thú vị, giúp nâng cao năng suất và làm phong phú đời sống.
Bước đầu tiên trong hành trình này là việc tích hợp những khả năng đã được thử nghiệm trong Project Astra vào năm ngoái, bao gồm khả năng phân tích video, chia sẻ màn hình và bộ nhớ.
Trong năm vừa qua, Google đã nỗ lực tích hợp những tính năng này vào Gemini Live để người dùng trải nghiệm. Bên cạnh đó, Google cũng không ngừng cải thiện và khám phá ra nhiều đột phá mới, điển hình như việc nâng cấp giọng nói đầu ra, giúp giọng nói được tự nhiên hơn, tăng cường khả năng ghi nhớ và bổ sung khả năng điều khiển máy tính.
Hiện tại, Google đang trong giai đoạn thu thập phản hồi từ những người thử nghiệm uy tín, đồng thời tích cực triển khai những tính năng này vào Gemini Live, tạo trải nghiệm mới trong Search, Live API dành cho các nhà phát triển, và các thiết bị dạng mới như kính thông minh.
Xuyên suốt quá trình phát triển, an toàn và trách nhiệm luôn là ưu tiên trong mọi hoạt động của Google. Thông qua một dự án nghiên cứu quy mô lớn gần đây, Google đã đi sâu tìm hiểu các khía cạnh đạo đức xoay quanh trợ lý AI tân tiến. Những nghiên cứu này đóng vai trò định hướng cho quá trình nghiên cứu, phát triển và triển khai sản phẩm.
Phát triển AI có khả năng đa nhiệm
Với Project Mariner, Google đang nghiên cứu cách mà các khả năng tác nhân hỗ trợ người dùng xử lý nhiều công việc đồng thời. Nguyên mẫu nghiên cứu này được thiết kế để khám phá tương lai tương tác giữa con người và AI, bắt đầu từ trình duyệt.
Sau khi ra mắt Project Mariner vào tháng 12 năm ngoái, Google đã thiết lập mối quan hệ hợp tác chặt chẽ với nhóm các tester uy tín nhằm thu thập phản hồi, từ đó liên tục cải thiện các tính năng thử nghiệm.
Project Mariner hiện sở hữu hệ thống tác nhân có khả năng thực hiện đồng thời đến mười tác vụ, giúp bạn tra cứu, đặt chỗ, mua sắm, nghiên cứu và làm nhiều việc khác nhau trong cùng một thời điểm.
Phiên bản cải tiến của Project Mariner hiện đã được cung cấp cho người dùng đăng ký gói Google AI Ultra tại Mỹ. Google đang mang tính năng này vào Gemini API, và dự kiến sẽ được ứng dụng trong nhiều sản phẩm khác của Google trong năm nay. Vui lòng tìm hiểu thêm về các khả năng tác nhân của chúng tôi trong Search và ứng dụng Gemini.
Với những bước tiến mang tính đột phá, Google đang phát triển AI ngày càng thông minh, chủ động và mạnh mẽ, hướng tới làm phong phú cuộc sống con người, thúc đẩy sự phát triển của khoa học và mở ra một kỷ nguyên khám phá mới.