Gemini 2.0: Multimodal AI Agents mới của Google, mạnh mẽ hơn Gemini 1.5 rất nhiều

16/12/2024 10:16
Gemini 2.0: Multimodal AI Agents mới của Google, mạnh mẽ hơn Gemini 1.5 rất nhiều

Google công bố Gemini 2.0, một mô hình AI tiên tiến hơn các phiên bản trước, với khả năng xử lý đa phương thức (văn bản, hình ảnh, âm thanh) và sử dụng công cụ tích hợp. Phiên bản Gemini 2.0 Flash hiện đã có sẵn cho nhà phát triển và người dùng thử nghiệm, với kế hoạch mở rộng ra toàn bộ người dùng vào đầu năm sau. Google cũng giới thiệu các dự án nghiên cứu sử dụng Gemini 2.0, bao gồm Project Astra (trợ lý AI đa phương thức), Project Mariner (tương tác người-AI trên trình duyệt), và Jules (trợ lý lập trình). Việc phát triển tập trung vào trách nhiệm và an toàn, với các biện pháp giảm thiểu rủi ro được tích hợp.


Để trải nghiệm Gemini 2.0, bạn có thể truy cập Google AI Studio hoặc sử dụng phiên bản Advanced với Gemini 2.0 Flash - cả trên ứng dụng di động Gemini lẫn phiên bản web. Hiện tại Gemini 2.0 mới chỉ có bản Flash và bản thường, phiên bản Pro và có khả năng là bản Ultra sẽ được ra mắt sau.


Gemini 2.0 mang đến những cải tiến gì so với phiên bản trước?


Khả năng đa phương thức được nâng cao: Gemini 2.0 mở rộng khả năng tạo hình ảnh và âm thanh, giúp phát triển các ứng dụng tương tác phong phú hơn. Đặc biệt, phiên bản Gemini 2.0 Flash có thể tạo hình ảnh và âm thanh đa ngôn ngữ với nhiều giọng nói đa dạng và chất lượng được cải thiện.


Đầu vào đa phương thức: emini 2.0 có khả năng hiểu và xử lý thông tin từ nhiều nguồn dữ liệu khác nhau, bao gồm: hình ảnh, video, âm thanh, văn bản và code. Gemini 2.0 được huấn luyện để sử dụng các công cụ như Google Search hay code excuetion cũng như các chức năng do người dùng xác định.


Hiệu suất của Gemini 2.0 được cải thiện, đặc biệt với Gemini 2.0 Flash, mạnh hơn so với Gemini 1.5 Pro trong nhiều bài benchmark mà Google đã thực hiện, đặc biệt với khả năng code (Natural2Code, Bird-SQL, LiveCodeBench), khả năng làm toán (Math), khả năng tạo hình ảnh…


Agentic experiences với Gemini 2.0: Đây là một trải nghiệm hoàn toàn mới của Google, chúng ta đã nghe đến AI Agents và thời đại đó đã bắt đầu với Gemini 2.0. Agentic experiences là trải nghiệm mà trong đó, các mô hình AI có khả năng hiểu thế giới xung quanh người dùng, suy nghĩ nhiều bước trước và thực hiện các hành động thay mặt người dùng, dưới sự giám sát của họ.


Google có ba dự án với Agentic experiences này là Project Astra, Project Mariner và Jules.


Project Astra


Đây là trợ lý AI đa năng dự kiến sẽ có mặt trên các thiết bị Google Pixel trong tương lai gần thôi, theo mô tả của Google, Project Astra sẽ tạo ra một trợ lý AI có thể hỗ trợ người dùng trong nhiều tình huống khác nhau, từ việc tìm kiếm thông tin đến thực hiện các tác vụ phức tạp. Astra sử dụng khả năng đa phương thức của Gemini 2.0 để hiểu và phản hồi các yêu cầu phức tạp, cũng như sử dụng các công cụ như Google Search, Lens và Maps để tương tác với thế giới thực.


Ví dụ, Astra có khả năng xử lý thông tin từ nhiều nguồn dữ liệu khác nhau, bao gồm văn bản, hình ảnh, video và âm thanh. Điều này cho phép Astra hiểu và phản hồi các yêu cầu phức tạp, chẳng hạn như "Tìm cho tôi một nhà hàng Ý gần đây có chỗ ngồi ngoài trời và cho tôi xem hình ảnh món mì ống của họ".


Ngoài ra, Astra còn có khả năng ghi nhớ các cuộc hội thoại trước đó và sử dụng thông tin ngữ cảnh để cung cấp các phản hồi phù hợp hơn. Ví dụ, nếu bạn hỏi Astra "Thời tiết hôm nay thế nào?", sau đó hỏi "Còn ngày mai thì sao?", Astra sẽ hiểu rằng bạn đang hỏi về thời tiết của ngày mai dựa trên ngữ cảnh của cuộc trò chuyện. Astra cũng được thiết kế để học hỏi từ các tương tác của người dùng và cá nhân hóa trải nghiệm theo sở thích và thói quen của họ.


Nói một cách khác, Project Astra với Gemini 2.0 có thể giúp người dùng thực hiện nhiều tác vụ mang tính phức tạp của con người khi sử dụng. Với Gemini 2.0, Astra cũng có độ trễ thấp hơn, gần bằng tốc độ hội thoại của con người, khả năng ghi nhớ thông tin trong phiên lên đến 10 phút và ghi nhớ nhiều cuộc trò chuyện hơn trong quá khứ. Astra cũng được cải thiện khả năng trò chuyện đa ngôn ngữ và hỗn hợp ngôn ngữ, hiểu rõ hơn các giọng nói và từ ngữ không phổ biến.


Tiềm năng của Astra là rất lớn khi nó được đem lên điện thoại để giúp chúng ta có được một trải nghiệm hoàn toàn khác biệt so với các công cụ AI đang được biết đến trước đây. Một tương lai mới cho các thiết bị di động đang mở ra. Anh em có thể xem video của Google mô tả về Project Astra để biết rõ hơn.


Project Mariner


Đây là dự án sẽ giúp cho trải nghiệm duyệt web của người dùng tốt hơn với AI. Mariner sử dụng Gemini 2.0 để hiểu và lý luận thông tin trên màn hình trình duyệt, bao gồm văn bản, code, hình ảnh và biểu mẫu. Nó có thể thực hiện các tác vụ thay cho người dùng, chẳng hạn như điền vào biểu mẫu hoặc điều hướng đến trang web cụ thể, thông qua tiện ích mở rộng.


Ví dụ, bạn có thể yêu cầu Mariner điền thông tin vào biểu mẫu đăng ký, tìm kiếm sản phẩm trên trang web mua sắm hoặc so sánh giá vé máy bay.


Về benchmark, Mariner đã đạt được kết quả ấn tượng trong bài test WebVoyager, đạt 83,5% hiệu quả trong việc hoàn thành các tác vụ web thực tế.


Bên cạnh đó, về yếu tố bảo mật, Mariner chỉ có thể thực hiện các thao tác trong tab đang hoạt động và không thể truy cập thông tin nhạy cảm như mật khẩu hoặc thông tin thanh toán. Đối với các hành động nhạy cảm như mua hàng trực tuyến, Mariner sẽ yêu cầu người dùng xác nhận trước khi thực hiện.


Jules


Đây sẽ là AI agents dành cho các lập trình viên, Jules được thiết kế để hỗ trợ các nhà phát triển phần mềm trong việc xử lý các tác vụ lập trình. Jules cũng sử dụng Gemini 2.0 Flash với khả năng thực thi mã và tốc độ suy luận vượt trội để mang lại hiệu quả tối ưu.


Lợi ích mà Jules mang lại cho nhà phát triển là tăng năng suất làm việc, bằng cách giao cho Jules công việc gõ code, còn bản thân con người sẽ tập trung vào các khía cạnh quan trọng khác của một dự án. Jules cũng giúp cho bản thân nhà phát triển có thể dễ dàng theo dõi tiến trình, cập nhật theo thời gian thực. Jules giúp tạo ra các kế hoạch chi tiết, nhiều bước để giải quyết vấn đề và cho phép nhà phát triển xem xét, phản hồi và yêu cầu điều chỉnh trong suốt quá trình.


Mô hình Gemini 2.0 Flash được tích hợp vào những sản phẩm nào của Google?


Hiện tại Gemini 2.0 Flash người dùng đã được sư dụng thử nghiệm trên ứng dụng Gemini và trình duyệt web, dành cho người dùng Gemini Advanced, cũng như có thể trải nghiệm bằng công cụ Google AI Studio, với lượng token lớn lên đến 2 triệu (dành cho Gemini 2.0).


Ngoài ra, công cụ AI tích hợp trong Google Search là AI Overviews cũng bắt đầu thử nghiệm với Gemini 2.0.


Tin xem thêm

OpenAI giới thiệu tính năng gọi trực tiếp cho ChatGPT mà không cần internet

Chuyên mục Ngày
20/12/2024 11:32

OpenAI giới thiệu tính năng gọi trực tiếp cho ChatGPT mà không cần internet

Ngân hàng tăng ca thứ 7, chủ nhật hỗ trợ cập nhật tài khoản trước hạn 1/1/2025

Chuyên mục UH Plus
20/12/2024 11:28

Một loạt ngân hàng như VietinBank, Agribank, Vietcombank,… mở cửa giao dịch ngày cuối tuần phục vụ khách hàng cập nhật thông tin giấy tờ tuỳ thân và xác thực sinh trắc họ...

Bộ Công an quy định tài xế không được lái xe quá 48h/ tuần

Chuyên mục UH Plus
20/12/2024 11:27

Theo quy định mới nhất của Bộ Công an, từ năm 2025, lái xe kinh doanh vận tải, xe ô tô chở người từ 8 chỗ trở lên không lái xe quá 10 giờ/ ngày và quá 48 giờ/ tuần.

Từ năm 2025: Phân cấp quản lý, vận hành camera giao thông theo tuyến đường

Chuyên mục UH Plus
20/12/2024 11:25

Bộ Công an mới ban hành Thông tư 83/2024/TT-BCA trong đó quy định, từ 1/1/2025 sẽ phân cấp quản lý, vận hành hệ thống giám sát giao thông theo các tuyến đường.

Bán hơn 10tr6 ghế, HN-HCM là đường bay nội địa đông đúc thứ 4 thế giới năm 2024

Chuyên mục Ngày
19/12/2024 09:39

Bán hơn 10tr6 ghế, HN-HCM là đường bay nội địa đông đúc thứ 4 thế giới năm 2024

Thời hạn cấp lại chứng nhận đăng ký xe, biển số xe từ ngày 1/1/2025 là bao lâu?

Chuyên mục UH Plus
19/12/2024 09:36

Thời hạn cấp lại chứng nhận đăng ký xe, biển số xe từ ngày 1/1/2025 được quy định tại Thông tư 79/2024/TT-BCA do Bộ Công an ban hành.

Thủ tướng: Bảo đảm công chức, viên chức, người lao động được chi trả đầy đủ lương, tiền thưởng Tết

Chuyên mục UH Plus
19/12/2024 09:24

Thủ tướng vừa ký ban hành Chỉ thị về việc tăng cường các biện pháp bảo đảm đón Tết Nguyên đán Ất Tỵ năm 2025 vui tươi, lành mạnh, an toàn, tiết kiệm

iPhone 17 Air hay iPhone Fold sẽ là thứ giúp Apple tạo ra "super cycle" mới?

Chuyên mục Ngày
18/12/2024 10:48

iPhone 17 Air hay iPhone Fold sẽ là thứ giúp Apple tạo ra "super cycle" mới?

TPHCM sẵn sàng ứng phó với dịch bệnh lạ ở Congo

Chuyên mục UH Plus
18/12/2024 10:46

Trước bối cảnh một dịch bệnh chưa rõ nguyên nhân đang bùng phát tại Cộng hoà dân chủ Congo, ngành y tế TPHCM đang theo dõi sát tình hình diễn biến dịch; đồng thời chuẩn b...