Anh em có ủng hộ? Google vẫn dùng nội dung web để huấn luyện AI tìm kiếm ngay cả khi bị từ chối!

04/05/2025 08:51
Google vẫn dùng nội dung web để huấn luyện AI tìm kiếm, ngay cả khi bị từ chối!

Trong bản cập nhật chính sách hôm 3/5, Google nói rằng họ sẽ có quyền sử dụng nội dung công khai trên website để huấn luyện các mô hình trí tuệ nhân tạo AI dùng cho tìm kiểm, kể cả khi trang web đó có dùng đến các công cụ như ”robots.txt” để ngăn chặn và từ chối việc thu thập dữ liệu của AI.


Trước đây, chủ của các trang web có thể dùng file “robots.txt” để chặn trình thu thập dữ liệu của Google - Googlebot không thu thập thông tin, đặc biệt là cho mục đích huấn luyện AI. Nhưng trong chính sách quyền riêng tư mới cập nhật, Google lại nói rằng chỉ những công cụ AI cho mục đích tổng quát mới phải tuân theo (ví dụ như Gemini). Còn như hệ thống AI dành riêng cho tìm kiếm như Search Generative Experience sẽ không bị ràng buộc bởi điều đó. Tức là nếu nội dung trên web của bạn mà hiển thị công khai trong kết quả tìm kiếm thì Google có thể thoải mái dùng nó để huấn luyện AI cho tìm kiếm, kể cả khi chủ website có không đồng ý đi chăng nữa.


Nhắc lại chút, robots.txt là một tệp văn bản nhỏ được đặt tại thư mục gốc của một trang web (ví dụ: example.com/robots.txt) để hướng dẫn các trình thu thập dữ liệu (crawler/bot) – như Googlebot – rằng phần nào của trang web nên hoặc không nên được truy cập hoặc lập chỉ mục. Trình thu thập dữ liệu đọc file này trước khi vào trang web, nhưng nó không bắt buộc các bot phải tuân thủ và chỉ là lời đề nghị lịch sự.


Các chuyên gia lo ngại động thái này làm suy yếu nỗ lực bảo vệ quyền kiểm soát dữ liệu của các nhà xuất bản và chủ website trong việc ngăn chặn dữ liệu của họ bị AI sử dụng, nội dung bị trích xuất mà không xin phép hoặc trả phí. Họ cho rằng Google đang lách luật (nói cho đúng thì lách một vùng giữa luật và đạo đức dữ liệu) bằng cách chia nhỏ mục đích huấn luyện AI, chỉ tôn trọng robots.txt đối với các mô hình AI tổng quát, coi tìm kiếm là ngoại lệ. Nhất là khi động thái này lại diễn ra trong bối cảnh ngành công nghệ đang đối mặt với chỉ trích ngày càng tăng về việc sử dụng dữ liệu công khai trên Internet để huấn luyện các mô hình AI mà không xin phép. Chuyên gia SEO Danny Richman mô tả hành động của Google như kiểu người ta dán bảng cấm quay phim nhưng bạn livestream nó rồi kêu không tính.


Tính đến hiện tại thì OpenAI có vẻ là công ty minh bạch nhất về quyền dữ liệu khi chỉ dùng dữ liệu từ web cho phép và có cả động thái đàm phán bản quyền. Google thì lên tiếng lách luật, Meta thì âm thầm thu thập và không nói rõ về điều gì, Microsoft thì gián tiếp thông qua sử dụng dữ liệu qua hợp tác với OpenAI và các sản phẩm như Bing.


Tin xem thêm

Bản cập nhật Xiaomi HyperOS 4: sắp phát hành chính thức!

Chuyên mục UH Vip
25/06/2026 10:53

MXH mygo - Bản cập nhật Xiaomi HyperOS 4: Các thiết bị được hỗ trợ, ngày phát hành...

Thái Lan chặn 13.888 trang web cá cược World Cup trong 18 ngày bằng trí tuệ nhân tạo.

Chuyên mục UH Vip
24/06/2026 14:48

MXH mygo - Chính phủ Thái Lan chặn thành công 13.888 trang web cá cược World Cup, và chưa dừng lại..

Công ty tư nhân Effissimo vượt qua Sony và trở thành cổ đông lớn nhất của Tamron.

Chuyên mục UH Vip
24/06/2026 10:46

MXH mygo - Công ty tư nhân Effissimo vượt qua Sony và trở thành cổ đông lớn nhất của Tamron.

Các đợt sa thải lớn trong lĩnh vực công nghệ năm 2026 viện dẫn lý do là AI

Chuyên mục UH Vip
23/06/2026 10:12

MXH mygo - Danh sách đang được cập nhật: các đợt sa thải lớn trong lĩnh vực công nghệ năm 2026 mà nhà tuyển dụng viện dẫn lý do là trí tuệ nhân tạo (AI).

Apple đã phê duyệt sản xuất tấm nền OLED cho iPhone màn hình gập

Chuyên mục UH Vip
23/06/2026 09:58

MXH mygo - Samsung Display đã nhận được sự chấp thuận của Apple để bắt đầu sản xuất mô-đun tấm nền OLED cho chiếc iPhone màn hình gập đầu tiên của Apple.

Apple sẽ ra mắt loạt sản phẩm mới từ nay tới hết năm 2027

Chuyên mục UH Vip
22/06/2026 11:19

MXH mygo - Hội nghị các nhà phát triển WWDC thường niên của Apple đã kết thúc, nhưng vẫn còn rất nhiều điều đáng mong chờ trong năm tới và xa hơn nữa.

iPhone gập - tiếp tục có những luồng tin đồn khác nhau về sự tồn tại

Chuyên mục UH Vip
22/06/2026 10:54

MXH mygo - Nguồn tin rò rỉ cho rằng tin đồn về việc iPhone màn hình gập bị trì hoãn là "sai sự thật".

Lenovo ra mắt ThinkPad 16 inch mới với RAM LPCAMM2 64 GB và màn hình OLED 1.500 nit.

Chuyên mục UH Vip
21/06/2026 11:24

MXH mygo - Lenovo chính thức giới thiệu ThinkPad 16 inch hoàn toàn mới với RAM LPCAMM2 64 GB và màn hình OLED 1.500 nit.

iOS 27 thực sự có làm tăng tốc độ cho các thiết bị cũ?

Chuyên mục UH Vip
21/06/2026 11:06

MXH mygo - Những cải tiến về tốc độ của iOS 27 sẽ không có tác động riêng lẻ, nhưng sẽ có tác động tổng thể.