Dữ liệu dùng để đào tạo mô hình AI đang cạn dần

Dữ liệu dùng để đào tạo mô hình AI đang cạn dần

Trong nhiều năm, những người xây dựng các hệ thống trí thông minh nhân tạo đã sử dụng vô số văn bản, hình ảnh và video từ internet để đào tạo mô hình của họ. Bây giờ, những dữ liệu đó đang cạn dần. 

Trong một năm vừa qua, nhiều nguồn web quan trọng nhất được sử dụng để đào tạo các mô hình AI đã hạn chế việc sử dụng dữ liệu của họ, theo một nghiên cứu được công bố trong tuần này bởi Data Provenance Initiative, một nhóm nghiên cứu do MIT dẫn đầu.

Nghiên cứu này, xem xét 14.000 tên miền web có trong ba bộ dữ liệu đào tạo AI, đã phát hiện ra một “cuộc khủng hoảng mới về sự đồng ý [việc sử dụng dữ liệu]”, khi các nhà xuất bản và nền tảng online đã thực hiện các biện pháp để ngăn chặn việc thu thập dữ liệu của họ.

Các nhà nghiên cứu ước tính rằng trong ba bộ dữ liệu (được gọi là C4, RefinedWeb và Dolma), 5% tổng dữ liệu, và 25% dữ liệu từ các nguồn chất lượng cao nhất đã bị hạn chế. Những hạn chế đó được thiết lập thông qua Robots Exclusion Protocol (Giao thức loại trừ robot), một phương pháp đã có từ lâu dành cho chủ sở hữu trang web nhằm ngăn chặn các bot tự động thu thập dữ liệu trang web của họ bằng cách sử dụng tệp có tên robots.txt. Nghiên cứu cũng phát hiện ra rằng có tới 45% dữ liệu trong bộ C4 đã bị hạn chế bởi các điều khoản dịch vụ của trang web.

“Chúng tôi đang chứng kiến sự sụt giảm nhanh chóng về sự đồng ý sử dụng dữ liệu trên web, điều này sẽ gây ra những hậu quả không chỉ đối với AI, mà còn với các nhà nghiên cứu, giới học giả, và các tổ chức phi thương mại,” Shayne Longpre, tác giả chính của nghiên cứu, cho biết.

Dữ liệu là nguyên liệu chính trong các hệ thống AI, vốn được “bơm vào” hàng tỷ ví dụ về văn bản, hình ảnh và video. Phần lớn dữ liệu đó được các nhà nghiên cứu lấy từ các trang web công cộng và biên soạn thành các bộ dữ liệu lớn, có thể tải xuống và sử dụng miễn phí hoặc bổ sung dữ liệu từ các nguồn khác.

Học hỏi từ dữ liệu đó là điều cho phép các công cụ AI như ChatGPT của OpenAI, Gemini của Google và Claude của Anthropic viết văn bản mới, viết code, và tạo hình ảnh cũng như video. Càng nhiều dữ liệu chất lượng cao được đưa vào các mô hình này thì kết quả đầu ra của chúng nhìn chung càng tốt.

Trong nhiều năm, các nhà phát triển AI đã có thể thu thập dữ liệu khá dễ dàng. Nhưng sự bùng nổ rộng rãi của AI tạo sinh trong vài năm qua đã dẫn đến căng thẳng với những người sở hữu dữ liệu đó. Nhiều người trong số họ nghi ngại về việc dữ liệu của họ bị sử dụng làm công cụ đào tạo AI hoặc ít nhất là muốn được trả tiền cho việc đó.

Khi phản ứng dữ dội ngày càng tăng, một số nhà xuất bản đã thiết lập tường phí (paywall) hoặc thay đổi điều khoản dịch vụ của họ để hạn chế việc sử dụng dữ liệu của họ cho hoạt động đào tạo AI. Những người khác đã chặn các trình thu thập dữ liệu web tự động được các công ty như OpenAI, Anthropic và Google sử dụng.

Các trang web như Reddit và StackOverflow đã bắt đầu tính phí các công ty AI truy cập dữ liệu và một số nhà xuất bản đã có hành động pháp lý, ví dụ như The New York Times đã kiện OpenAI và Microsoft vì vi phạm bản quyền vào năm ngoái, cáo buộc các công ty này đã sử dụng các bài báo của tờ báo này để đào tạo mô hình của họ mà không xin phép.

Các công ty như OpenAI, Google và Meta đã nỗ lực hết sức trong những năm gần đây để thu thập thêm dữ liệu nhằm cải thiện hệ thống của họ, bao gồm cả việc phiên âm video YouTube và bẻ cong chính sách dữ liệu của riêng họ. Gần đây hơn, một số công ty AI đã đạt được thỏa thuận với các nhà xuất bản bao gồm Associated Press và News Corp, chủ sở hữu của The Wall Street Journal, cho phép họ truy cập liên tục vào nội dung của các nhà xuất bản này.

Nhưng những hạn chế về dữ liệu ngày càng được áp dụng nhiều hơn có thể gây ra mối đe dọa cho các công ty AI, vốn cần nguồn cung cấp dữ liệu chất lượng cao ổn định để giữ cho mô hình của họ luôn mới và cập nhật.

Điều cũng có thể gây khó khăn cho các công ty AI nhỏ hơn và giới học thuật, những người thường dựa vào các bộ dữ liệu công cộng, và không đủ khả năng tài chính để được cấp phép sử dụng dữ liệu trực tiếp từ các nhà xuất bản. Common Crawl, một bộ dữ liệu như vậy bao gồm hàng tỷ trang nội dung web và được duy trì bởi một tổ chức phi lợi nhuận, đã được trích dẫn trong hơn 10.000 nghiên cứu học thuật.

Không rõ mô hình AI nào đã được đào tạo trên các nguồn này vì rất ít nhà phát triển tiết lộ danh sách đầy đủ dữ liệu họ sử dụng. Nhưng các bộ dữ liệu có nguồn gốc từ Common Crawl, bao gồm C4 (viết tắt của Colossal, Cleaned Crawled Corpus) đã được các công ty bao gồm Google và OpenAI sử dụng để đào tạo các phiên bản trước đó các mô hình AI của họ.

Cuộc khủng hoảng về sự đồng thuận trong việc sử dụng dữ liệu để đào tạo các mô hình AI là một phản ứng tự nhiên đối với các hoạt động thu thập dữ liệu “không chừa thứ gì” của ngành công nghiệp AI. Nhưng nếu dữ liệu cần sự cho phép mới được sử dụng thì điều này sẽ ngăn cản các nhà nghiên cứu tham gia vào quá trình quản lý công nghệ. Các công ty công nghệ lớn đã có tất cả dữ liệu nên việc thay đổi li-xăng về việc sử dụng các dữ liệu này sẽ không thu hồi quyền sử dụng dữ liệu trước đó, và những công ty khởi nghiệp và những nhà nghiên cứu là những đối tượng bị tác động đầu tiên từ việc này.

Các công ty AI đã tuyên bố rằng việc sử dụng dữ liệu web công cộng của họ được bảo vệ hợp pháp theo nguyên tắc sử dụng hợp lý (fair use). Nhưng việc thu thập dữ liệu mới đã trở nên phức tạp hơn. Một số công ty AI đang lo lắng về việc gặp phải “bức tường dữ liệu” (data wall), thời điểm mà tất cả dữ liệu đào tạo trên internet công cộng đã cạn kiệt và phần còn lại bị ẩn sau các bức tường trả phí, bị chặn bởi robot. txt hoặc bị khóa trong các giao dịch độc quyền.

Một số công ty tin rằng họ có thể mở rộng bức tường dữ liệu bằng cách sử dụng dữ liệu tổng hợp, tức là dữ liệu do chính hệ thống AI tạo ra, để đào tạo các mô hình của họ. Nhưng nhiều nhà nghiên cứu nghi ngờ rằng các hệ thống AI ngày nay có khả năng tạo ra đủ dữ liệu tổng hợp chất lượng cao để thay thế dữ liệu do con người tạo ra.