OpenAI vô tình xoá một lượng lớn dữ liệu khi đang điều tra vi phạm bản quyền với The New York Times

22/11/2024 12:43
OpenAI vô tình xoá một lượng lớn dữ liệu khi đang điều tra vi phạm bản quyền với The New York Times

The New York Times (NYT) đang tiến hành vụ kiện chống lại MicrosoftOpenAI với cáo buộc sử dụng trái phép dữ liệu và nội dung của họ để huấn luyện các mô hình AI. Trong quá trình điều tra, OpenAI đã vô tình xóa một phần dữ liệu quan trọng, gây ra nhiều tranh cãi.


Những tranh chấp pháp lý giữa các công ty công nghệ về AI không phải là điều mới mẻ. Trước đây đã tồn tại nhiều vụ kiện nổi bật, đơn cử như việc Matthew Butterick, một nhà thiết kế chuyển sang làm luật sư, đang thực hiện những vụ kiện các công ty lớn như OpenAI, Meta, Stability AI, Midjourney, DeviantArt và GitHub. Ông thách thức tính hợp pháp của việc sử dụng các tác phẩm có bản quyền để huấn luyện mô hình AI tạo sinh mà không có sự đồng ý của người sáng tạo. 


Vụ kiện của NYT với Microsoft và OpenAI là một trong những tranh chấp nổi bật nhất hiện nay, khi NYT cáo buộc rằng OpenAI đã sử dụng trái phép nội dung của họ để huấn luyện các công cụ như ChatGPT.


Hiện tại, hai bên đang trong giai đoạn khám phá chứng cứ, với các tài liệu và thông tin cần thiết được trao đổi để làm bằng chứng. Với OpenAI, họ bị toà án buộc phải cung cấp cho NYT tập dữ liệu mà họ sử dụng để huấn luyện. Đây là một vấn đề lớn vì trước đây OpenAI chưa bao giờ công khai thông tin này. Để đáp ứng yêu cầu, OpenAI đã tạo ra một môi trường “sandbox” gồm hai máy ảo để luật sư của NYT có thể xem xét dữ liệu.


Ngoài ra, NYT cũng yêu cầu OpenAI và Microsoft cung cấp nội dung chat trên Slack, tin nhắn và dữ liệu mạng xã hội của các thành viên quan trọng trong OpenAI, kể cả những người đã nghỉ việc như Ilya Slutskeve hay Mira Murati. Trong trường hợp Mira Murati, cựu CTO của công ty đã từ chối cho phép truy cập vào điện thoại cá nhân của cô. 


Với dữ liệu được cung cấp, NYT đã bỏ ra hơn 150 giờ để xem xét, sắp xếp tuy nhiên các kĩ sư của OpenAI đã vô tình xoá một phần dữ liệu này trên 1 máy chủ. Sau khi sự cố xảy ra, OpenAI đã cố gắng phục hồi nhiều nhất có thể. Tuy nhiên theo NYT, nội dung được phục hồi vẫn thiếu khá nhiều so với ban đầu, đồng thời cấu trúc tập tin, dữ liệu không giống như cách mà NYT đã sắp xếp. Điều này có nghĩa là các luật sư của NYT sẽ phải sắp xếp lại mọi thứ từ đầu trước khi tiếp tục việc phân tích liệu OpenAI có sử dụng trái phép nội dung hay không. Đây là sự tốn kém về mặt chi phí và nhân lực. Tuy nhiên, NYT cũng cho rằng OpenAI không cố tình xoá những dữ liệu này. 


Ngoài ra, quá trình làm việc giữa OpenAI và NYT không thật sự trơn tru khi mỗi bên có quan điểm khác nhau về việc ai sẽ là người xử lý dữ liệu. Lập trường của NYT cho rằng OpenAI có đủ khả năng hơn để thực hiện vì họ có quyền truy cập đầy đủ và kiểm soát các tập dữ liệu cũng như công cụ của mình. Điều này hoàn toàn hợp lý nếu xét ở quan điểm rằng các tập dữ liệu của OpenAI rất lớn và phức tạp, khiến các bên bên ngoài gặp khó khăn khi tiếp cận mà không có sự hỗ trợ kỹ thuật. Ngoài ra, quá trình đánh giá, xem xét dữ liệu này cũng gặp nhiều thách thức khi có “những vấn đề kỹ thuật nghiêm trọng và lặp đi lặp lại” đã cản trở khả năng tìm kiếm hiệu quả và nhanh chóng qua các tập dữ liệu. Những vấn đề này rõ ràng tạo ra sự kém hiệu quả trong việc tìm kiếm và phân tích thông tin để xác định liệu OpenAI có sử dụng trái phép nội dung của NYT hay không


Trong suốt quá trình điều tra này, Microsoft cũng kiện ngược lại và yêu cầu NYT cung cấp các tài liệu liên quan đến việc sử dụng AI tạo sinh của họ, bao gồm thông tin về cách tờ báo sử dụng các công cụ AI. Microsoft lập luận rằng nếu NYT cũng sử dụng các công cụ AI tạo sinh, nó cho thấy công nghệ này đã mang lại tác động tích cực cho tờ báo thay vì gây hại. Lập luận này có thể làm suy yếu các tuyên bố của NYT rằng các mô hình AI từ các công ty như OpenAI và Microsoft đã ảnh hưởng tiêu cực đến hoạt động kinh doanh của họ bằng cách làm giảm lượng đăng ký, thỏa thuận cấp phép hoặc doanh thu quảng cáo.


Tin xem thêm

OpenAI giới thiệu tính năng gọi trực tiếp cho ChatGPT mà không cần internet

Chuyên mục Ngày
20/12/2024 11:32

OpenAI giới thiệu tính năng gọi trực tiếp cho ChatGPT mà không cần internet

Ngân hàng tăng ca thứ 7, chủ nhật hỗ trợ cập nhật tài khoản trước hạn 1/1/2025

Chuyên mục UH Plus
20/12/2024 11:28

Một loạt ngân hàng như VietinBank, Agribank, Vietcombank,… mở cửa giao dịch ngày cuối tuần phục vụ khách hàng cập nhật thông tin giấy tờ tuỳ thân và xác thực sinh trắc họ...

Bộ Công an quy định tài xế không được lái xe quá 48h/ tuần

Chuyên mục UH Plus
20/12/2024 11:27

Theo quy định mới nhất của Bộ Công an, từ năm 2025, lái xe kinh doanh vận tải, xe ô tô chở người từ 8 chỗ trở lên không lái xe quá 10 giờ/ ngày và quá 48 giờ/ tuần.

Từ năm 2025: Phân cấp quản lý, vận hành camera giao thông theo tuyến đường

Chuyên mục UH Plus
20/12/2024 11:25

Bộ Công an mới ban hành Thông tư 83/2024/TT-BCA trong đó quy định, từ 1/1/2025 sẽ phân cấp quản lý, vận hành hệ thống giám sát giao thông theo các tuyến đường.

Bán hơn 10tr6 ghế, HN-HCM là đường bay nội địa đông đúc thứ 4 thế giới năm 2024

Chuyên mục Ngày
19/12/2024 09:39

Bán hơn 10tr6 ghế, HN-HCM là đường bay nội địa đông đúc thứ 4 thế giới năm 2024

Thời hạn cấp lại chứng nhận đăng ký xe, biển số xe từ ngày 1/1/2025 là bao lâu?

Chuyên mục UH Plus
19/12/2024 09:36

Thời hạn cấp lại chứng nhận đăng ký xe, biển số xe từ ngày 1/1/2025 được quy định tại Thông tư 79/2024/TT-BCA do Bộ Công an ban hành.

Thủ tướng: Bảo đảm công chức, viên chức, người lao động được chi trả đầy đủ lương, tiền thưởng Tết

Chuyên mục UH Plus
19/12/2024 09:24

Thủ tướng vừa ký ban hành Chỉ thị về việc tăng cường các biện pháp bảo đảm đón Tết Nguyên đán Ất Tỵ năm 2025 vui tươi, lành mạnh, an toàn, tiết kiệm

iPhone 17 Air hay iPhone Fold sẽ là thứ giúp Apple tạo ra "super cycle" mới?

Chuyên mục Ngày
18/12/2024 10:48

iPhone 17 Air hay iPhone Fold sẽ là thứ giúp Apple tạo ra "super cycle" mới?

TPHCM sẵn sàng ứng phó với dịch bệnh lạ ở Congo

Chuyên mục UH Plus
18/12/2024 10:46

Trước bối cảnh một dịch bệnh chưa rõ nguyên nhân đang bùng phát tại Cộng hoà dân chủ Congo, ngành y tế TPHCM đang theo dõi sát tình hình diễn biến dịch; đồng thời chuẩn b...