Để tạo ra AI thông minh hơn, các nhà nghiên cứu đang cần những giải pháp huấn luyện mới

13/11/2024 10:17
Để tạo ra AI thông minh hơn, các nhà nghiên cứu đang cần những giải pháp huấn luyện mới


Những startup và đơn vị nghiên cứu AI nổi bật nhất trên thị trường hiện nay đang phải tìm ra những cách mới để huấn luyện cũng như đánh giá sức mạnh của những mô hình ngôn ngữ AI thế hệ mới, một phần của những nỗ lực giúp trí tuệ nhân tạo có thể mô phỏng cách bộ não con người suy nghĩ.


Trao đổi với Reuters, nhiều nhà nghiên cứu AI đã cho biết, những kỹ thuật mới đã được ứng dụng trong quá trình huấn luyện mô hình o1 mới được OpenAI ra mắt. Những kỹ thuật huấn luyện này, theo họ, có thể thay đổi cuộc chạy đua AI toàn cầu, cũng như thay đổi được cả nhu cầu hiệu năng xử lý của data center, nhu cầu chip xử lý và cả nhu cầu năng lượng để vận hành những data center khổng lồ.


Đại diện của OpenAI thì từ chối bình luận về việc họ đã ứng dụng giải pháp huấn luyện mô hình ngôn ngữ mới như thế nào.


Để dễ hiểu thì 2 năm qua, kể từ khi ChatGPT chính thức ra mắt tháng 11/2022, giải pháp cơ bản để tạo ra những mô hình ngôn ngữ với lượng tham số càng lúc càng cao là đẩy quy mô phần cứng máy chủ đám mây dùng trong quá trình huấn luyện và vận hành mô hình. Hiệu năng xử lý của máy chủ đám mây tăng theo tỷ lệ thuận với lượng dữ liệu các nhà nghiên cứu và các kỹ sư AI cần để huấn luyện mô hình mới, để thuật toán machine learning học được những nội dung do con người tạo ra.


Nhưng hiện giờ, nhiều nhà nghiên cứu AI đã đề xuất những giải pháp mới, và cách huấn luyện mô hình AI theo kiểu “lớn hơn là tốt hơn” giờ không còn hợp thời nữa.


Ilya Sutskever, đồng sáng lập OpenAI, người từng nắm vị trí giám đốc khoa học startup này, hiện tại đang sáng lập và làm việc cho Safe Superintelligence gần đây trả lời phỏng vấn Reuters, rằng giải pháp phổ biến hiện giờ đã có dấu hiệu chững lại. Giải pháp này là mở rộng quy mô quá trình pre-training, sử dụng dữ liệu huấn luyện do con người tạo ra, nhưng không đánh dấu nội dung, để mô hình AI hiểu kết cấu và mẫu của từng loại ngôn ngữ tự nhiên.


Ở thời điểm sáng lập và làm việc cho OpenAI, Sutskever chính là người mở ra định hướng mở rộng quy mô huấn luyện ở bước pre-training, với lượng dữ liệu khổng lồ dạy cho mô hình AI hiểu cách ngôn ngữ kết cấu ra sao: “Những năm cuối thập niên 2010 chính là thời điểm các nhà nghiên cứu đẩy quy mô huấn luyện mô hình AI lên ngưỡng cực đại. Còn bây giờ chúng ta lại quay về thời điểm tìm hiểu và thử nghiệm, khám phá lại từ đầu. Ai cũng đang tìm kiếm bước đi kế tiếp. Đẩy quy mô nghiên cứu đúng đắn là thứ quan trọng hơn bao giờ hết.”


Tuy nhiên, Sutskever lại bảo vệ bí mật nghiên cứu và kinh doanh bằng cách từ chối trả lời câu hỏi của Reuters về việc SSI đã và đang làm gì để vượt qua giới hạn của kỹ thuật huấn luyện mô hình AI hiện tại.


Cũng vì những giới hạn của quá trình pre-training, không thể cứ ném dữ liệu và hiệu năng xử lý của máy chủ vào mô hình AI mới nữa, nên các nhà nghiên cứu tại các lab phát triển AI hàng đầu thế giới hiện giờ đang phải trì hoãn ra mắt nhiều mô hình mới. Hầu hết chúng đều lấy GPT-4, ra mắt gần 2 năm về trước, làm hệ quy chiếu so sánh.


Những quá trình huấn luyện mô hình AI dưới dạng pre-training có thể ngốn của các startup và đơn vị nghiên cứu AI hàng chục triệu USD chi phí vận hành, bằng cách cho chạy trên những máy chủ với hàng trăm chip xử lý AI cao cấp. Rồi quá trình ấy cũng phải mất vài tháng. Trong suốt quá trình pre-training, nếu có vấn đề xảy đến với mô hình AI, do phần cứng gây ra, thì các nhà nghiên cứu AI cũng không có cách nào phát hiện ra sớm để điều chỉnh lại, từ đó cải thiện hiệu quả nội suy của mô hình AI.


Vấn đề thứ ba, là lượng dữ liệu khổng lồ cần để thực hiện quá trình pre-training. Hiện giờ nội dung văn bản và ngôn ngữ tự nhiên do con người tạo ra đã được sử dụng gần hết. Rất có thể trong tương lai những mô hình AI mới sẽ được huấn luyện dựa trên dữ liệu phái sinh do AI tạo ra và tổng hợp lại.


Vấn đề thứ 4 là nhu cầu điện năng. Một data center với hàng trăm GPU vận hành đồng thời ngốn rất nhiều điện.


Để giải quyết những vấn đề kể trên, các nhà nghiên cứu đã nghĩ ra một giải pháp mới gọi là “test-time compute”. Kỹ thuật này cải thiện sức mạnh của những mô hình AI đang có, tăng hiệu năng và chất lượng nội dung mà AI tạo ra trong quá trình nội suy. Lấy ví dụ, thay vì ngay lập tức chọn ra 1 câu trả lời cho prOmpt của anh em, AI sẽ tạo ra và cân nhắc vài kết quả theo thời gian thực, rồi chọn ra câu trả lời mà nó nghĩ là tốt nhất.


Giải pháp này cho phép những mô hình AI dành ra sức mạnh xử lý nội suy để giải quyết những nhiệm vụ khó như giải toán hay lập trình, hoặc những nhiệm vụ phức tạp, đòi hỏi tư duy lý lẽ, mục tiêu ban đầu của các nhà phát triển AI, bắt thuật toán và máy móc suy nghĩ như não bộ con người.


Noam Brown, một nhà nghiên cứu tại OpenAI, người góp công sức phát triển o1 tháng trước đã có bài thuyết trình tại TED AI tổ chức ở San Francisco, Mỹ: “Hóa ra để một mô hình AI nghĩ 20 giây để giải quyết một vấn đề tạo ra hiệu năng tương đương với việc mở rộng quy mô tham số mô hình lên 100 nghìn lần, và huấn luyện nó trong khoảng thời gian lâu hơn 100 nghìn lần.” o1 có hiệu năng ấn tượng nhờ vào việc nó được huấn luyện thêm, bên cạnh quá trình huấn luyện với mô hình gốc, GPT-4.


Dự kiến, những mô hình lớn trong tương lai sẽ được OpenAI ứng dụng giải pháp huấn luyện tương tự.


Cùng lúc, Anthropic, xAI và DeepMind cũng được cho là đang phát triển giải pháp tương tự như của OpenAI.


Như đã nói, giải pháp huấn luyện mô hình AI mới hoàn toàn có thể thay đổi thị trường máy chủ đám mây và thị trường GPU máy chủ phục vụ xử lý AI. Hiện giờ những con chip của Nvidia, hay mới đây có MI325X của AMD đang là những món hàng được cả thế giới săn lùng. Các quỹ đầu tư thì chi mạnh tay để các đơn vị máy chủ đám mây mới vay tiền mua GPU phục vụ các tập đoàn công nghệ.


Tin xem thêm

OpenAI giới thiệu tính năng gọi trực tiếp cho ChatGPT mà không cần internet

Chuyên mục Ngày
20/12/2024 11:32

OpenAI giới thiệu tính năng gọi trực tiếp cho ChatGPT mà không cần internet

Ngân hàng tăng ca thứ 7, chủ nhật hỗ trợ cập nhật tài khoản trước hạn 1/1/2025

Chuyên mục UH Plus
20/12/2024 11:28

Một loạt ngân hàng như VietinBank, Agribank, Vietcombank,… mở cửa giao dịch ngày cuối tuần phục vụ khách hàng cập nhật thông tin giấy tờ tuỳ thân và xác thực sinh trắc họ...

Bộ Công an quy định tài xế không được lái xe quá 48h/ tuần

Chuyên mục UH Plus
20/12/2024 11:27

Theo quy định mới nhất của Bộ Công an, từ năm 2025, lái xe kinh doanh vận tải, xe ô tô chở người từ 8 chỗ trở lên không lái xe quá 10 giờ/ ngày và quá 48 giờ/ tuần.

Từ năm 2025: Phân cấp quản lý, vận hành camera giao thông theo tuyến đường

Chuyên mục UH Plus
20/12/2024 11:25

Bộ Công an mới ban hành Thông tư 83/2024/TT-BCA trong đó quy định, từ 1/1/2025 sẽ phân cấp quản lý, vận hành hệ thống giám sát giao thông theo các tuyến đường.

Bán hơn 10tr6 ghế, HN-HCM là đường bay nội địa đông đúc thứ 4 thế giới năm 2024

Chuyên mục Ngày
19/12/2024 09:39

Bán hơn 10tr6 ghế, HN-HCM là đường bay nội địa đông đúc thứ 4 thế giới năm 2024

Thời hạn cấp lại chứng nhận đăng ký xe, biển số xe từ ngày 1/1/2025 là bao lâu?

Chuyên mục UH Plus
19/12/2024 09:36

Thời hạn cấp lại chứng nhận đăng ký xe, biển số xe từ ngày 1/1/2025 được quy định tại Thông tư 79/2024/TT-BCA do Bộ Công an ban hành.

Thủ tướng: Bảo đảm công chức, viên chức, người lao động được chi trả đầy đủ lương, tiền thưởng Tết

Chuyên mục UH Plus
19/12/2024 09:24

Thủ tướng vừa ký ban hành Chỉ thị về việc tăng cường các biện pháp bảo đảm đón Tết Nguyên đán Ất Tỵ năm 2025 vui tươi, lành mạnh, an toàn, tiết kiệm

iPhone 17 Air hay iPhone Fold sẽ là thứ giúp Apple tạo ra "super cycle" mới?

Chuyên mục Ngày
18/12/2024 10:48

iPhone 17 Air hay iPhone Fold sẽ là thứ giúp Apple tạo ra "super cycle" mới?

TPHCM sẵn sàng ứng phó với dịch bệnh lạ ở Congo

Chuyên mục UH Plus
18/12/2024 10:46

Trước bối cảnh một dịch bệnh chưa rõ nguyên nhân đang bùng phát tại Cộng hoà dân chủ Congo, ngành y tế TPHCM đang theo dõi sát tình hình diễn biến dịch; đồng thời chuẩn b...