Vào ngày 16 tháng 4 năm 2025, OpenAI đã chính thức giới thiệu hai mô hình suy luận AI mới: o3 và o4-mini. Sự ra mắt này đánh dấu một bước nhảy vọt đáng kể trong năng lực trí tuệ nhân tạo của công ty, điều mà chúng ta có thể thấy rõ nhất qua khả năng suy luận hình ảnh tiên tiến của chúng. Các mô hình này hứa hẹn sẽ mở ra nhiều ứng dụng mới và nâng cao trải nghiệm người dùng với AI.
Khả Năng “Tư Duy” Với Hình Ảnh Của Các Mô Hình AI Mới
OpenAI khẳng định rằng các mô hình AI mới này có thể diễn giải bất kỳ hình ảnh nào mà người dùng tải lên, chẳng hạn như một bản phác thảo trên bảng trắng, biểu đồ trong sách giáo khoa, hay một tệp PDF có đồ họa. Thông báo ra mắt OpenAI o3 và o4-mini đã nêu rõ:
“Chúng không chỉ đơn thuần nhìn thấy một hình ảnh—chúng tư duy với nó. Điều này mở khóa một loại giải pháp vấn đề mới, kết hợp suy luận thị giác và văn bản, được phản ánh qua hiệu suất vượt trội của chúng trên các tiêu chuẩn đa phương thức.”
Quá trình phân tích hình ảnh được tích hợp trực tiếp vào chuỗi suy luận (chain of thought reasoning) mà các mô hình thực hiện. Các mô hình AI này có thể phóng to, xoay hoặc cắt ảnh để cải thiện khả năng xử lý của chúng, đồng thời vẫn hoạt động hiệu quả ngay cả với những hình ảnh có chất lượng thấp.
Mô hình AI o4-mini của ChatGPT mô tả chi tiết hình ảnh chiếc xe hơi cổ điển, thể hiện khả năng suy luận thị giác vượt trội.
Ví dụ, khi giải quyết một bài toán khoa học liên quan đến biểu đồ, mô hình có thể phóng to một phần cụ thể của hình ảnh, thực hiện các phép tính bằng Python và sau đó tạo ra một biểu đồ để giải thích những phát hiện của mình. Điều này minh họa khả năng kết hợp đa giác quan và công cụ của AI.
Tích Hợp Công Cụ Đa Dạng và Khả Năng Tự Chủ
Trong quá trình suy luận, các mô hình o3 và o4-mini có thể sử dụng linh hoạt tất cả các công cụ có sẵn của ChatGPT, bao gồm duyệt web, thực thi mã Python và tạo hình ảnh. Khả năng “tác nhân” (agentic capability) này cho phép chúng tự động lựa chọn công cụ ChatGPT lý tưởng cho một nhiệm vụ cụ thể. Nhờ đó, người dùng và nhà phát triển có thể thực hiện các quy trình làm việc đa bước và giải quyết các nhiệm vụ phức tạp một cách hiệu quả.
Ứng Dụng Thực Tiễn Của O4-Mini-High
Mô hình o4-mini-high là một biến thể của o4-mini, được thiết kế để dành nhiều thời gian và tài nguyên tính toán hơn cho mỗi yêu cầu, nhằm mang lại kết quả chất lượng cao hơn. Một số trường hợp ứng dụng hàng ngày có thể kể đến:
- Nghiên cứu khoa học và kỹ thuật: Tạo và đánh giá các nghiên cứu trong các lĩnh vực STEM như sinh học, kỹ thuật, đưa ra lý giải chi tiết từng bước và giải thích trực quan.
- Phân tích kinh doanh: Tìm kiếm và đối chiếu thông tin từ nhiều nguồn khác nhau, như cơ sở dữ liệu trực tuyến, báo cáo tài chính, dữ liệu thị trường và biểu đồ, để tạo ra các hiểu biết sâu sắc về kinh doanh.
Các mô hình này đã được huấn luyện thông qua học tăng cường (reinforcement learning), một khái niệm cốt lõi trong AI. Giờ đây, chúng có thể xử lý tốt hơn các vấn đề “mơ hồ” vì chúng có khả năng suy luận khi nào nên sử dụng một công cụ cụ thể để đạt được kết quả mong muốn.
Các mô hình o3, o4-mini và o4-mini-high hiện đã có sẵn cho tất cả người dùng có tài khoản ChatGPT Plus, Pro và Team. Riêng o3-pro dự kiến sẽ ra mắt trong những tuần tới. Bạn có thể tìm thấy chúng trong menu lựa chọn mô hình. Đối với người dùng miễn phí, bạn có thể trải nghiệm mô hình o4-mini bằng cách chọn tùy chọn “Think” trong trình soạn thảo trước khi gửi yêu cầu.
Vì Sao Khả Năng Đa Phương Thức Của ChatGPT Lại Đáng Kinh Ngạc?
Bằng cách cho phép AI “tư duy với hình ảnh”, các mô hình mới của OpenAI có thể giải quyết những vấn đề trong thế giới thực đòi hỏi khả năng diễn giải cả văn bản và hình ảnh. Điều này bao gồm việc gỡ lỗi mã từ ảnh chụp màn hình, đọc văn bản viết tay, phân tích biểu đồ khoa học hoặc trích xuất thông tin chi tiết từ các biểu đồ phức tạp. Kết quả là, ChatGPT đã trở nên nhận biết ngữ cảnh hơn đáng kể.
Các mô hình này giờ đây tự chủ hơn và có thể hoạt động hiệu quả hơn, độc lập điều chỉnh một mô hình cụ thể cho một nhiệm vụ. Khi các tác nhân AI tự chủ này có thể xử lý các nhiệm vụ phức tạp, đa bước, khả năng suy luận và trí thông minh thị giác của chúng trở nên cực kỳ quan trọng đối với các lĩnh vực như nghiên cứu, kinh doanh và công việc sáng tạo.
Bạn nghĩ sao về bước tiến mới này của OpenAI? Khả năng suy luận hình ảnh của AI sẽ thay đổi cách chúng ta tương tác với công nghệ như thế nào? Hãy chia sẻ ý kiến của bạn trong phần bình luận bên dưới!