“OpenAI vừa phát hành GPT-4 mới, có khả năng hiểu được hình ảnh. Đây là những điều bạn cần biết.”

OpenAI là một phòng thí nghiệm nghiên cứu được thành lập bởi những tên tuổi lớn trong lĩnh vực công nghệ như Elon Musk, Reid Hoffman, Peter Thiel và Sam Altman. ChatGPT là một chatbot do OpenAI phát triển, được biết đến với tốc độ tăng trưởng người dùng nhanh nhất vào tháng 1 khi đạt 100 triệu người dùng hoạt động hai tháng sau khi ra mắt. ChatGPT có thể viết email, tiểu luận, làm thơ, trả lời câu hỏi hoặc tạo các dòng mã phức tạp, tất cả đều dựa trên lời nhắc văn bản. Gần đây, OpenAI đã công bố ra mắt GPT-4, một mô hình đa phương thức lớn mới và được cải tiến. Mô hình này sẽ có sẵn cho người dùng ChatGPT Plus và cho phép chọn đối tác bên thứ ba thông qua API. GPT-4 có thể sử dụng hình ảnh làm lời nhắc và thông minh hơn GPT-3.5. Microsoft đã tích hợp GPT vào Bing và nhiều ứng dụng khác sử dụng công nghệ AI này để cải thiện trải nghiệm người dùng.
ChatGPT đã thu hút sự chú ý của thế giới, ghi nhận tốc độ tăng trưởng người dùng nhanh nhất vào tháng 1 khi đạt 100 triệu người dùng hoạt động hai tháng sau khi ra mắt. Đối với những người chưa biết gì về ChatGPT, ChatGPT là một chatbot do OpenAI, một phòng thí nghiệm nghiên cứu được thành lập bởi một số tên tuổi lớn nhất trong lĩnh vực công nghệ như Elon Musk, Reid Hoffman, Peter Thiel và Sam Altman. ChatGPT có thể viết email, tiểu luận, làm thơ, trả lời câu hỏi hoặc tạo các dòng mã phức tạp, tất cả đều dựa trên lời nhắc văn bản.
Nói tóm lại, ChatGPT là một vấn đề khá lớn, điều này đưa chúng ta đến với tin tức tuần này: OpenAI vừa công bố ra mắt GPT 4, một mô hình đa phương thức lớn mới và được cải tiến. Bắt đầu từ hôm nay, ngày 14 tháng 3 năm 2023, mô hình này sẽ có sẵn cho người dùng ChatGPT Plus và để chọn đối tác bên thứ ba thông qua API của nó.
Bất cứ khi nào OpenAI phát hành một Generative Pre-training Transformer hoặc GPT mới, phiên bản mới nhất hầu như luôn đánh dấu ít nhất một thứ tự cải tiến về mức độ so với lần lặp lại trước đó. Tôi chưa thử nghiệm công cụ này nhưng dựa trên bài đăng trên blog nghiên cứu chính thức của công ty AI, bản cập nhật mới này không có gì khác biệt, mang lại một số cải tiến quan trọng và các tính năng mới.
nội dung
- 1 GPT-4 hiện có thể sử dụng hình ảnh làm lời nhắc
- 2 Nó cũng (nhiều) thông minh hơn
- 2.1 GPT-4 sẽ được tích hợp vào các dịch vụ của Microsoft, bao gồm cả Bing
- 3 GPT-4 vẫn chưa hoàn hảo
GPT-4 hiện có thể sử dụng hình ảnh làm lời nhắc
Cho đến GPT-3.5, AI thế hệ tiếp theo chỉ có thể hiểu và xuất văn bản. Nhưng giờ đây, GPT-4 có thể chấp nhận hình ảnh làm lời nhắc.
“Nó tạo ra một đầu ra văn bản với một đầu vào bao gồm văn bản và hình ảnh xen kẽ”, thông báo của OpenAI viết. “Trên nhiều miền — bao gồm các tài liệu có văn bản và hình ảnh, sơ đồ hoặc ảnh chụp màn hình — GPT-4 thể hiện các khả năng tương tự như khi chỉ nhập văn bản.”
Điều này có nghĩa là trong thực tế, giờ đây bạn có thể tải lên một hình ảnh và yêu cầu GPT-4 làm điều gì đó với hình ảnh đó dựa trên phân tích của nó. Ví dụ: giả sử bạn tải lên một hình ảnh mô tả một nhóm bóng bay lơ lửng trên bầu trời được buộc bằng một sợi dây. Nếu bạn hỏi GPT-4 điều gì sẽ xảy ra nếu bạn cắt dây, mô hình có thể suy luận rằng quả bóng bay sẽ bay lên trời.
Trong ví dụ bên dưới do nhóm OpenAI chia sẻ, một hình ảnh kỳ lạ có chủ ý đã được tải lên cho thấy một người đàn ông đang ủi quần áo trong khi được gắn vào phía sau xe taxi và ChatGPT-4 thực sự có thể tìm ra điểm bất thường về hình ảnh nếu bạn hỏi.

Có tin đồn rằng GPT-4 cũng sẽ có khả năng quay video, nhưng giờ đây chúng tôi biết rằng nếu có bất kỳ kế hoạch nào như vậy thì chúng đã bị loại bỏ cho phiên bản này. Cho đến nay, không có tính năng video hoặc hình ảnh động nhưng nó chắc chắn không còn xa nữa.
Nó cũng (nhiều) thông minh hơn
Đối với OpenAI, GPT-4 đạt điểm cao hơn trong các bài kiểm tra năng khiếu khác nhau. GPT-3.5 đạt điểm ở phần trăm thứ 10 dưới cùng trong Kỳ thi Thanh thống nhất và phần trăm thứ 31 trong Olympic Sinh học. Điểm số của GPT 4 lần lượt là phần trăm thứ 90 và 99 cho kỳ thi thanh và olympiad, khiến nó ngang hàng với một số học sinh thông minh nhất loài người.
Đây là một ví dụ về khả năng suy luận được cải thiện của GPT-4.
ĐẦU VÀO: Andrew rảnh từ 11 giờ sáng đến 3 giờ chiều, Joanne rảnh từ trưa đến 2 giờ chiều và sau đó là 3:30 chiều đến 5 giờ chiều. Hannah có mặt vào buổi trưa trong nửa giờ, sau đó từ 4 giờ chiều đến 6 giờ chiều. Một số tùy chọn cho thời gian bắt đầu cuộc họp 30 phút cho Andrew, Hannah và Joanne là gì?
GPT-3.5 | GPT-4 |
Dưới đây là danh sách sẵn có của họ: – Andrew: 11 giờ sáng đến 3 giờ chiều – Joanne: trưa đến 2 giờ chiều và 3:30 chiều đến 5 giờ chiều – Hannah: trưa đến 12:30 chiều và 4 giờ chiều đến 6 giờ chiều Dựa trên tình trạng sẵn có của họ, có một cửa sổ 30 phút khi cả ba đều có sẵn, tức là từ 4 giờ chiều đến 4:30 chiều. Vì vậy, cuộc họp có thể được lên lịch vào lúc 4 giờ chiều. |
Andrew: 11 giờ sáng – 3 giờ chiều Joanne: 12 giờ trưa – 2 giờ chiều, 3:30 chiều – 5 giờ chiều Hannah: 12 giờ trưa – 12:30 chiều, 4 giờ chiều – 6 giờ chiều Tính khả dụng điển hình cho các cuộc họp kéo dài 30 phút: 12 giờ trưa – 12:30 chiều |
Tìm một cửa sổ đang mở khi có ba người với lịch trình khác nhau có thể khó khăn ngay cả đối với con người để tìm ra một cách nhanh chóng. Trong trường hợp này, GPT-3.5 không thể đề xuất 4 giờ chiều là thời điểm phù hợp vì nó mâu thuẫn với lịch trình của Andrew. Tuy nhiên, GPT-4 có thể suy luận chính xác và đưa ra giải pháp tốt phù hợp với cả ba.
GPT-4 sẽ được tích hợp vào các dịch vụ của Microsoft, bao gồm cả Bing
Vào tháng 2, Microsoft đã tích hợp một phiên bản sửa đổi của GPT-3.5 vào Bing, công cụ tìm kiếm của họ đã cười nhạo Google trong nhiều năm. Không còn nữa, mặc dù. Microsoft đã đầu tư hơn 10 tỷ đô la vào OpenAI, điều này cho thấy tầm quan trọng của nó đối với cuộc cách mạng AI tổng quát sắp tới và đang bắt kịp Google. Đáp lại, Google đã đưa ra một thông báo phát hành vụng về cho công cụ tìm kiếm hỗ trợ AI của riêng mình có tên là Bard, ít nhất là vào thời điểm hiện tại có vẻ không mấy ấn tượng.
GPT-4 chỉ có thể trả lời các câu hỏi về các sự kiện phi hư cấu và những người có thông tin về chúng cho đến tháng 9 năm 2021. Nhưng Bing sẽ bắt đầu sử dụng GPT-4 có quyền truy cập vào web mở, do đó cho phép nó trả lời các câu hỏi về các sự kiện gần như đã xảy ra trong thời gian thực, ngay sau khi nó được báo cáo trên internet.
Ngoài ra, GPT-4 hiện khả dụng thông qua API ứng dụng, cho phép các bên thứ ba được chọn truy cập vào công cụ AI trong sản phẩm của họ. Ứng dụng ngôn ngữ Duolingo sử dụng GPT-4 để tăng cường cuộc trò chuyện với những người dùng muốn học một ngôn ngữ mới. Tương tự như vậy, Khan Academy tích hợp GPT mới để cung cấp cho học sinh dịch vụ dạy kèm trực tiếp được cá nhân hóa cho học sinh về toán, khoa học máy tính và nhiều môn học khác có sẵn trên nền tảng của họ.
Tính năng nhắc hình ảnh hiện chỉ khả dụng cho một đối tác bên ngoài. Be My Eyes, một ứng dụng miễn phí kết nối những người mù và khiếm thị với các tình nguyện viên sáng mắt, tích hợp GPT-4 với các Tình nguyện viên ảo của nó.
“Ví dụ: nếu người dùng gửi hình ảnh bên trong tủ lạnh của họ, Tình nguyện viên ảo sẽ không chỉ có thể xác định chính xác những gì bên trong mà còn ngoại suy và phân tích những gì có thể được chuẩn bị với những thành phần đó. Công cụ này cũng có thể cung cấp một số công thức nấu ăn cho các thành phần và gửi hướng dẫn từng bước về cách tạo ra chúng,” Be My Eyes cho biết trong một bài đăng trên blog giải thích về tính năng này.
Tuy nhiên, những tính năng này là tốn kém để có. OpenAI tính phí 0,03 đô la cho mỗi 1.000 mã thông báo “tức thì”, tương đương khoảng 750 từ. Giá xử lý hình ảnh đã không được tiết lộ cho công chúng.
GPT-4 vẫn chưa hoàn hảo
ChatGPT được biết đến với những lời nói dối và ảo giác thuyết phục, đôi khi vui nhộn nhờ khả năng tổng hợp thông tin kỳ lạ và tạo ra cuộc trò chuyện giống như con người. Tin vui là GPT-4 chính xác và thực tế hơn.
“Chúng tôi đã dành 6 tháng để làm cho GPT-4 trở nên an toàn hơn và phù hợp hơn. OpenAI cho biết GPT-4 có khả năng phản hồi các yêu cầu về nội dung trái phép thấp hơn 82% và có khả năng tạo ra phản hồi thực tế cao hơn 40% so với GPT-3.5 trong đánh giá nội bộ của chúng tôi.
“Trong cuộc trò chuyện thông thường, sự khác biệt giữa GPT-3.5 và GPT-4 có thể rất nhỏ,” OpenAI đã viết trong một bài đăng trên blog thông báo về GPT-4. “Sự khác biệt xuất hiện khi mức độ phức tạp của tác vụ đạt đến ngưỡng đủ — GPT-4 đáng tin cậy hơn, sáng tạo hơn và có khả năng xử lý nhiều lệnh phức tạp hơn GPT-3.5.”
Tuy nhiên, mặc dù khả năng cung cấp thông tin thực tế cao hơn 40%, nhưng điều đó không có nghĩa là nó sẽ không tiếp tục mắc lỗi, điều mà OpenAI thừa nhận. Điều này có nghĩa là ChatGPT nên được sử dụng rất cẩn thận, đặc biệt là trong các tình huống rủi ro cao chẳng hạn như phát hành nội dung cho bản trình bày công việc của bạn.
Tuy nhiên, GPt-4 đánh dấu một bước đột phá lớn khác trong cuộc cách mạng AI đang diễn ra, sẵn sàng thay đổi cuộc sống của chúng ta theo nhiều cách.