Chúng tôi đã thử nghiệm trình tạo hình ảnh mới của ChatGPT và nó thật tuyệt vời

theanh · 8 Tháng tư 2025

OpenAI vừa công bố sự ra mắt của trình tạo hình ảnh mới trên ChatGPT. Được đặt tên một cách nghiêm túc là “Hình ảnh trong ChatGPT”, công cụ này hứa hẹn sẽ tạo ra hình ảnh chất lượng tốt hơn dựa trên các truy vấn do người dùng cung cấp. Như OpenAI tuyên bố trên trang web của mình, những hình ảnh này "không chỉ đẹp mà còn hữu ích"..

Để thiết kế hình ảnh, AI không còn dựa vào Dall-E, trình tạo hình ảnh của OpenAI, mà dựa vào GPT-4o, một mô hình AI được công bố vào năm ngoái và vô số khả năng đa phương thức của mô hình này. Chúng tôi đã thử nghiệm mô hình này rộng rãi khi nó được phát hành vào tháng 5 năm ngoái và kết quả thu được thật ấn tượng, đặc biệt là về khả năng hiểu hình ảnh. Bây giờ chúng ta đã xem xét trình tạo hình ảnh được tích hợp vào ChatGPT. Trong nhiều ngày, chúng tôi đã đẩy mô hình đến giới hạn của nó.

Một trình tạo thực sự thông minh

Với GPT-4o, ChatGPT hiện có khả năng tạo ra hình ảnh được trau chuốt, chính xác và xây dựng tốt. Chúng tôi có thể tạo ra rất nhiều nội dung chất lượng bằng chatbot. Ngay từ những hình ảnh đầu tiên, chúng tôi nhận ra rằng những hình ảnh này thành công hơn nhiều so với những hình ảnh mà chúng tôi thường tạo ra bằng Dall-E, vốn đang bắt đầu tụt hậu so với các đối thủ cạnh tranh. ChatGPT đặc biệt chính xác hơn nhiều trong công việc của mình. Không còn các thành phần không rõ ràng nữa, điều này gần như được tìm thấy một cách có hệ thống trong các hình ảnh do Dall-E tạo ra.

AI tạo hình hiện nay có khả năng hiểu các phong cách trực quan vượt trội. Chúng tôi rất vui khi tạo ra các hình ảnh lấy cảm hứng từ tranh Phục Hưng, truyện tranh, áp phích phim và thậm chí cả nghệ thuật đại chúng. ChatGPT hiện tự hào có một nền văn hóa nghệ thuật mạnh mẽ.

Tương tự như vậy, ChatGPT thực hiện tốt hơn nhiều trong việc thiết kế hình ảnh dựa trên những bức ảnh chúng tôi cung cấp. Chúng tôi có thể tạo ra phiên bản hoạt hình của những người thân yêu và đồng nghiệp của mình. AI có khả năng hiểu ảnh rất tốt. Tất cả mọi người trong ảnh đều có thể dễ dàng nhận ra trong các sản phẩm được tạo ra bởi trí tuệ nhân tạo. Một lần nữa, ChatGPT chứng minh độ chính xác ấn tượng. Khi AI được yêu cầu tạo chân dung dựa trên ảnh, kết quả hầu như luôn chính xác.

Một Photoshop thực sự của AI

Nói chung, ChatGPT hiểu rõ hơn nhiều về các truy vấn và hướng dẫn khác nhau cho hình ảnh sự sáng tạo. Trên thực tế, việc chỉnh sửa hình ảnh dễ dàng hơn nhiều chỉ bằng cách trò chuyện với chatbot. Chúng tôi đã từng thử chỉnh sửa nội dung bằng cách giao tiếp với AI trước đây và nó thực sự là thảm họa. ChatGPT thậm chí không thể xử lý được những hướng dẫn cụ thể nhất của chúng tôi và hầu như luôn phải bắt đầu lại từ đầu. Bây giờ, nó giống như một Photoshop thực sự được hỗ trợ bởi AI hơn. Như OpenAI giải thích, "bạn có thể tinh chỉnh hình ảnh thông qua cuộc trò chuyện tự nhiên."

AI cũng thừa hưởng khả năng ghi nhớ hướng dẫn tốt hơn. Tóm lại, ChatGPT sẽ không quên đưa vào cuộc trò chuyện một yếu tố được đề cập ở trên, điều này xảy ra rất thường xuyên với trình tạo dựa trên Dall-E. Như OpenAI giải thích, ChatGPT đã cải thiện "liên kết" của mình, tức là khả năng của AI tạo ra để hiểu và làm theo các hướng dẫn phức tạp và nhiều hướng dẫn trong một hình ảnh duy nhất.

Với Dall-E, ChatGPT thường không tính đến nhiều hướng dẫn cùng lúc. Nếu bạn cầu xin một con mèo đỏ đội mũ xanh, kết quả bạn nhận được thường là một con mèo đỏ... và không đội mũ. Chúng ta cũng có thể có được một con mèo xanh và một chiếc mũ xanh. Tóm lại, bạn đã hiểu ý rồi đấy.

Mô hình có khả năng hạn chế trong việc hiểu và liên kết chính xác các mô tả văn bản với các yếu tố trực quan cụ thể. Với GPT-4o, các hướng dẫn truyền theo mọi hướng không còn là vấn đề lớn nữa. Để biến đổi bức ảnh bên dưới, chúng tôi đã truyền một danh sách dài thông tin cho AI liên quan đến giao diện, góc độ, màu sắc và thậm chí cả kiểu chữ. ChatGPT không quên bất cứ điều gì và không làm rối cọ vẽ của mình.

Một vấn đề khó giải quyết với văn bản

Về lý thuyết, ChatGPT hiện có thể thêm văn bản không có lỗi vào hình ảnh mà nó tạo ra. OpenAI cũng đã chia sẻ một số ví dụ về văn bản được dán vào hình ảnh. Cho đến nay, ChatGPT, giống như hầu hết các AI khác, vẫn gặp khó khăn trong việc đưa văn bản vào hình ảnh mà vẫn đảm bảo chính tả. Hầu hết thời gian, chúng tôi đưa ra những câu và từ hoàn toàn không thể hiểu được. Các ký hiệu, chữ cái hoặc số không thể đọc được len lỏi vào giữa các từ.

Với GPT-4o, mọi thứ trở nên tốt hơn. Theo yêu cầu, ChatGPT có thể thêm tiêu đề vào nội dung của bạn hoặc chú thích ngắn vào hình ảnh của chúng tôi. Trong những văn bản giản lược nhất, sự tiến hóa có thể nhận thấy rõ ràng. ChatGPT được yêu cầu thêm nhiều tiêu đề vào tác phẩm của chúng tôi. Chúng tôi không tìm thấy bất kỳ lỗi hoặc bất thường nào trong quá trình thí nghiệm. ChatGPT đặc biệt tạo ra các sơ đồ giải thích tuyệt vời.

Thật không may, AI vẫn chưa hoàn toàn bất khả xâm phạm. OpenAI đã phát triển thành công truyện tranh ngắn với sự trợ giúp của AI. Các bảng được công ty khởi nghiệp sử dụng làm ví dụ không có lỗi chính tả, lỗi cú pháp hoặc thành phần khó hiểu. Chúng ta chưa đạt được những thành tựu tương tự, ít nhất là trong tiếng Pháp. Trong truyện tranh do ChatGPT thiết kế dựa trên yêu cầu của chúng tôi, tất cả các văn bản đều mắc phải những lỗi giống nhau. Bảng không đọc được. Thật vô nghĩa.

Chúng tôi tự hỏi liệu ChatGPT có gặp khó khăn với ngôn ngữ nước ngoài không. Trên thực tế, dữ liệu cho mô hình GPT chủ yếu bao gồm các văn bản bằng tiếng Anh. Trên thực tế, ChatGPT thoải mái hơn khi sử dụng ngôn ngữ của Shakespeare. Vì vậy, chúng tôi đã yêu cầu AI tạo ra một truyện tranh có văn bản tiếng Anh để nắm bắt được cốt lõi của trang web. Đúng như dự đoán, bản kết xuất gần như hoàn hảo. AI chỉ bị kẹt ở một hoặc hai từ, khá ngẫu nhiên. Phần lớn nội dung đều dễ đọc và dễ hiểu.

Để có kết quả chính xác bằng tiếng Pháp, cần phải sử dụng truyện tranh ngắn hơn, ít văn bản hơn. Trên thực tế, kết quả thực sự ngẫu nhiên. Đôi khi AI có thể căn chỉnh văn bản mà không mắc phải những lỗi thường gặp trong nhiều lần biên soạn. Hầu hết thời gian, chúng tôi kết thúc với văn bản không thể giải mã ở một nơi hoặc nơi khác.

Trình tạo chậm hơn một chút

Cuối cùng, chúng tôi nhận thấy rằng việc tạo hình ảnh bằng GPT-4o chậm hơn đáng kể so với Dall-E. Trong hầu hết các thí nghiệm, chúng tôi buộc phải đợi vài chục giây để có được nội dung. Đối với một số yêu cầu phức tạp hơn, thời gian chờ có thể vượt quá một phút. Đây không phải là tận thế, nhưng nó làm cho toàn bộ quá trình trở nên phức tạp hơn trước. Nhưng nhìn chung, kết quả rất xứng đáng với sự chờ đợi.

Ngoài ra, chúng tôi còn gặp phải rất nhiều lỗi. Thông thường, các cuộc hội thoại kéo dài sẽ gặp phải các vấn đề hiển thị nghiêm trọng hoặc quá trình tạo hình ảnh bắt đầu trục trặc và không hoàn tất. Chúng ta có thể cảm thấy rằng máy chủ của OpenAI đang quá tải. Khi bạn tạo nhiều hình ảnh, ChatGPT sẽ thông báo rằng có vẻ như "công cụ tạo hình ảnh tạm thời không khả dụng".

Ngay cả với gói đăng ký trả phí và không có giới hạn, bạn vẫn thường thấy thông báo rằng "công cụ tạo hình ảnh hiện đã bị vô hiệu hóa nên tôi không thể tạo hình ảnh". AI đề cập đến "cập nhật kỹ thuật hoặc bảo trì". Đôi khi, thậm chí thường xuyên, ChatGPT phải sử dụng trình tạo Dall-E, vốn kém hiệu quả hơn đáng kể. Khi chúng tôi hỏi AI về sự trở lại Dall-E này, ChatGPT đảm bảo với chúng tôi rằng đây là trình tạo duy nhất khả dụng... Tóm lại, người dùng sẽ thấy hơi phức tạp khi tìm đường đi, đặc biệt là nếu họ không theo dõi chặt chẽ các cải tiến của OpenAI.

"Tự do sáng tạo nhất có thể"

Hơn nữa, OpenAI cho biết rằng họ đã chứng minh được sự linh hoạt hơn một chút trong thiết kế trình tạo của mình. Công ty khởi nghiệp này hiện cho phép tạo ra "hình ảnh của người thật" ở một mức độ nào đó, chẳng hạn như người nổi tiếng. Về mặt lý thuyết, có thể tạo nội dung với những người nổi tiếng, nhưng OpenAI vẫn tiếp tục áp dụng "những hạn chế nghiêm ngặt hơn đối với các loại hình ảnh có thể được tạo ra, với các biện pháp bảo vệ đặc biệt nghiêm ngặt đối với nội dung khỏa thân và bạo lực".

Thực tế là chúng tôi không thể tạo ra được một hình ảnh nào có sự góp mặt của người nổi tiếng. Mọi thứ đều cho thấy những hạn chế vẫn đặc biệt nghiêm ngặt. Chúng ta còn lâu mới đạt đến sự linh hoạt không bị hạn chế của Grok, chatbot của Elon Musk.

Tương tự như vậy, nhiều người dùng Internet khẳng định đã tạo ra được những hình ảnh sao chép hoạt hình do các hãng phim nổi tiếng sản xuất, chẳng hạn như Ghibli. Khi được AFP hỏi, OpenAI giải thích rằng công ty ngăn chặn "việc tạo ra nội dung lấy cảm hứng cụ thể từ các nghệ sĩ còn sống, nhưng chúng tôi cho phép theo phong cách của một studio, rộng hơn", để "mang đến cho người dùng nhiều sự tự do sáng tạo nhất có thể". Bất chấp những nỗ lực của chúng tôi và việc sử dụng lại những yêu cầu tương tự, ban đầu chúng tôi chỉ nhận được lời từ chối từ ChatGPT. Bot cho biết yêu cầu của chúng tôi đã vi phạm "chính sách nội dung" của bot:

Vài giờ sau, chúng tôi đã có thể khiến ChatGPT bắt chước phong cách của những bộ anime nổi tiếng, như The Simpsons. Thật không may, nó tồn tại trong thời gian ngắn. Ngày hôm sau, ChatGPT kiên quyết từ chối áp dụng phong cách nhân vật của Matt Groening. Có vẻ như OpenAI đang tạm thời hạn chế một số truy vấn nhất định do lượng người sử dụng trình tạo quá đông.

Một bước tiến mới cho ChatGPT

Phiên bản mới này Trình tạo này có thể được sử dụng bởi tất cả người dùng ChatGPT, bao gồm cả những người dùng tài khoản miễn phí. Sẽ không cần phải đăng ký gói trả phí, chẳng hạn như ChatGPT Plus hoặc ChatGPT Pro, để kiểm tra khả năng tạo hình ảnh nâng cao.

Tuy nhiên, trước tình trạng người dùng Internet sử dụng quá nhiều, OpenAI buộc phải cắt quyền truy cập vào trình tạo đối với người dùng miễn phí. Hiện tại, chỉ những người dùng có gói trả phí mới có thể tạo hình ảnh bằng GPT-4o. Trong tương lai gần, OpenAI đã cam kết mở lại quyền truy cập cho tất cả người dùng. Tuy nhiên, người dùng miễn phí có thể sẽ gặp phải khó khăn dù thế nào đi nữa. Việc sử dụng GPT-4o thực sự sẽ bị hạn chế đối với những người dùng Internet chưa mạnh tay chi tiền. Bạn được phép đăng ba hình ảnh mỗi ngày trước khi bị chặn. Rõ ràng là con số đó không lớn.

Vài ngày sau, OpenAI thậm chí còn bắt đầu bóp băng thông của những người đăng ký trả phí. Như chúng tôi đã nhận thấy vào cuối tuần này, bạn không còn có thể liên kết các sáng tạo với ChatGPT nữa. Sau một vài lần sản xuất trong vài phút, AI sẽ gửi cho bạn một thông báo cho biết bạn sẽ không thể truy cập vào trình tạo trong một thời gian.

Đôi khi, chatbot không thể cho chúng ta biết lý do tại sao nó không thể tuân theo chúng ta. Ông thường chỉ ra "lỗi quy trình" hoặc tình trạng chậm lại mà không có nguyên nhân cụ thể. Về phần mình, Sam Altman thậm chí còn yêu cầu người dùng Internet "bình tĩnh khi tạo hình ảnh" vì tác động đến các máy chủ của OpenAI, được cho là đang "tan chảy". Thật đáng tiếc khi phải giới hạn những người đã đăng ký gói trả phí, vốn có ưu điểm chính là không có hạn chế.

Trong mọi trường hợp, việc tạo hình ảnh hỗ trợ bởi ChatGPT vừa có bước tiến vượt bậc. Chúng ta hãy cược rằng với việc phát hành GPT-4.5, tiếp theo là GPT-5, trí tuệ nhân tạo tạo sinh sẽ tiến xa hơn nữa và sửa được một số lỗi cứng đầu trong trình tạo của nó.

Chúng tôi đã thử nghiệm trình tạo hình ảnh mới của ChatGPT và nó thật tuyệt vời

theanh

Administrator

Một trình tạo thực sự thông minh

Một Photoshop thực sự của AI

Một vấn đề khó giải quyết với văn bản

Trình tạo chậm hơn một chút

"Tự do sáng tạo nhất có thể"

Một bước tiến mới cho ChatGPT

Chủ đề tương tự

Chúng tôi đã thử nghiệm trình tạo hình ảnh mới của ChatGPT và nó thật tuyệt vời

theanh

Administrator

Một trình tạo thực sự thông minh​

Một Photoshop thực sự của AI​

Một vấn đề khó giải quyết với văn bản​

Trình tạo chậm hơn một chút​

"Tự do sáng tạo nhất có thể"​

Một bước tiến mới cho ChatGPT​

Chủ đề tương tự

Một trình tạo thực sự thông minh

Một Photoshop thực sự của AI

Một vấn đề khó giải quyết với văn bản

Trình tạo chậm hơn một chút

"Tự do sáng tạo nhất có thể"

Một bước tiến mới cho ChatGPT