ICT 레이더/인공지능(AI)

Visual ChatGPT 성능 실험

kusson 2023. 4. 13. 15:38
반응형
728x170

 저번 시간에 Visual ChatGPT를 사용하는 방법에 대해서 설명했고 이번 시간에는 Visual ChatGPT의 성능을 구체적으로 실험해 보겠다. Visual ChatGPT를 사용하는 방법에 대해서는 저번 시간에 했던 포스트(https://kusson.tistory.com/626)를 참고하기 바라며 이번 시간에는 주어진 예제를 모두 입력해서 반응하는 모습을 살펴보겠다.

 

 Visual ChatGPT의 목적은 인간이 말하는 방식의 자연어를 인공지능이 얼마나 잘 처리해 주느냐를 보는 것이다. Stable Diffusion을 비롯한 대부분의 그림 생성형 인공지능은 Prompt라는 특수 명령어를 사용해야 한다. 그러나 이것은 또 하나의 코딩 언어처럼 보여 처음 Prompt를 접하는 사람은 또 Prompt를 공부해야 하는 상황이 된다. Visual ChatGPT의 최대 장점은 바로 인간의 말을 그대로 명령어로 사용한다는 것이다.

 

 먼저 'Generate a figure of a cat running in the garden.'을 입력하고 'Run'을 클릭해 보자. 정원에서 놀고있는 고양이 그림을 그려주었다. 'Generate a figure of a cat running in the garden.'이라는 인간의 말을 잘 인식하는 것을 알 수 있다.

 

 

 이번에는 'Replace the cat with a dog.'라는 말을 입력해 보자. 배경 그림은 그대로 놔두고 고양이만 개로 대체하라는 말인데 정확하게 고양이를 개로 대체해서 나타내 주었다.

 

 

 이번에는 'Remove the dog in this image.' 즉 개를 제거하라는 명령을 내려 보았다. 정확하게 의미를 이해하고 개를 뺀 그림을 그렸다.

 

 

 이번에는 조금 어려운 명령을 내려 보았다. 'Can you detect the canny edge of this image?'로 그림의 외곽선만 나타낼수 있느냐 라는 말이다. 정확하게 그림의 외곽선만 나타내 주었다.

 

 

 'Can you use this canny image to generate an oil painting of a dog?'란 명령을 입력했다. oil painting 이란 말은 유화라는 말인데 상단의 그림을 이용해 좀 추상적인 유화풍의 이미지를 그렸다.

 

 

 'Make it like water-color painting.' 이번에는 수채화를 그려보라고 했다. 헤일로 마스트라는 X-box용 비디오 게임의 주인공을 수채화로 그려주었다.

 

 

 'What is the background color?'라는 질문에는 'The background color of the image is a table cloth with a pattern of colorful flowers.'라는 답변을 주었다. 좀 쌩뚱 맞으면서도 이해가 잘 안되는 답변을 주었다.

 

 

 'Describe this image.'라는 말에는 왠 중국어를 답변으로 내어 놓았다. 상단에 보면 영어와 중국어를 사용한다는 말이 있는데 중국어로 답변을 내어 놓았다.

 

 

 'please detect the depth of this image.'라는 말에도 중국어로 답변했다. 이미지의 depth에 대한 말인가 본대 다음 질문을 넣어 보자.

 

 

'Can you use this depth image to generate a cute dog.'라는 말에는 개구리 그림을 그렸다. 귀여운 개를 그리라고 했더니 개구리라니.....

 

 

 예제로 나와 있는 모든 명령에 대해서 어느 정도 사람의 말을 인식하고 대응을 한다는 것을 알 수 있었다. 이번에는 필자가 직접 명령을 내려 보았다. '한국의 한강변에 벚꽃이 만발한 가운데 개와 고양이가 함께 데이트를 즐기는 그림을 그려줘.'라는 명령에 반은 맞고 반은 틀린 그림을 그려 주었다. 벚꽃과 고양이, 개는 있는데 둘이 데이트하는 것이 무슨 의미인지 이해를 못한 것을 알 수 있다.

 

 

 한번더 '한국의 한강변에 벚꽃이 만발한 가운데 개와 고양이가 함께 데이트를 즐기는 그림을 그려줘.'라는 명령을 내렸더니 아래와 같이 고양이가 벚꽃을 구경하는 그림만 그렸다.

 

 Visual ChatGPT가 출시되었다고 해서 실제 인간이 쓰는 말로 여러가지 명령을 내려 보았다. 잘 알아 듣는 것도 있고 아직 잘 알아 듣지 못하는 것도 있는 것을 확인했다. 그러나 Prompt로 명령을 내려야 하는 것 보다는 훨씬 쉽고 간편하게 그림을 생성할 수 있는 것도 알게 되었다.  이제 막 출시된 제품이니 몇달만 지나면 거의 인간의 말을 다 알아 듣고 그대로 그림을 생성해 주지 않을까 하는 기대를 하게 된다.

반응형
그리드형