말로만 듣던 이미지 생성 AI를 책을 통해 배우게 됐다. 기본 개념이해하기 위해서는 역시 책만 한 게 없지....
이미지 생성 AI 를 다루는 프로그램은 현재 3가지가 대표되고 있다. 미드저니, 스테이블 디퓨전, 달리.
스테이블 디퓨전은 무료지만 공개된 코드로 개발 환경을 직접 구축해서 실행해야 해서 프로그래밍에 어려움을 느끼는 사람이 많다. 달리와 미드저니는 유료로 이용할 수 있다. 프롬프트에 키워드만 입력하면 이미지를 바로 생성할 수 있다. 특히, 달리는 Chat GPT 4.0과 결합해서 효율면이나 편의적인 면에서 가장 우위가 아닌가 싶다. 이 책은 그중에도 미드저니를 주축으로 설명하고 있다. 하나하나 따라 하며 익히는 것은 영상보다는 더딘데 스스로 자기만의 속도로 따라 하니 이해가 더 빠르게 되니 나에게는 안성맞춤이었다.
AI는 프롬프트를 문장, 단어를 쪼개 토큰(Token)이라는 더 작은 단위로 만들고,
토큰은 기존에 학습된 데이터와 비교하여 이미지를 생성하는 데 사용한다.(p.316)
디스코드에 미드저니 서버를 연결하며 시작한다.
왼쪽 채널 목록에서 NEWCOMERROOMS에서 [#newbies-번호] 적혀있는 곳에 입장한다. 번호는 무관하며 채널 방안에서 프롬프트를 통해 이미지를 생성할 수 있다. 프롬프트 이해에 도움 되는 것만 메모해보려 한다.
커멘드 Command
/imagine | 이미지 프롬프트 생성. |
/info | 본인 정보 확인, 남은 GPU 시간, 신규 갱신 날짜, 진행 중인 작업에 대한 정보. |
/describe | 업로드한 이미지, 링크를 기준으로 유사한 이미지를 생성할 수 있는 프롬프트 4가지 제안. |
/blend | 두 이미지를 혼합해 새로운 이미지 생성. |
/shorten | 입력한 프롬프트를 분석해서 영향력이 큰 단어를 강조하고, 불필요한 단어 삭제 제안. |
프롬프트의 구조는 Image Prompts( image url ) + Text Prompts + Parameters 순서로 입력한다. 업로드한 이미지로 기준이 되어 유사한 스타일이나 변형을 하고 싶다면 이미지 파일의 url을 먼저 입력한다. Text Prompts이 기본 구조로 단독으로 사용할 수 있다. 키워드와 키워드 사이는 , (콤마)로 구분하여 입력한다. 각 프롬프트 사이는 Space bar로 한 칸 띄우기로 구분한다.
파라미터 Parameter
매개변수를 뜻하는 파라미터는 기본 값으로 설정된 사항들을 변경할 수 있다. 기본 이미지 사이즈는 592*592이고, 1:1 정방향 비율로 고정되어 있는데 파라미터를 통해 비율 변경과 작업 퀄리티 등을 변경할 수 있다.
--aspect 혹은 --ar | 생성된 이미지 비율 --ar 16:9, 3:2, 4:3, 9:16 |
--chaos 혹은 --c | 생성된 이미지들의 차이. 값이 클수록 특이하고 다른 결과를 얻음. 1~100 값 입력 |
--iw | 이미지 프롬프트와 텍스트 프롬프트를 같이 사용할 경우 어떤 프롬프트에 비중을 둘 것인지 설정. 기본값은 1. 0~2까지 (미드저니 버전 5부터 사용 가능) |
--no | 이미지 생성에서 특정 키워드는 제외. 키워드에 don't 보다 파라마터 --no 사용이 명확. |
--quality 혹은 --q | 생성되는 이미지 퀄리티 설정. 1에 가까울수록 GPU 사용. 오랜 시간 걸림 .25, .5, 1 |
--stylize 혹은 --s | 예술적인 이미지 생성. 기본 값 100. 0~1000 입력. 숫자가 클수록 예술적인 이미지 생성. 프롬프트를 정확하게 반영하지 않은 결과가 나올 수 있음. |
--tile | 패턴 이미지 생성 |
--weird 혹은 --w | 기존 결과와 다른 특이한 이미지 생성. 0~3000 입력. |
도구
프롬프트 입력 후, 4개의 이미지 생성된 화면이다. 여기에 U1~U4, V1~V4 도구가 나온다.
U는 Upscaling의 약자로 선택한 이미지를 디테일이 보강된 고해상도로 생한다. 숫자는 이미지의 위치를 나타낸 것이다. 상단 왼쪽 1, 상단 오른쪽 2, 하단 왼쪽 3, 하단 오른쪽 4로 정해져있다. 생성된 이미지 중 원하는 이미지의 위치를 보고 숫자를 선택하면 된다. 1024*1024 이미지 제공.
V는 Vary의 약자로 선택한 이미지를 베이에이션하여 4개의 이미지로 재 생성된다. 파란색의 새로고침 아이콘의 버튼은 현재 입력한 프롬프트에 대해 새롭게 이미지를 생성해 준다.
업스케일 후, 새로운 도구가 나타난다.
Upscale(Subtle) : 2배로 업스케일 진행되며, 적은 Subtle 변화. 2048*2048 이미지.
Upscale(Creative) : 2배로 업스케일 진행되며, 창의적인 Creative 변화. 2048*2048 이미지.
Vary(Subtle) : 업스케일된 이미지를 새롭게 베리에이션 해서 4개의 이미지 생성. 약한 Subtle 수정 강도.
Vary(Strong) : 업스케일된 이미지를 새롭게 베리에이션해서 4개의 이미지 생성. 강한 Strong 수정 강도.
Vary(Region) : 업스케일된 이미지에서 일부 영역을 지정해서 새롭게 베리에이션해서 4개의 이미지 생성. vary Region 에디터 창에서 변경하고 싶은 부분을 Rectangle tool, Lasso tool로 영역을 잡아 Submit job 해주면 됨.
Zoom Out 2x, 1.5x, Custom Zoom : 카메라를 앞에서 뒤로 빼듯 줌 아웃 2배, 1.5배 해서 4개 이미지 생성. 줌 아웃되면서 없던 주변 이미지 재 생성됨.
⬅️➡️⬆️ ⬇️ Pan : 업스케일된 이미지를 상, 하, 좌, 우로 확장하여 이미지 생성. 선택된 방향으로 512px 씩 확장.
❤️ emoji : 생성된 이미지 평가.
Web : 미드저니 웹사이트 갤러리에 등록된 내 이미지를 볼 수 있음. 생성된 이미지는 모두 여기에 공개됨.
니지저니 - 애니메이션 스타일 이미지 생성
카이버 AI-이미지를 바탕으로 애니메이션 영상 만듦
스케치 AI - 스케치를 수준급 결과물로 바꿔줌
컨트롤넷 - 사용방법(멀티모달)
https://www.internetmap.kr/entry/Stable-Diffusion-ControlNet1
<피그마 클래스> 읽고 (4) | 2024.11.13 |
---|---|
<디자인구구단> 읽고, 북킷 챌린지 참여 후기. (10) | 2024.11.10 |
<색 잘 쓰는 디자이너> 읽고 (5) | 2024.10.18 |
<월 20달러로 비즈니스 글쓰기 with 챗GPT> 읽고 (4) | 2024.09.30 |
<유저 프렌들리> 사용자 친화성을 위해 필요한 원리들 (2) | 2023.07.14 |