Imagen: Text-to-Image Diffusion Models

Imagen unprecedented photorealism × deep level of language understanding unprecedented photorealism deep level of language understanding We present Imagen, a text-to-image diffusion model with an unprecedented degree of photorealism and a deep level of la

imagen.research.google

 

     몇일전 stable_diffusion 모델을 실제로 사용해보고 딥러닝 텍스트 이미지 모델에 관심이 생겼다.

     구글의 Imagen은 텍스트 입력을 기반으로 이미지를 생성하는 인공지능(AI) 이다.

     텍스트를 입력하면 인공지능이 텍스트에 가장 적합한 이미지를 찾아내 명령대로 이미지를 만들어낸다.

 

     구글의 Imagen은 텍스트를 이해하는 대형 변환기(transformer) 언어모델(T5)의 성능을 기반으로 정확도와 높은 이미지를

     생성하는 확산 모델을 결합한다.

     Imagen을 통해 텍스트 전용 말뭉치로 사전 훈련된 거대한 언어모델의 텍스트 임베딩이 모델 훈련에 이미지-텍스트 데이터만

     사용하는 것보다 텍스트-이미지 합성에 효과적이라는 것을 발견할 수 있었다.

     4월에 공개한 OpenAI의 DALL-E2 보다 훨씬 나은 성능 보여준다고 한다.

     위의 Imagen 웹사이트에 들어가면 지시 텍스트와 그에 따라 출력된 결과 이미지의 사례가 몇 가지 소개되어있다.

 

     Imagen은 무한한 창의성의 잠재력을 갖고 있지만 구글은 Imagen을 대중에게 제공하지 않기로 결정했다.

     Imagen은 인터넷에서 정보를 수집하고 학습해 이미지를 생성하기 때문에 고정관념과 편견이 넘쳐날수있고     

     그에 따라 Imagen이 생성하는 이미지에 반영될 우려가 있기 때문이다.

 

 

 

 

 

    <출처>

    http://www.popsci.co.kr/news/articleView.html?idxno=11984

    http://www.aitimes.com/news/articleView.html?idxno=144897 

 

 

 

 

 

Stable Diffusion Public Release — Stability.Ai

We are delighted to announce the public release of Stable Diffusion and the launch of DreamStudio Lite.

stability.ai

    

     최근에 친구를 통해서 Stable Diffusion 모델에 대해서 들었다.

     Stable Diffusion은 2022년 스타트업 StabilityAI에서 출시한 딥 러닝 텍스트-이미지 모델이다.

     주로 텍스트 설명에 따라 세부 이미지를 생성하는 데 사용되지만 인페인팅, 아웃페인팅 및 생성과 같은

     다른 작업에도 적용될 수 있다.

     쉽게 설명하면 내가 텍스트로 설명을 하면 이 모델이 그에 맞는 이미지를 만들어 내는 것이다.

     한번 해보고 싶어서 colab으로 모델을 간단하게 돌려봤다.

 

      https://huggingface.co/CompVis/stable-diffusion-v-1-4-original     

      위 사이트에 들어가서 우측 상단에 Sign-Up 을 눌러서 이메일로 가입을 한다.

      그럼 가입한 이메일 주소로 이메일이 오는데 그 메일을 클릭해서 confirm을 해주어야 회원가입이 끝난다.

      그 다음에 Access Token을 만들어 주어야 하는데 

   

     로그인을 하고 Setting/tokens 페이지로 찾아들어가서 'New token'을 눌러준다.

   

      이런 화면이 뜨면 Name은 아무거나 쓰고 Role은 write으로 설정하고 Generate a token 버튼을 눌러주었다.

      그럼 token이 생성되는데 나중에 colab에서 복사해서 사용할 것이다.

      그런 다음 colab으로 들어가서 코드를 돌려보았다.

 

     1. 먼저 GPU 런타임을 사용하여 이 노트북을 실행하고 있는지 확인한다.

         현재 연결된 GPU는 Tesla T4로 15109MiB 사용이 가능하다.

     

     2. 그 다음 diffusers==0.3.0과 sciphy, ftfy 및 transformer를 설치한다.

     

     3. 이 모델을 사용하려면 이 모델의 라이센스에 동의하여야 한다. 여기로 들어가서 라이선스를 읽고 동의하면 수락을 누른다. 

 

     4. colab이 외부 위젯을 비활성화했기 때문에, 활성화 시켜야 한다. 아래의 코드로 활성화 시킨후 로그인을 진행한다.

 

 

    5. notebook_login()을 실행하면 위와 같은 그림이 출력된다. 아까 우리가 받은 token을 입력하고 Login 버튼을 누른다.

      그럼 아래와 같은 결과가 출력된다.

 

 

     6. 다음으로 사전 훈련된 가중치(pre-trained weights) 를 로드한다.

 

 

     7. 다음으로, 더 빠른 추론을 위해 GPU로 파이프라인을 이동시킨다.

 

     8. 그럼 이제 출력해보자. prompt 창에 내가 표현하고 싶은 이미지에 대한 설명을 넣는다.

        먼저 예제로 나와있는것 부터 해보았다.

 

        "a photograph of an astronaunt riding a horse" :  우주 비행사가 말을 타고 있는 사진

 

 

     우주 비행사가 말을 타고 있는 사진이 출력되었다. 다시 돌리면 또 다른 그림이 출력된다.

 

 

     9. 이번에는 좀 더 디테일하게 설명을 하여 출력을 해보자. 

 

         "interior design, open plan, kitchen and living room, modular furniture with cotton textiles, wooden floor,

         high ceiling, large, steel windows viewing a city"

 

        "a cute magical flying dog, fantasy art drawn by disney concept artists, golden colour, high quality,

         highly detailed, elegant, sharp focus, concept art, character concepts, digital painting, mystery, adventure"

 

     너무 멋지지 않은가? 정말 많은 곳에 활용 될 수 있을거 같다.

 

 

 

     <Reference>

     https://huggingface.co/CompVis/stable-diffusion-v1-4

     https://www.analyticsvidhya.com/blog/2022/09/stable-diffusion-ai-has-taken-the-world-by-storm/

     https://bytexd.com/get-started-with-stable-diffusion-google-colab-for-ai-generated-art/                  

     https://mpost.io/best-100-stable-diffusion-prompts-the-most-beautiful-ai-text-to-image-prompts/    

 

 

 

 

 

 

 

"나 걔한테 멀프당했어"…친구사이 엿보기 늘었다는데 [아이티라떼]

"나 걔한테 멀프당했어." 근래 MZ세대 사이에서 많이 사용되고 있는 말 중 하나는 다름 아닌 `멀프`입니다. 멀프는 지난해 카카오톡에 들어간 `멀티프로필` 기능의 준말인데요. 상대방에게 보이는

www.mk.co.kr

 

    "나 걔한테 멀프당했어"

     엥? 읭? 응?

     이게 무슨 뜻인가..

 

     "멀프 당하다"에서 멀프는 카카오톡의 멀티 프로필의 줄임말로 친구가 자신을 기본 프로필이 아닌 멀티 프로필로

     설정해 놓았을때 쓰는 말이라고 한다.

 

     멀티 프로필은 내 친구목록에 있는 친구들에게 각기 다른 프로필을 보여줄 수 있는 카카오톡 기능으로

     회사, 동호회 목적에 따라 다른 프로필을 사용 할 수 있다.

     나도 회사나 일로 만나는 사람들 따로, 모임에서 만난 사람 따로 각각 다른 멀티 프로필을 사용하고있다. 

     내 기본 프로필은 내 개인 사진이 너무 많은데.. 그런 모습을 친하지 않은 사람에게 보이기 불편할때도 있으니. 

     이럴때 사용하면 편리한 기능인데 만약 친한 친구가 나를 멀티 프로필로 등록 해놓았고 내가 그걸 알게 되었다면,

     즉 멀프 당했다면 기분 나쁠수도 있을거같다.  

 

 

 

 

     동네에 이사가고 이사오는 사람들이 많아졌다.

     이삿짐 사다리차가 여러대 들어왔고 유심히 사다리차를 보니 훌라후프가 걸려져 있는것을 발견하였다.

 

                                                                                                

     예전부터 궁금했었다. 훌라후프의 용도가 뭘까?              

      내려가서 물어봤다.

      "훌라후프는 사다리차에 무거운 짐이나 가구(침대, 장농, 냉장고 등)를 이삿짐 차에 실을때 무겁기 때문에                       옮기기 힘드니 선반 바닥에 훌라후프를 깔고 그 위에 짐을 올린 다음 방향게 맞게 전후좌우로 회전시켜                         이동을 쉽게 하기위한  도구로 사용된다"

 

 

 

 

 

   

    <몰아 보고 싶어요?> 

         글/이일준(정신건강의학 전문의)

         feature editor KIM EUN HEE

 

 

     구독 가능한 OTT (Over The Top : 셋톱박스(Top)를 넘어) 플랫폼이 많아졌다.

     넷플릭스는 정기구독으로 보고 있고 티빙은 보고싶은 프로그램이 있을때 월별 결제해서 보곤한다.

     사실 나는 드라마를 볼때 매주 다음화를 기다리지 못해 종영이 된 후에 1화부터 시작한다.

     즉, 몰아보는 것을 선호하는 편이다.

     그러다 보니 '몰아 보고 싶어요?' 제목을 보고 글을 안 읽을수가 없었다.

 

     보통 콘텐츠 제공자들은 드라마 방영 시간에 맞춰 일주일에 1-2편씩 콘텐츠를 공개하지만 

     넷플릭스는 전편을 한번에 공개하는 몰아보기 전략을 사용하고 있다.

     개인적으로 최근에 드라마 '모범형사2'를 재밌게 봤는데 티빙에서는 매주 1-2편씩 공개가 되었는데

     넷플릭스는 '모범형사2' 종영 후 전편(1화-16화)을 한번에 공개 했다. 

     이러한 몰아보기 전략에 대해 넷플릭스 CEO 리드 헤이스팅스(Reed Hastings)는

     소비자들이 점점 더 컨트롤의 자유를 원한다고 이야기했다.

     소비자에게 더 많은 자유와 자율을 주는것.

     원하는 시간에 어디서든 시청할 수 있는 환경을 제공하고, 보고 싶은것을 원하는 만큼 볼 수 있는 자유를 원한다는 것이다.

     그렇다면 이런 넷플릭스의 몰아보기 전략이 소비자들에게 컨트롤의 자유를 준 것일까? 

 

     본문 내용에서 에디터는 질문을 던진다.

     영화 <매트릭스1>의 한장면으로 오라클이 주인공 네오에게 "꽃병을 조심해"라고 한다.

     깜짝 놀란 네오는 뒤돌아보다 꽃병을 건드려 넘어뜨리게 된다.

     그렇다면 꽃병을 깨뜨린 건 네오일까, 오라클일까?

     난 당연히 네오라고 생각했다. 네오가 꽃병을 건드려서 넘어뜨린거니까 네오가 꽃병을 깨뜨린거라고 할 수 있지만

     오라클의 말에 네오가 놀라서 꽃병을 깨뜨리게 된거이기도 하니까 오라클 때문일 수도 있다고 말한다.

     즉, 행동은 네오가 했지만, 그 행동에 대한 통제권은 오라클이 쥐고 있었던 것이라고.

 

     넷플릭스로 돌아가서 넷플릭스는 시청자들에게 선택의 폭을 넓혀주었지만 이 선택의 폭이 정말 소비자에게 자유를 준것일까?

     넷플릭스를 보느라 할 일을 제대로 못하고, 밤새도록 보느라 잠도 못자고, 그 다음날 일에 지장이 생긴적이 있지 않은가?

     그렇다면 여기서 잠을 못자고, 할 일을 제대로 못하고, 일에 지장이 생기게 한 건, 즉 몰아 보기 했던 그 행동의 주체는

     나일까, 콘텐츠를 제공한 넷플릭스일까? 

 

     행동의 주체를 찾을 때 중요한 질문 중 하나로 'Cui Bono Question' 이라는 것이 있다고 한다.

     라틴어로  '그것은 누구에게 이익이 되는가?' 라는 뜻이다.

     현대 사회에는 여가 시간이 점점 느는 만큼 어느 기업이 사람들의 시간을 많이 점유하느냐가 기업의 미래 성장성을 좌우한다는

     의견이 있다고 한다. 그렇기 때문에 기업들은 자사 앱에 사람들이 오래 머물도록 애쓴다.

     결국 사람들이 돈을 소비하는 시간은 여가 시간에서 나오기 때문이다. 

     이런 관점에서 몰아 보기 전략은 넷플릭스 안에서 사람들이 오래 머물도록 하는 것 이고 그렇다면 이익이 되는 건

     당연히 넷플릭스 아닐까?

     결론적으로 넷플릭스의 몰아 보기 전략이 시청자들에게 통제력을 준 듯 보이지만 실상은 그렇지 않은것이다.

 

     더 중요한 문제는 많은 학자들이 넷플릭스의 몰아 보기 전략이 중독, 과잉, 통제력 부족이라는 부정적인 함의

     지니고 있다고 주장한다.

     넷플릭스는 어떤 전략을 짜면 이용자들이 더 오래 넷플릭스에 머물지를 연구하고 적용하는, 기업의 이익을 최대화 하려는,

     소비자의 중독을 유발하는 집단일 뿐이다.

     갖가지의 전략이 치밀해질수록 어쩌면 미래의 우리는 중독을 유발하려는 기업과의 처절한 사투가 필요할지도 모를 일이다.

     기업들이 우리에게 내어준 자유를 진짜 자유라고 착각하지 말아야 할것이다.  

 

 

 

 

 

 

+ Recent posts