What does GPT-3 “know” about me?
Large language models are trained on troves of personal data hoovered from the internet. So I wanted to know: What does it have on me?
www.technologyreview.com
데이터 분석 공부를 하다보면 자연스럽게 개인정보 문제에 대해 생각하게된다.
최근들어 자연어 처리, 텍스트 분석, 언어 모델에 관심이 많아졌다.
사람이 쓴 것 같은 텍스트를 생성하는 대형언어모델(large language model),
OpenAI의 GPT-3, Google의 람다(LaMDA), Meta의 OPT-175B 등, 은 어떻게 학습되는지 찾던 중
이 글을 접하게 되었다.
언어 모델이 발전함에 따라 더 능력 있고, 일반적이고 유용해져서 질문 답변, 번역 등과 같은 응용 프로그램 에서
획기적인 향상을 가져왔지만 역시나 개인정보 문제는 피하지 못했다.
대형언어모델은 방대한 텍스트 데이터를 기반으로 훈련하는 딥러닝 알고리즘인데 여기서 훈련시키는
텍스트 데이터는 공개적으로 이용 가능한, 인터넷에 사람들이 작성한 텍스트를 기반으로 한다.
내가 블로그에 쓴 글이나 사진, 또는 게시물에 단 댓글까지, 모든 텍스트 데이터를 수집하여 훈련시킨다.
이 글을 쓴 멜리사 헤이킬레(Melissa Heikkilä)는 GPT-3 모델이 그녀에 대해 얼마나 아는지 대해 궁금하여
GPT-3 모델에게 자신에 대해 물어보았다.
그녀가 누구인지는 정확히 맞췄지만 그 외에 그녀에 대해서 알지 못했다.
그 이유에 대해서 그녀는 자신은 태어나서 현재까지 유럽에서 살고 있고 유럽에서는 2018년부터 강력한
개인정보 보호 방침인 '유럽연합 일반 개인정보 보호법(General Data Protection Regulation, GDPR)'
이 시행 되고 있기 때문에 가능한 일일지도 모른다고 했다.
그래서 그녀는 그녀의 상사인 MIT 테크놀로지 리뷰의 편집장 맷 호넌(Mat Honan)에 대해 얼마나 아는지
GPT-3 모델에 그에 대해서 물어보았다. 맷 호넌은 그녀와 달리 미국 캘리포니아에 살고 있으며 캘리포니아
데이터 보호법은 2020년이 되어서야 발효되었기에 그에 대해서는 더 많이 알 수 있을거라고 생각했다.
역시나 였다. 그가 누구인지 부터해서 그가 어디 사는지, 그의 가족, 직장 주소, 전화번호, 신용카드 번호 등
그에 대한 많은 정보를 알고있었다. 하지만 틀린 정보가 더 많았는데 난 이것이 정말 큰 문제라고 생각한다.
“GPT-3 predicts the next series of words based on a text input provided by the user. Occasionally, the model
may generate information that is not objectively accurate because it is trying to produce plausible text based
on statistical patterns in its training data and user-provided context; this is commonly known as ‘hallucination,’”
says an OpenAI spokesperson.
GPT-3 모델은 사용자가 제공한 텍스트 입력을 기반으로 다음 단어를 예측하는데 때때로 모델은 훈련 데이터
및 사용자 제공 텍스트의 통계적 패턴을 기반으로 그럴듯한 텍스트를 생성하려고 하기 때문에 객관적으로
정확하지 않은 정보를 생성할 수 있다. 이것은 일반적으로 '환각'이라고 알려져 있다 라고 OpenAI 대변인이
말했다.
모델이 더 커질수록(더 방대한 양의 데이터를 학습할수록) 사람들에게 가짜 정보나 누군가에게 해가 될 수
있는 정보를 제공할 수 있고 그렇게 조작된 정보는 쉽게 사라지지 않을 가능성이 크고 삭제하기도 어려운
일이다.
또 다른 문제점으로는 대형언어모델의 데이터베이스에는 개발자들이 그들의 작업을 올리는 깃허브 (Github)의
소스 코드와 책과 같은 저작권이 있는 데이터도 포함되어 있을 가능성이 크다.
그 데이터를 가지고 학습을 한다면 이러한 언어모델을 사용해서 다른 곳에서 복사한 것이 분명한 코드들을
알아내고 그걸 이용자들이 사용 한다면 여기에는 어떤 법적 책임이 있을까?
이런일이 실제로 일어나고 있다고 한다.
언어 모델이 인종차별적, 성차별적, 폭력적 사고방식을 어떻게 학습하는지 보여주는 연구가 이미 존재한다.
이 같은 언어 모델은 ‘의사’를 남성과, ‘간호사’를 여성과 연관 짓고, 좋은 의미의 단어는 백인과, 나쁜 의미의
단어는 흑인과 연관 짓는다. 이 모델에 우파 성향 단어를 던지면 대량학살, 자해, 아동성폭력 등을 부추기는
말을 하기 시작할 것이다. 이는 거짓 정보를 대량으로 유포하는 결과로 이어질 수 있다고 전문가들은 경고한다.
팀닛 게브루(Timnit Gebru), 구글의 인공지능 윤리그룹 리더였던 그녀는 위에 내용을 지적하며 앵무새처럼
노출된 데이터를 기반으로 반복학습하는 람다(구글 챗봇 AI)와 같은 거대 언어모델의 위험성을 경고하다 2020년
구글에서 해고됐다.
그녀와 논문 공동 저자였던 마가렛 미첼(Marget Mitchell) 또한 2021년 구글에서 해고되었다.
이런 상황에서는 인공지능에 대한 윤리적인 문제는 끊임없이 제기 될 것이다.
데이터 분석일을 하고 싶은 사람으로써 신중하게 고민해보아야 할 문제가 아닌가 싶다.
'AI' 카테고리의 다른 글
[MIT Technology Review] Technology that lets us “speak” to our dead relatives has arrived. Are we ready? (0) | 2022.11.07 |
---|---|
<Processing> Image-Rasterizer (0) | 2022.10.11 |
[Google Imagen] A text-to-image diffusion model (0) | 2022.10.09 |
[Stable Diffusion] 딥러닝 텍스트 이미지 모델 (1) | 2022.10.06 |
[뉴스 기사] Google Search is changing, in a big way (0) | 2022.08.26 |