2025. 12. 26. 07:00ㆍ과학/IT
1. 모델 중심에서 데이터 중심으로의 패러다임 전환
인공지능(AI) 기술의 발전사는 오랫동안 알고리즘 아키텍처의 혁신에 의해 주도되어 왔습니다. 2012년 AlexNet이 등장하며 합성곱 신경망(CNN)의 시대를 열었고, 2017년 구글이 "Attention Is All You Need" 논문을 통해 트랜스포머(Transformer) 구조를 제안하면서 자연어 처리(NLP) 분야의 비약적인 도약을 이끌어냈습니다. 지난 10년 이상 연구자들과 엔지니어들의 주된 관심사는 신경망의 깊이(Depth), 레이어의 연결 방식, 활성화 함수의 최적화 등 '모델(Model)'과 '코드(Code)' 그 자체에 집중되어 있었습니다. 이 시기의 지배적인 개발 방법론은 데이터를 고정된 상수(Fixed Variable)로 간주하고, 이 고정된 데이터셋 위에서 모델의 아키텍처를 반복적으로 수정하며 성능을 0.1%라도 높이려는 '모델 중심 AI(Model-centric AI)' 접근법이었습니다.
그러나 최근 몇 년 사이, 특히 거대 언어 모델(Large Language Models, LLM)의 파라미터 수가 수천억 개를 넘어서고 학습에 필요한 데이터가 인터넷 전체의 텍스트 양에 육박하게 되면서, AI 성능을 결정짓는 핵심 변수가 모델의 구조보다는 학습 데이터의 양, 질, 다양성, 그리고 큐레이션(Curation) 방식에 있다는 사실이 명확해지고 있습니다. 앤드류 응(Andrew Ng) 교수를 필두로 한 선도적인 연구자들은 이러한 흐름을 '데이터 중심 AI(Data-centric AI)'라고 정의하며, AI 개발의 무게중심을 코드에서 데이터로 옮겨야 한다고 강력히 주장하고 있습니다.
데이터 중심 AI 패러다임에서 데이터는 더 이상 수동적인 원재료가 아닙니다. 데이터는 모델의 지능을 형성하는 능동적인 주체이며, 데이터를 수정하고 정제하는 행위 자체가 프로그래밍의 일환으로 간주됩니다. 연구 결과에 따르면, 모델 아키텍처를 고정한 상태에서 데이터의 노이즈를 제거하고 라벨의 일관성을 확보하는 것만으로도, 최신 모델을 적용하는 것보다 훨씬 더 큰 성능 향상을 이룰 수 있음이 입증되었습니다.
본 블로그는 이러한 패러다임의 전환을 배경으로, 학습 데이터와 AI 간의 다차원적이고 복잡한 관계를 포괄적으로 조사하고 분석합니다. 단순히 데이터가 AI의 연료라는 비유적 설명을 넘어, 데이터의 통계적 특성이 모델의 학습 역학(Dynamics)에 미치는 영향을 수학적 스케일링 법칙(Scaling Laws)을 통해 규명하고, 데이터의 편향(Bias)이 실제 서비스에서 어떤 사회적 파장을 일으키는지 구체적인 사례(Gemini, Llama 3 등)를 통해 분석합니다. 또한, 자연어 데이터의 고갈에 대응하기 위한 합성 데이터(Synthetic Data)의 부상과 그에 따른 '모델 붕괴(Model Collapse)'의 위험성, 그리고 이를 통제하기 위한 최신 정렬 기술(Constitutional AI)과 법적 규제(EU AI Act)의 현황까지 심도 있게 다룰 것입니다.
2. 이론적 기초: 학습 데이터가 인공지능을 형성하는 메커니즘
인공지능 모델이 데이터를 통해 '학습'한다는 것은 구체적으로 어떤 의미를 가질까요? 이를 이해하기 위해서는 기계 학습의 주요 방법론인 지도 학습, 비지도 학습, 그리고 강화 학습에서 데이터가 수행하는 각각의 고유한 역할을 분석할 필요가 있습니다.
2.1 지도 학습(Supervised Learning)과 GIGO 원칙
지도 학습은 입력(Input, Features)과 정답(Output, Labels)이 쌍을 이루는 데이터를 통해 모델이 입력에서 출력으로 이어지는 함수 관계를 근사(Approximation)하도록 훈련하는 과정입니다. 이 과정에서 데이터는 모델이 세상을 이해하는 유일한 창(Window)이자 기준점 역할을 합니다. 예를 들어, 이미지를 분류하는 작업에서 '고양이'라는 라벨이 붙은 이미지 데이터셋은 모델에게 고양이의 시각적 특징(귀의 모양, 털의 질감 등)을 정의하는 규범이 됩니다.
데이터의 역할은 단순히 패턴을 제공하는 것에 그치지 않습니다. 분류(Classification) 문제에서 데이터 포인트들은 고차원 공간 상의 분포를 형성하며, 모델은 이 데이터들 사이의 결정 경계(Decision Boundary)를 긋는 법을 배웁니다. 회귀(Regression) 문제에서는 변수 간의 상관관계와 인과관계를 추론하는 기초가 됩니다.
이때 가장 중요하게 작동하는 원칙이 바로 GIGO(Garbage In, Garbage Out)입니다. 입력 데이터의 품질이 낮거나, 라벨링이 부정확하거나(Label Noise), 데이터가 현실 세계의 복잡성을 충분히 반영하지 못할 경우, 아무리 정교한 최신 아키텍처를 가진 모델이라도 필연적으로 잘못된 결과를 도출하게 됩니다. 예를 들어, 전자상거래 상품 분류 모델을 개발할 때, "Apple iPhone"이라는 입력 데이터에 대해 어떤 라벨러는 "Electronics"로, 다른 라벨러는 "Accessories"로 일관성 없이 태깅한다면, 모델은 혼란에 빠져 수렴하지 못하거나 낮은 신뢰도의 예측을 내놓을 것입니다. 따라서 지도 학습에서 데이터의 품질, 특히 라벨의 정확성(Consistency)은 모델 성능의 상한선을 결정하는 가장 중요한 요소입니다.
2.2 비지도 학습(Unsupervised Learning)과 잠재 표현의 학습
최근 거대 언어 모델(LLM)의 폭발적인 성장을 이끈 핵심 동력은 비지도 학습, 더 정확히는 자기 지도 학습(Self-Supervised Learning)입니다. 이 방식에서는 별도의 정답 라벨 없이, 방대한 텍스트 데이터 자체를 입력으로 사용하여 "다음 단어 예측(Next Token Prediction)"과 같은 과제를 수행합니다.
여기서 데이터의 역할은 근본적으로 변화합니다. 지도 학습의 데이터가 '정답지' 역할을 했다면, 비지도 학습의 데이터는 '교과서'이자 '세상 그 자체'가 됩니다. 모델은 수조 개의 텍스트 데이터를 읽으면서 언어의 문법적 구조, 단어 간의 의미적 관계, 논리적 추론 능력, 그리고 역사, 과학, 문화 등 세상에 대한 사실적 지식(World Knowledge)을 스스로 파악하여 모델의 파라미터(Weights) 안에 압축 저장합니다.
이 과정에서 데이터는 모델의 잠재 표현(Latent Representation)을 형성합니다. 데이터가 풍부하고 다양할수록 모델은 더 정교하고 세밀한 잠재 공간(Latent Space)을 구축할 수 있으며, 이는 모델이 본 적 없는 새로운 상황에 직면했을 때도 그럴듯한 답을 유추해낼 수 있는 일반화(Generalization) 능력의 원천이 됩니다. 반대로, 학습 데이터가 특정 주제나 스타일에 편중되어 있다면 모델의 잠재 공간 역시 왜곡되어, 편협한 사고나 지식의 공백(Hallucination)을 드러내게 됩니다.
2.3 강화 학습(Reinforcement Learning)과 보상 신호
강화 학습에서 데이터는 에이전트(Agent)가 환경과 상호작용하며 얻는 '경험(Experience)'과 '보상(Reward)'의 형태로 존재합니다. 에이전트는 시행착오를 통해 누적 보상을 최대화하는 행동 정책(Policy)을 학습합니다. 최근 LLM의 정렬(Alignment) 과정에서 사용되는 인간 피드백 기반 강화 학습(RLHF)에서는 인간의 선호도(Preference) 데이터가 보상 모델을 학습시키는 핵심 재료가 됩니다.
이 경우, 데이터는 모델에게 "무엇이 사실인가"를 가르치는 것이 아니라, "무엇이 바람직한가"를 가르칩니다. 즉, 데이터는 사실적 지식의 원천이 아니라 윤리적 가치 판단과 행동 양식의 기준점이 됩니다. 따라서 보상 모델 학습에 사용되는 데이터가 인간의 보편적 가치를 잘 반영하고 있는지, 아니면 특정 집단의 편향된 선호도를 반영하고 있는지가 AI의 윤리적 행동을 결정짓는 결정적 변수가 됩니다.
3. 스케일링 법칙(Scaling Laws)의 진화: 양(Quantity)과 질(Quality)의 수학적 관계
AI 모델의 성능이 모델의 크기(N), 데이터의 양(D), 그리고 투입된 계산 자원(C)에 따라 어떻게 변화하는지를 설명하는 '스케일링 법칙(Scaling Laws)'은 AI 연구 개발의 나침반 역할을 해왔습니다. 이 법칙의 진화 과정은 데이터의 중요성에 대한 인식이 어떻게 변화했는지를 극명하게 보여줍니다.
3.1 Kaplan 스케일링 법칙 (2020): "크기가 깡패다 (Bigger is Better)"
2020년 OpenAI의 Jared Kaplan 등은 초기 스케일링 법칙 연구를 발표했습니다. 이 연구는 모델의 성능(Loss)이 모델 크기, 데이터 양, 계산 자원과 멱법칙(Power Law) 관계를 가진다고 분석했습니다. 당시 연구의 결론은 모델의 파라미터 수를 늘리는 것이 데이터 양을 늘리는 것보다 성능 향상에 더 효율적이라는 것이었습니다. 이 법칙에 따르면, 데이터 양을 고정한 상태에서도 모델 크기만 키우면 성능이 지속적으로 향상될 수 있었습니다.
이 이론적 배경 하에 GPT-3(1750억 파라미터)와 같은 초거대 모델들이 탄생했습니다. 당시 GPT-3는 약 3000억(300B) 토큰의 데이터로 학습되었는데, 이는 파라미터 당 약 1.7 토큰의 비율에 불과했습니다.13 즉, "데이터는 거들 뿐, 모델의 크기가 성능을 좌우한다"는 믿음이 지배적이었습니다.
3.2 Chinchilla 스케일링 법칙 (2022): 데이터 최적화의 발견
2022년 DeepMind의 Jordan Hoffmann 등은 기존의 믿음을 뒤집는 'Chinchilla' 연구 결과를 발표했습니다. 그들은 고정된 계산 예산(Compute Budget) 하에서 최적의 성능을 내기 위해서는 모델 크기와 데이터 양을 균형 있게 동시에 늘려야 한다고 주장했습니다. 구체적으로, 모델 파라미터 하나당 약 20개의 토큰이 필요하다는 '데이터 최적(Data-optimal)' 비율을 제시했습니다.
이 법칙에 따르면, 당시의 거대 모델들은 심각한 '과소 학습(Undertrained)' 상태였습니다. 예를 들어, GPT-3(175B)를 최적으로 학습시키기 위해서는 3000억 토큰이 아니라 약 3.5조(3.5T) 토큰이 필요했습니다. 이는 동일한 성능을 내기 위해 훨씬 작은 모델을 더 많은 데이터로 학습시키는 것이 효율적임을 의미했습니다. Chinchilla 법칙의 발견은 AI 경쟁의 초점을 "누가 더 큰 모델을 만드는가"에서 "누가 더 많은 양질의 데이터를 확보하는가"로 이동시켰으며, Llama 시리즈와 같은 '작지만 강한' 모델들이 등장하는 이론적 토대가 되었습니다.
3.3 품질 인식 스케일링 법칙 (Quality-Aware Scaling Laws, 2025): 질(Quality)의 정량화
2024년과 2025년에 걸쳐 발표된 최신 연구들은 단순히 데이터의 양(D)뿐만 아니라 데이터의 품질(Q)을 명시적인 변수로 포함하는 새로운 스케일링 법칙을 제안하고 있습니다. 최근 arXiv에 공개된 연구들은 다음과 같은 확장된 공식을 제시합니다:

여기서 Q는 데이터의 품질을 나타내는 무차원(Dimensionless) 파라미터이며 0 < Q ≤ 1의 범위를 가집니다. Q=1은 완벽하게 깨끗하고 대표성이 있으며 정보량이 풍부한 이상적인 데이터를 의미하며, Q 값이 낮을수록 데이터의 부패(Corruption), 노이즈, 중복(Redundancy)이 심함을 나타냅니다.
이 공식은 유효 표본 크기(Effective Sample Size, ESS) 개념에 기반합니다. 품질이 낮은 데이터는 정보량이 적거나 중복이 많아, 실제 학습에 기여하는 유효한 데이터의 양(Deff)을 감소시킵니다. 즉, 품질이 낮은 데이터 100만 개는 고품질 데이터 10만 개보다 학습 효과가 떨어질 수 있음을 수학적으로 증명합니다. 이는 "더 많은 데이터(Big Data)"가 항상 정답이 아니며, "더 좋은 데이터(Good Data)"가 모델 크기의 한계를 극복할 수 있음을 시사합니다.
실제로 DeepSeek와 Tsinghua 대학의 연구 결과에 따르면, 고품질 데이터를 사용할 경우 파라미터 당 필요한 토큰의 비율이 기존의 20:1을 넘어 192:1까지 증가할 수 있음이 관찰되었습니다. 이는 고품질 데이터가 있다면 모델을 훨씬 더 오랫동안 학습시켜도 과적합(Overfitting) 없이 성능을 지속적으로 향상시킬 수 있음을 의미하며, 데이터 품질 관리가 모델의 잠재력을 최대한 이끌어내는 열쇠임을 보여줍니다.
표 1. 주요 스케일링 법칙 비교
| 법칙 (Scaling Law) | 발표 연도 및 기관 | 핵심 주장 | 최적 토큰/파라미터 비율 | 시사점 및 영향 |
| Kaplan Scaling | 2020 (OpenAI) | 모델 크기가 성능에 가장 결정적. 데이터보다 파라미터 수 증가가 효율적. | ~1.7 : 1 | 거대 모델(GPT-3 등) 개발 경쟁 촉발. "Bigger is Better" |
| Chinchilla Scaling | 2022 (DeepMind) | 데이터 양과 모델 크기는 1:1로 비례하여 증가해야 함. 기존 모델은 과소 학습됨. | ~20 : 1 | 데이터 부족(Data Starvation) 문제 제기. 효율적인 소형 모델(Llama 등) 등장. |
| Llama 3 Scaling | 2024 (Meta) | 모델 수렴(Convergence) 시점보다 훨씬 더 오래 학습해도 성능 향상 지속. | ~75+ : 1 | 과잉 학습(Over-training)의 효용성 입증. 데이터 품질의 중요성 강조. |
| Quality-Aware | 2025 (학계) | 데이터 품질($Q$)이 유효 데이터 양($D_{eff}$)을 결정함. 저품질 데이터는 학습 효율 저하. | 가변적 ($Q$에 의존) | 데이터 큐레이션, 필터링, 정제 기술의 중요성 극대화. Smart Data 시대. |
4. 데이터 품질과 큐레이션: "Textbooks Are All You Need"
데이터의 양적 확장이 한계에 부딪히면서(인터넷의 모든 텍스트를 다 써버리는 시점), 데이터의 '밀도(Density)'와 '품질'을 높이는 기술이 핵심 경쟁력이 되었습니다. 모든 데이터를 무차별적으로 학습시키는 것이 아니라, 모델에게 도움이 되는 데이터만을 선별하여 학습시키는 '데이터 큐레이션'이 AI 성능의 차별화 요소로 부상했습니다.
4.1 마이크로소프트의 Phi 모델과 교과서 품질(Textbook Quality) 데이터
마이크로소프트의 Phi-1 모델은 데이터 품질이 AI 성능에 미치는 영향을 극적으로 보여준 대표적인 사례입니다. Phi-1은 불과 13억(1.3B) 개의 파라미터를 가진 매우 작은 모델임에도 불구하고, 훨씬 거대한 모델들을 코딩 벤치마크(HumanEval, MBPP)에서 능가하는 놀라운 성능을 보여주었습니다. 그 비결은 바로 '교과서 품질(Textbook Quality)'의 데이터였습니다.
기존의 LLM들은 웹 크롤링을 통해 수집된 방대한 데이터(The Stack, CommonCrawl 등)를 사용했는데, 여기에는 코딩 문법 오류, 비효율적인 코드, 중복된 내용, 교육적으로 가치가 없는 정보들이 다수 포함되어 있었습니다. Phi-1 연구진은 이러한 '날것(Raw)'의 데이터를 그대로 사용하는 대신, 다음과 같은 정교한 큐레이션 파이프라인을 구축했습니다:
- 품질 분류기(Classifier) 훈련: GPT-4와 같은 상위 모델을 사용하여 소량의 데이터 샘플에 대해 "이 코드가 교육적 가치가 있는가?"를 기준으로 점수를 매기게 했습니다. 이 레이블링된 데이터를 바탕으로 전체 데이터셋을 평가할 수 있는 '랜덤 포레스트(Random Forest)' 분류기를 훈련시켰습니다.
- 데이터 필터링: 훈련된 분류기를 사용하여 웹 데이터 중 교육적으로 유용하고, 논리적이며, 설명이 잘 되어 있는 데이터만을 엄선했습니다. 이 과정을 통해 수백 기가바이트의 데이터가 수 기가바이트의 '고밀도' 데이터로 압축되었습니다.
- 합성 데이터 주입: 여기에 더해, GPT-3.5를 사용하여 논리적 추론과 기본 코딩 개념을 설명하는 고품질의 합성 교과서 및 연습문제 데이터를 생성하여 추가했습니다.
이 연구 결과는 "쓰레기 데이터 100톤보다 다이아몬드 같은 데이터 1kg이 낫다"는 것을 실증하며, 데이터의 양보다 질이 모델의 추론 능력 향상에 결정적임을 증명했습니다.
4.2 데이터 프루닝(Pruning)과 필터링 기술: 무엇을 버릴 것인가
데이터 중심 AI의 핵심 질문은 "어떤 데이터를 더할 것인가"가 아니라 "어떤 데이터를 버릴 것인가"입니다. 데이터 프루닝 기술은 전체 데이터셋에서 모델 학습에 기여도가 낮은 데이터(Easy samples) 혹은 학습을 방해하는 데이터(Noisy/Mislabeled samples)를 제거하는 기법입니다.
- 어려움 점수(Difficulty Scores) 활용: 모델이 이미 잘 예측하는 쉬운 데이터는 학습 초기에만 유용하고 나중에는 계산 자원만 낭비하게 됩니다. 반면, 모델이 예측하기 어려워하는 데이터(Hard samples)는 더 많은 정보량(Gradient)을 제공할 가능성이 높습니다.
- 중복 제거(Deduplication): 웹 데이터에는 동일한 문장이나 문서가 수없이 복제되어 있습니다. 이러한 의미적 중복(Semantic Duplicates)을 MinHash나 임베딩 기반 클러스터링을 통해 제거함으로써, 모델이 특정 문장을 단순히 암기(Memorization)하는 것을 방지하고 학습 효율을 높일 수 있습니다.
- 클러스터링 기반 선별 (InfoMax): 데이터 공간을 클러스터링하고 각 클러스터의 중심(Centroid)이 아닌, 가장자리나 중심에서 먼 샘플들을 선택하는 'Furthest-from-Centroid' 방식이 무작위 샘플링보다 월등한 성능을 보인다는 연구 결과가 있습니다. 이는 데이터의 다양성(Diversity)을 극대화하여 모델이 더 넓은 범위를 학습하도록 돕습니다.
- InfoMax 알고리즘: 최신 연구인 InfoMax는 선택된 샘플들의 정보량(Informativeness)을 최대화하면서 샘플 간의 중복(Redundancy)을 최소화하는 최적화 문제를 풂으로써, 데이터셋 크기를 10%로 줄여도 성능을 유지하거나 향상시키는 결과를 보여주었습니다.
이러한 큐레이션 파이프라인은 단순히 노이즈를 제거하는 전처리를 넘어, 데이터의 정보 밀도(Information Density)를 최적화하여 "Smart Data"를 구축하는 고도의 엔지니어링 과정으로 진화하고 있습니다.
5. 합성 데이터(Synthetic Data): 기회와 위협의 양날의 검
자연어 데이터의 고갈 문제와 개인정보 보호 이슈에 대한 해결책으로, AI가 생성한 데이터를 다시 AI 학습에 활용하는 '합성 데이터(Synthetic Data)'가 급부상하고 있습니다. 그러나 이는 동시에 AI 생태계의 근간을 흔들 수 있는 심각한 잠재적 위협을 내포하고 있습니다.
5.1 합성 데이터의 필요성과 성공 사례: Cosmopedia
합성 데이터는 인간이 생성한 데이터(Human-generated data)의 한계를 극복하기 위해 필수불가결한 요소가 되고 있습니다.
- 데이터 희소성 해결: 코딩, 수학, 희귀 언어, 전문 의학 지식 등 인간이 생성한 텍스트가 부족한 영역에서 합성 데이터는 유일한 대안입니다.
- 개인정보 보호(Privacy): 민감한 의료 데이터나 금융 데이터를 직접 사용하는 대신, 통계적 속성만 유지한 가상의 합성 데이터를 생성하여 GDPR이나 HIPAA 등 규제를 준수하면서도 AI를 학습시킬 수 있습니다.
- Cosmopedia 프로젝트: Hugging Face의 Cosmopedia 프로젝트는 합성 데이터의 가능성을 보여준 대표적인 사례입니다. 이 프로젝트는 Mixtral-8x7B 모델을 사용하여 약 250억 토큰 분량의 합성 교과서, 블로그, 위키 기사, 스토리 등을 생성했습니다. 단순히 데이터를 생성한 것이 아니라, "중학생을 대상으로", "학술적인 톤으로", "여행 블로그 스타일로" 등 다양한 페르소나와 주제를 설정한 정교한 프롬프트 엔지니어링을 통해 데이터의 다양성을 확보했습니다. 이렇게 생성된 Cosmopedia 데이터로 학습된 1B 모델(Cosmo-1b)은 실제 웹 데이터로 학습된 동급 모델들과 대등하거나 우수한 성능을 보였습니다.
5.2 모델 붕괴(Model Collapse)와 '합스부르크 AI'의 위협
그러나 합성 데이터에 과도하게 의존할 경우, 모델의 성능이 세대를 거듭할수록 급격히 저하되고 현실 인식이 왜곡되는 '모델 붕괴(Model Collapse)' 현상이 발생할 수 있습니다. Nature에 게재된 연구와 관련 분석들에 따르면, AI 모델이 자신이 생성한 데이터(또는 다른 AI가 생성한 데이터)를 반복적으로 학습하면 다음과 같은 현상이 발생합니다:
- 분포의 꼬리 절단(Loss of Tails): 모델은 학습 데이터의 평균적인 패턴을 모방하는 경향이 있습니다. 합성 데이터가 반복될수록 데이터 분포의 꼬리 부분에 해당하는 드물지만 중요한 정보, 창의적인 표현, 예외적인 케이스들이 사라지고 데이터가 획일화됩니다.
- 현실과의 괴리: 1세대 모델의 미세한 오류나 편향이 2세대, 3세대를 거치며 증폭됩니다. 결국 모델은 현실 세계의 복잡성을 이해하지 못하고, AI들끼리만 통하는 왜곡된 현실이나 환각(Hallucination)을 진실로 받아들이게 됩니다.
- 지각 불가능한 품질 저하: 초기에는 성능 저하가 눈에 띄지 않지만, 일정 세대가 지나면 갑자기 모델이 횡설수설하거나(Gibberish) 완전히 무너지는 임계점에 도달합니다.
이 현상은 마치 근친혼으로 인해 유전적 결함이 축적되어 몰락한 합스부르크 왕가에 비유되어 '합스부르크 AI(Hapsburg AI)'라고 불리기도 합니다. 인터넷상의 콘텐츠가 점점 AI 생성물로 채워지면서, 미래의 AI가 학습할 '깨끗한 인간 데이터'가 오염되고 있다는 점은 AI 발전의 지속가능성에 대한 심각한 경고입니다.
5.3 해결책: 하이브리드 전략과 데이터 다양성 확보
모델 붕괴를 방지하기 위해서는 합성 데이터 사용에 대한 신중한 전략이 필요합니다.
- 하이브리드 학습(Hybrid Training): 합성 데이터와 인간이 생성한 '진짜 데이터(Real Data)'를 적절한 비율로 혼합(Mixing)하여 학습시키는 것이 필수적입니다. 연구 결과, 합성 데이터만 사용했을 때는 모델 붕괴가 발생했지만, 인간 데이터를 일정 비율 섞었을 때는 성능 저하가 억제되거나 지연됨이 확인되었습니다.
- 엔트로피 최대화 전략: 합성 데이터를 생성할 때 모델의 출력을 다양하게(High Temperature Sampling) 하거나, 창의적인 프롬프트를 사용하여 데이터의 다양성(Entropy)을 강제로 높이는 방법이 사용됩니다.
- 데이터 어닐링(Data Annealing): 학습 초기에는 합성 데이터를 많이 사용하더라도, 학습 후반부에는 고품질의 인간 데이터를 집중적으로 학습시켜 모델을 현실 세계에 다시 정렬(Re-alignment)시키는 기법이 효과적입니다.
6. 데이터 편향(Bias)과 공정성(Fairness): 사회적 거울로서의 AI
AI는 학습 데이터를 통해 인간 사회의 지식뿐만 아니라 편견, 차별, 고정관념까지 그대로, 때로는 증폭하여 학습합니다. 데이터의 통계적 편향이 AI 알고리즘을 거쳐 사회적 차별로 이어지는 과정은 기술적 문제를 넘어 윤리적, 법적 책임의 문제가 되고 있습니다.
6.1 편향의 종류와 원인
- 역사적 편향(Historical Bias): 데이터 자체가 과거의 차별적 역사와 사회 구조를 반영하고 있는 경우입니다. 예를 들어, 과거 수십 년간의 채용 데이터에 남성 중심의 고용 관행이 있었다면, 이를 학습한 AI 채용 도구는 여성 지원자에게 낮은 점수를 부여하는 차별을 재현하게 됩니다. 이는 데이터가 '정확'하더라도 '공정'하지 않을 수 있음을 시사합니다.
- 표현 편향(Representation Bias): 데이터 수집 과정에서 특정 인구 집단이 과소(Under-represented)하거나 과대(Over-represented)하게 포함되는 현상입니다. 예를 들어, 인터넷 데이터의 대부분이 영어와 서구권 문화에 치우쳐 있어, AI 모델이 비주류 언어나 문화권에 대해서는 낮은 성능을 보이거나 문화를 오해하는 결과를 낳습니다. 얼굴 인식 데이터셋에 백인 남성 사진이 압도적으로 많아 흑인 여성에 대한 인식률이 현저히 떨어지는 사례가 대표적입니다.
- 알고리즘 편향(Algorithmic Bias) 및 측정 편향: 모델이 학습 손실(Loss)을 최소화하는 과정에서, 데이터 수가 많은 다수 그룹의 정확도를 높이기 위해 소수 그룹의 오차를 무시하는 경향입니다. 또한, '좋은 직원'이나 '신용 위험'과 같은 추상적인 개념을 측정 가능한 데이터(예: 근속 연수, 연체 기록)로 변환하는 과정(Proxy)에서 발생하는 왜곡도 포함됩니다.
6.2 사례 연구: Gemini와 Llama 3의 편향 논란
최근 발생한 두 가지 사건은 데이터 편향과 이를 바로잡으려는 시도(Correction)가 어떻게 또 다른 문제를 일으킬 수 있는지를 극명하게 보여줍니다.
- Google Gemini 이미지 생성 논란 (2024): 구글의 Gemini 모델은 "미국 건국의 아버지들"이나 "2차 대전 독일 군인", "바이킹" 등을 그려달라는 요청에 흑인, 아시아인 등 유색인종을 포함한 이미지를 생성하여 역사 왜곡 논란을 일으켰습니다. 이는 구글이 학습 데이터의 편향(백인 중심의 역사 이미지)을 수정하기 위해 시스템 프롬프트(System Prompt)에 "다양한 인종과 성별을 포함하라"는 지시를 문맥 고려 없이 과도하게 적용(Over-correction)했기 때문입니다. 즉, 데이터의 편향을 기술적으로 강제 보정하려다 오히려 역사적 사실성(Factuality)을 해치는 '역편향'이 발생한 것입니다.
- Meta Llama 3의 거부 편향(Refusal Bias): Llama 3 초기 버전은 안전(Safety) 튜닝이 지나쳐, "자동차 시동 거는 법"이나 "살인자 소설을 써줘"와 같은 무해하거나 창작적인 요청조차 "위험하다"거나 "비윤리적이다"라고 판단하여 답변을 거부하는 현상을 보였습니다. 이는 안전성을 위한 학습 데이터(Safety Data)가 특정 키워드(예: kill, attack)에만 민감하게 반응하도록 모델을 편향시켰고, 문맥(Context)을 이해하는 능력을 저하시켰기 때문입니다. Meta는 이후 데이터 큐레이션을 개선하여 '거짓 거부(False Refusal)'율을 낮춘 업데이트를 진행했습니다.
6.3 편향 완화 기술: 전처리, 모델 내 처리, 후처리
이러한 편향 문제를 해결하기 위해 AI 개발 단계별로 다양한 기술적 접근이 시도되고 있습니다.
- 전처리(Pre-processing): 가장 직관적인 방법으로, 학습 데이터 자체를 수정합니다. 소수 그룹 데이터를 더 많이 수집하거나 복제하는 리샘플링(Resampling), 편향을 유발하는 민감 속성(성별, 인종 등)과 상관관계가 높은 특징을 제거하거나 가중치를 조정(Reweighting)하는 방법이 있습니다.
- 모델 내 처리(In-processing): 모델 학습 과정에 공정성 제약 조건(Fairness Constraint)을 추가합니다. 대표적으로 적대적 디바이어싱(Adversarial Debiasing)은 모델이 주 작업(예: 채용 예측)을 수행하는 예측기(Predictor)와, 그 예측 결과만 보고 민감 속성(예: 성별)을 맞추려는 적대적 신경망(Adversary)을 경쟁시키는 구조입니다. 예측기는 적대적 신경망이 성별을 맞추지 못하게(즉, 성별 정보를 포함하지 않은 예측 결과를 내도록) 학습되므로, 결과적으로 편향이 제거된 잠재 표현을 학습하게 됩니다.
- 후처리(Post-processing): 모델 학습이 완료된 후, 모델의 출력 확률 분포를 조정합니다. 예를 들어, 특정 그룹에 대한 합격률이 낮다면 임계값(Threshold)을 조정하여 기회의 평등(Equal Opportunity)을 맞추는 방식입니다. 그러나 이는 근본적인 해결책이라기보다는 결과의 형평성을 맞추는 미봉책에 가깝습니다.
7. 정렬(Alignment) 기술: 데이터로 윤리를 가르치는 법
단순히 많은 데이터를 학습한다고 해서 AI가 인간의 가치에 부합하게 행동하는 것은 아닙니다. 인터넷 데이터에는 혐오 표현, 가짜 뉴스, 위험한 정보가 포함되어 있기 때문입니다. AI를 유해하지 않고(Harmless), 정직하며(Honest), 도움이 되도록(Helpful) 만들기 위해, 즉 인간의 의도와 가치에 정렬(Alignment)시키기 위해 데이터는 새로운 방식으로 활용됩니다.
7.1 RLHF (Reinforcement Learning from Human Feedback)
현재 ChatGPT, Claude, Llama 등 대부분의 최신 LLM은 RLHF 기술을 통해 정렬됩니다. 이 과정은 다음과 같습니다:
- 지도 미세 조정(SFT): 인간이 작성한 모범 답안 데이터를 학습시켜 모델이 지시를 따르는 기본적인 능력을 갖추게 합니다.
- 보상 모델 학습: 모델이 생성한 여러 답변에 대해 인간 평가자(Labeler)가 "어떤 답변이 더 좋은가"를 선택하여 순위를 매깁니다(Preference Ranking). 이 데이터를 통해 인간의 선호도를 예측하는 보상 모델(Reward Model)을 학습시킵니다.
- 강화 학습(PPO): 본 모델이 보상 모델로부터 높은 점수를 받는 답변을 생성하도록 강화 학습을 수행합니다.
RLHF에서 데이터는 '사실적 정보'가 아니라 인간의 '주관적 선호와 가치관'을 데이터화한 것입니다. 그러나 이 방식은 인간 평가자의 편향이 개입될 수 있고, 비용이 많이 들며, 모델이 인간이 선호하는 '길고 장황한 답변'을 무조건적으로 생성하는 '길이 편향(Length Bias)'과 같은 부작용을 낳기도 합니다.
7.2 헌법적 AI (Constitutional AI)와 RLAIF
Anthropic은 인간 피드백의 한계를 극복하기 위해 **헌법적 AI(Constitutional AI)**를 제안했습니다.61 이 방법론은 인간이 일일이 라벨링을 하는 대신, AI에게 "헌법(Constitution)"이라 불리는 일련의 상위 원칙(예: "비폭력적이어야 한다", "차별하지 말아야 한다", "유엔 인권 선언을 준수하라")을 제공합니다.
이 과정은 **RLAIF (Reinforcement Learning from AI Feedback)**로 확장됩니다.
- AI가 유해한 질문에 대해 답변을 생성합니다.
- AI가 스스로 자신의 답변을 헌법에 비추어 비판(Critique)하고 수정(Revision)합니다.
- 이렇게 생성된 수정본 데이터를 학습하거나, AI가 직접 답변의 선호도를 판별하여 보상 모델을 학습시킵니다.66
이는 데이터 생성과 평가의 주체를 인간에서 AI(헌법을 따르는 AI)로 위임함으로써, 인간 레이블링의 병목 현상을 해결하고 데이터의 윤리적 일관성을 비약적으로 높이는 기술입니다. 데이터는 이제 인간의 노동 없이도, 인간이 정의한 원칙에 따라 스스로 증식하고 정제되는 단계로 진화했습니다.
8. 법적 규제와 데이터 거버넌스: EU AI Act와 저작권
데이터와 AI의 관계는 이제 기술적, 윤리적 영역을 넘어 법적, 규제적 영역의 핵심 쟁점이 되었습니다. 데이터의 품질과 출처, 저작권 문제는 AI 기업의 생존을 좌우하는 리스크 요인이 되고 있습니다.
8.1 EU AI Act와 데이터 품질 의무
2024년 발효된 세계 최초의 포괄적 AI 규제법인 EU AI Act는 데이터 거버넌스에 대해 매우 구체적이고 엄격한 의무를 부과하고 있습니다.
- 고위험(High-risk) AI 시스템: 의료, 채용, 신용 평가, 법 집행 등에 사용되는 고위험 AI 시스템에 대해, 제10조(Article 10)는 학습, 검증, 테스트 데이터셋이 "관련성 있고(relevant), 대표성이 있으며(representative), 오류가 없고(free of errors), 완전해야(complete) 한다"고 명시하고 있습니다. 이는 기술적으로 '무결점 데이터'를 요구하는 것이라기보다는, 최선의 데이터 품질 관리 체계를 갖추었음을 증명하라는 요구로 해석됩니다.
- 편향 모니터링 및 예외 허용: 데이터셋이 지리적, 행동적, 기능적 특성을 적절히 반영해야 하며, 편향을 감지하고 수정하기 위한 구체적인 조치를 취해야 합니다. 특히 주목할 점은, 편향 수정을 위해서라면 엄격한 개인정보 보호법(GDPR)의 예외를 인정하여 인종, 정치적 견해 등 민감한 개인정보(Special categories of personal data) 처리를 허용한다는 점입니다. 이는 공정성 확보를 위해 민감 데이터가 필수적이라는 기술적 현실을 법이 수용한 사례입니다.
- 범용 AI(GPAI) 모델: GPT-4와 같은 범용 모델 제공자는 학습에 사용된 콘텐츠의 상세한 요약본을 공개하고, EU 저작권법을 준수해야 할 의무를 집니다.
8.2 저작권 분쟁과 공정 이용(Fair Use)
AI 학습 데이터 수집을 위한 웹 스크래핑(Web Scraping)이 저작권 침해냐, 아니면 혁신을 위한 '공정 이용(Fair Use)'이냐를 둘러싼 법적 분쟁이 전 세계적으로 격화되고 있습니다.
- 주요 소송: 뉴욕타임스(NYT) 대 OpenAI/Microsoft, 게티이미지(Getty Images) 대 Stability AI, 작가들의 집단 소송 등이 진행 중입니다. 저작권자들은 AI 기업들이 자신의 저작물을 무단으로 학습하여, 원작의 스타일과 내용을 모방하고 시장을 대체(Market Substitution)하는 경쟁 상품을 만들어냈으므로 공정 이용이 아니라고 주장합니다.
- 법적 판단의 흐름: 최근 미국 법원의 일부 판결(예: Andersen v. Stability AI)은 AI 기업의 손을 들어주는 경향도 있었으나, 2025년 발표된 미국 저작권청(US Copyright Office) 보고서(Part 3)는 생성형 AI 학습을 위한 전체 저작물의 무단 복제가 공정 이용으로 인정받기 어려울 수 있다는 신중한 입장을 보였습니다. 특히 AI 산출물이 원작의 시장 가치를 훼손(Market Harm)할 경우 공정 이용 방어 논리가 약화될 수 있음을 시사했습니다.
이러한 법적 리스크로 인해 Adobe Firefly와 같이 저작권 문제가 해결된 라이선스 데이터(Licensed Data)만으로 학습한 모델이 기업용 시장에서 주목받고 있으며, 데이터의 출처를 투명하게 관리하는 데이터 프로비넌스(Data Provenance) 기술이 중요해지고 있습니다.
9. 결론 및 미래 전망: 데이터 부족의 벽(Data Wall)을 넘어서
종합하면, AI의 미래는 더 이상 모델 아키텍처의 혁신에만 달려 있지 않다는 결론에 도달합니다. AI의 성능, 윤리, 그리고 법적 적합성은 모두 '데이터'라는 하나의 축으로 수렴하고 있습니다.
9.1 2026년 이후의 전망: 합성 데이터 관리 실패의 위기?
Gartner는 2026년까지 데이터 및 분석 리더의 60%가 합성 데이터 관리 실패로 인해 AI 거버넌스와 모델 정확도에서 치명적인 문제에 직면할 것이라고 예측했습니다. 이는 합성 데이터가 데이터 부족 문제를 해결할 강력한 도구임은 분명하지만, 이를 다루는 정교한 파이프라인과 검증 체계(Metadata Management)가 없으면 오히려 AI 생태계를 오염시키는 독이 될 수 있음을 경고합니다.
9.2 추론(Reasoning) 데이터와 사고의 과정(Chain of Thought)
앤드류 응이 주창한 데이터 중심 AI는 이제 '지식의 축적'에서 '지능의 심화(Deepening Intelligence)' 단계로 진화하고 있습니다. 단순히 많은 텍스트를 읽는 것을 넘어, 문제 해결의 '과정'을 담은 추론 데이터(Reasoning Data)의 중요성이 폭발적으로 커지고 있습니다. Google의 Gemini 1.5 Pro나 OpenAI의 o1(Strawberry) 모델 등은 정답뿐만 아니라 정답에 도달하는 논리적 단계(Step-by-step reasoning, Chain of Thought)를 학습 데이터로 활용하여, 수학이나 코딩과 같은 복잡한 추론 영역에서 인간을 넘어서는 성능을 보여주고 있습니다. 미래의 데이터 경쟁은 "누가 더 많은 텍스트를 가졌는가"가 아니라 "누가 더 양질의 사고 과정 데이터를 가졌는가"로 이동할 것입니다.
9.3 결언: 데이터와 AI의 공생적 순환
학습 데이터와 AI의 관계는 일방적인 입력-출력 관계가 아닙니다. AI는 데이터를 통해 세상을 배우고, 다시 세상에 데이터를 쏟아내며 미래의 AI가 학습할 환경을 변화시키는 공생적 순환 고리(Symbiotic Feedback Loop) 안에 있습니다.
이 순환이 긍정적인 방향(지능의 증폭, 문제 해결)으로 갈지, 부정적인 방향(모델 붕괴, 편향의 증폭)으로 갈지는 전적으로 우리가 데이터를 어떻게 관리하고 큐레이션하느냐에 달려 있습니다. 향후 AI 리더십의 핵심은 '누가 더 깨끗하고, 윤리적이며, 정보 밀도가 높은 데이터를 지속가능하게 생산하고 관리할 수 있는가'가 될 것입니다. 이를 위해 데이터 큐레이션 역량의 내재화, 합성 데이터의 정교한 통제 기술, 그리고 법적/윤리적 리스크를 선제적으로 관리하는 데이터 거버넌스 체계 구축이 필수적입니다.
'과학 > IT' 카테고리의 다른 글
| AI, 무조건 큰 게 좋을까? LLM vs sLLM vs SLM 완벽 비교 (0) | 2025.12.27 |
|---|---|
| EU AI 투명성 실행규범 초안 완벽 분석: 워터마킹부터 딥페이크 라벨링까지 (3) | 2025.12.26 |
| AI 시대의 심장, HBM 완전 정복: 메모리 장벽을 넘어 기술 패권의 중심으로 (3) | 2025.12.25 |
| 2026년 AI 트렌드 전망: 대한민국이 '실험'을 넘어 '임팩트'를 낼 시간 (3) | 2025.12.24 |
| 과학을 위한 AI (AI for Science): 허사비스가 그리는 인류의 미래 (0) | 2025.12.24 |