본문 바로가기
AI 및 데이터 분석

머신 러닝의 역사 (1) - 확률적 모델링부터 SVM 까지

by riML 2023. 11. 24.

1. 확률적 모델링

확률적 모델링은 통계학 이론을 기반으로 한 데이터 분석 방법으로, 초기 머신 러닝 형태 중 하나이며 현재까지도 널리 사용되고 있는 방법입니다. 이 중에서도 가장 잘 알려진 알고리즘 중 하나는 나이브 베이즈 알고리즘입니다.

나이브 베이즈는 입력 데이터의 특성이 모두 독립적이라고 가정하고 베이즈 정리를 적용하는 머신 러닝 분류 알고리즘입니다. 이런 특성의 데이터 분석은 컴퓨터 등장 이전에 수작업으로 사용되어 왔습니다. 이러한 모델은 데이터의 특성 간에 강한 상호 의존성이 없다고 가정하므로, 간단한 구조를 가지고 있으면서도 많은 분야에서 효과적으로 사용됩니다.

확률적 모델링과 밀접한 관련이 있는 모델 중 하나가 로지스틱 회귀입니다. 로지스틱 회귀는 이름에 회귀가 포함되어 있지만 실제로는 분류 알고리즘이며, 나이브 베이즈와 마찬가지로 과거에 수작업으로 사용되었던 모델 중 하나입니다. 이 모델은 간단하면서도 다목적으로 활용할 수 있어, 현대 데이터 과학에서도 여전히 중요한 역할을 하고 있습니다.

데이터 과학자들은 분류 작업에 대한 초기 감을 빠르게 얻기 위해 이러한 확률적 모델을 데이터셋에 적용하는 경우가 많습니다. 이는 모델이 간단하고 이해하기 쉽기 때문에 초기에 사용자가 데이터를 더 잘 이해하고 파악할 수 있도록 도와주는 데 기여합니다. 이러한 특성으로 나이브 베이즈와 로지스틱 회귀는 여전히 머신 러닝의 기초를 이루는 중요한 도구로 사용되고 있습니다.

 

2. 신경망의 초창기 발전

신경망의 핵심 아이디어는 1950년대에 조금씩 연구되기 시작했지만, 본격적인 발전을 위해서는 수십 년이 걸렸습니다. 대규모 신경망을 효과적으로 훈련시킬 수 있는 방법을 찾는 것은 오랜 동안 어려운 문제였습니다. 그러나 1980년대 중반에 역전파 알고리즘이 여러 연구자에 의해 재발견되고 이를 신경망에 적용하기 시작함으로써 상황이 변했습니다.

최초로 성공한 신경망 애플리케이션 중 하나는 1989년에 벨 연구소에서 나왔습니다. 얀 르쿤은 초창기 합성곱 신경망과 역전파를 결합하여 손글씨 숫자 이미지를 분류하는 문제에 적용했습니다. 이를 LeNet이라 부르며, 이 신경망은 주로 1990년대 미국 우편 서비스에서 우편 번호 코드를 자동으로 읽기 위해 사용되었습니다.

LeNet은 합성곱 계층과 풀링 계층으로 구성되어 있어 이미지의 공간 구조를 보존하면서 효과적으로 학습할 수 있었습니다. 이러한 성능 향상은 신경망을 이미지 분류와 같은 고차원 데이터 처리에 적합하게 만들었고, 이는 후에 딥러닝 분야의 중요한 발전을 이끌게 되었습니다.

 

3. 커널 방법의 부상: SVM

신경망이 초기의 성공을 거둔 1990년대, 새로운 머신 러닝 접근 방식 중 하나인 커널 방법이 등장하며 주목을 받게 되었습니다. 이때 가장 주목받은 커널 방법 중 하나가 바로 서포트 벡터 머신(SVM)이었고, 특히 1990년대 초에 개발된 현대적인 SVM은 매우 유명한 방법 중 하나로 꼽히고 있습니다.

SVM은 두 클래스를 나누는 결정 경계를 찾는 분류 알고리즘으로, 이 과정은 크게 두 단계로 나뉩니다. 먼저 결정 경계를 새로운 고차원 표현으로 데이터를 매핑하고, 그 후에 각 클래스의 가장 가까운 데이터 포인트 사이의 거리가 최대가 되도록 결정 경계를 찾습니다. 이렇게 함으로써 일반화 능력이 향상되며, 이를 '마진 최대화'라고 합니다.

분류 문제를 간단하게 만들기 위해 데이터를 고차원 표현으로 매핑하는 기법은 이론상으로는 효과적으로 보일 수 있지만, 실제로 구현하기 어려운 경우가 많았습니다. 이에 대한 대안으로 등장한 것이 커널 기법입니다. 이 기법은 새로운 표현 공간에서 좋은 결정 초평면을 찾기 위해 좌표를 구하지 않고, 커널 함수를 통해 거리만을 계산하는 아이디어를 기반으로 합니다.

SVM은 초기에 단순한 분류 문제에서 뛰어난 성능을 보여주었고, 수학적으로 깊게 분석하기 용이하여 이론을 이해하고 설명하기 쉽다는 장점으로 매우 큰 인기를 얻었습니다. 그러나 대용량의 데이터셋에 적용하기 어렵고, 이미지 분류와 같은 지각에 관련된 문제에서는 한계를 보였습니다. SVM은 얕은 학습 방법이기 때문에 지각에 관련된 문제에 적용하려면 수동으로 유용한 표현을 추출해야 하는데, 이는 어려우며 번거로운 과정이었습니다. 이런 한계로 SVM은 특히 이미지 분류와 같은 지각 문제에는 적합하지 않았습니다.