달나라 노트

Deep Learning에서 Feature, Class란? 본문

AI/Deep Learning

Deep Learning에서 Feature, Class란?

CosmosProject 2025. 11. 8. 13:24
728x90
반응형

 

 

 

Deep Learning 뿐 아니라 통계나 AI 전반에 걸쳐서 Feature란 용어가 등장할 때가 많습니다.

Feature가 무엇인지, 왜 필요한건지 간단한 예시를 통해 감을 잡아봅시다.

 

AI건 통계건 일반적으로 목적은 다양한 데이터를 분석해서 어떠한 패턴을 찾아내는 것입니다.

 

국적과 평균 키의 상관관계

생활 패턴에 따른 건강 상태의 상관관계

심장의 크기와 운동 능력의 상관관계

지역별 판매 제품군

분석의 대상은 매우 다양합니다.

 

위처럼 어떤 분석이건 어떤 통계건 "대상"이 있기 마련입니다.

국적과 평균 키의 상관관계를 분석한다면 최소한 다음과 같은 정보가 필요할 것입니다.

- 국적

- 성별

- 키

아무리 국적별 평균 키를 본다라고 해도 남/녀의 유전적인 키 차이를 무시할 수 없을 것이기에 국적 - 키 데이터 뿐 아니라 성별도 필요하겠죠.

그리고 실험을 어떻게 설계하냐에 따라 저기서 훨씬 더 많은 정보가 필요할 수 있습니다.

 

심장의 크기와 운동 능력의 상관관계를 파악한다고 한다면 더 복잡합니다.

- 심장 크기

- 나이

- 근육량

- 성별

- 멀리뛰기 기록

- 100m 달리기 기록

- ...

(운동 능력은 사실 추상적인 속성이 매우 큽니다. 따라서 정확하게 분석을 설계한다면 위 내용으로는 매우 부족할테지만 그냥 이해를 돕기 위한 예시라고 받아들여주시면 감사하겠습니다.)

 

이렇게 우리는 분석을 위한 "대상"이 필요하고 그 대상이 가지고 있는 다양한 "속성"에 대한 정보가 필요합니다.

 

이름 나이 성별 심장 무게(g) 체중(kg) 100m 달리기 기록(s)
A 25 310.1 65.3 15.3
B 21 262.5 58.1 17.9
C 30 330.9 73.9 13.2
D 28 280.3 53.2 21.2

 

예를들어 위와 같은 data set이 있다고 가정해봅시다.

총 4명에 대한 정보이며 나이, 성별, 심장 무게, 체중, 100m 달리기 기록이 나타내져 있습니다.

 

위 data set은

샘플이 4개 있으며

각 샘플별로 5개의 feature(나이, 성별, 심장 무게, 체중, 100m 달리기 기록)가 있다고 합니다.

이렇듯 feature는 준비된 샘플들이 가지는 속성값을 의미합니다.

 

 

이름 나이 성별 심장 무게(g) 체중(kg) 100m 달리기 기록(s) 운동능력
A 25 310.1 65.3 15.3
B 21 262.5 58.1 17.9
C 30 330.9 73.9 13.2
D 28 280.3 53.2 21.2

 

주어진 feature들을 토대로 각 샘플들의 운동능력을 상/중/하로 분류할 수도 있을겁니다.

이렇게 각각의 샘플들이 가진 feature들을 토대로 어떠한 기준대로 샘플을 특정한 카테고리에에 분류하는 작업을 진행합니다.

위 예시에서는 운동능력이 그 카테고리를 의미하며 이를 Class라고 합니다.

주어진 데이터를 이용하여 샘플들을 Class변로 분류하는 Classification을 진행하는 것이죠.

 

이렇게 충분한 양의 학습을 진행해서 분류를 하게 된다면 기존에 존재하지 않던 새로운 샘플이 가진 feature를 토대로 이 샘플은 어떤 Class에 들어갈지 분류하는 딥러닝 모델을 구성한다거나 하는 것도 가능할 것입니다.

 

 

 

Feature는 분석에서도 매우 중요합니다.

Deep Learning을 더 잘 하기 위해서는 방대한 양의 데이터가 필요하다는 내용은 쉽게 들어봤을 것입니다.

근데 방대한 양의 데이터가 필요하다고 해서 무조건 데이터가 많으면 좋은 것은 아닙니다.

어떤 경우는 데이터가 많을수록 오히려 Deep Learning의 학습에 방해가 되는 경우도 있습니다.

이런 경우 샘플의 퀄리티를 유지하는 것도 중요하지만 어떤 Feature가 진짜 학습에 필요한 것인가를 정하는 것도 중요합니다.

 

위 예시에서 본 것 처럼 심장 크기 별 운동능력을 파악하는데 현재 가지고 있는 계좌 잔고 라는 feature를 넣으면 분석에 도움이 될까요?

지역별로 많이 판매되는 제품군을 학습하려고 하는데 인당 전기 사용량이라는 feature를 넣으면 도움이 될까요?

 

이렇게 feature를 잘 파악하고 분석하고자 하는 대상에서 최대의 분석 효율을 이끌어낼 수 있도록 feature를 제한하고 선택적으로 사용해야 합니다.

 

 

 

 

 

728x90
반응형
Comments