[모델성능 평가지표] (1) 회귀모델
·
통계/통계지식
평가지표란? 여러가지로 만든 모델을 서로 비교해서 주어진 가설 공간에서 최고의 성능을 발휘하는 최적의 모델을 선택하기 위해 모델 평가 지표를 사용해서 성능을 평가한다. 회귀모델 성능 평가 회귀모델을 평가할 때는 실측값과 예측값의 차(=잔차)를 사용한 지표를 사용하는 것이 일반적이다. 회귀의 평가를 위한 지표는 실제 값과 회귀 예측값의 차이 값을 기반으로 한 지표가 중심이다. 실제값과 예측값의 차이를 그냥 더하면 잔차의 합은 0이므로 지표로 쓸 수 없다. 이 때문에 잔차의 절대값 평균이나 제곱, 또는 제곱한 뒤 다시 루트를 씌운 평균값을 성능 지표로 사용한다. 회귀 평가지표인 MAE, MSE, RMSE, MSLE, RMSLE는 값이 작을수록 R²는 값이 클수록 회귀 성능이 좋은 것으로 해석된다. 값이 작을..
[군집분석] K-중심군집(K-centroid clustering) : K-means clustering
·
통계/통계지식
참고 이번 주제는 분할적 군집화의 프로토타입 기반 기법 중 K-중심군집(K-centroid Clustering)이다. K-중심군집(K-centroid Clustering) 이란? 프로토타입 기반 군집화(Prototype-based Clustering)는 미리 정해놓은 각 군집의 프로토타입에 각 객체가 얼마나 유사한가를 가지고 군집을 형성하는 기법이다. K-중심군집에서는 연속형 데이터의 경우 평균(mean)이나 중앙값(median)을 그 군집의 프로토 타입으로 하며, 이산형 데이터의 경우 최빈값(mode)이나 메도이드(medoid)로 해당 군집을 가장 잘 나타내는 측도를 정해 프로토타입으로 정하게 된다. '평균(Mean)'을 쓰는 K-means Clustering, '중앙값(Median)'을 쓰는 K-me..
[군집분석] 군집분석이란? (군집분석 종류, 계층적군집화, 분할적군집화)
·
통계/통계지식
군집분석(cluster analysis)이란? 동일한 성격을 가진 여러 개의 그룹을 대상을 분류하는것을 말한다. 여기서 나뉜 부분집단을 군집이라 명칭한다. 유사한 성격을 가지는 몇 개의 군집으로 집단화 한 후, 형성된 군집들의 특성을 파악하여 군집들 사이의 관계를 분석하고 데이터 전체의 구조에 대한 이해를 돕고자 하는 탐색적 분석방법이다. 군집분석의 종류 군집분석은 크게 계층적 군집화와 분할적 군집화로 나뉜다. 군집분석의 형태를 그림으로 나타내면 아래와 같은 덴드로그램을 만들 수 있다. 1. 계층적 응집 군집화 (hierarchical clustering) 란? 각 관측지를 하나의 최초 군집으로 지정한 후, 한번에 두개씩 하나의 군집으로 만들어, 모든 군집들이 하나의 군집이 될 때까지 군집들을 결합해 나..
[통계적 검정] 통계적 검정이란?
·
통계/통계지식
통계적 검정이란? 연구자가 수립한 가설(Hypothesis) 이 유의한지 아닌지에 대해 검정하는 것을 의미한다. *여기서 연구자가 세우는 가설을 귀무가설(H0), 그에 반하는 가설을 대립가설(H1) 이라고 한다. 가설을 시험한다는 것은 대립가설이 틀릴 증거를 모아 귀무가설이 맞다고 얘기하는 것이다. 통계학에서는 가설을 숫자[모수]를 기반으로 한 주장을 의미하며, 여기서의 숫자는 모집단을 나타낼 수 있는 숫자를 의미한다. 대한민국 여성의 평균키는 작을것이다. 와 같은 애매모호함이 아니라, 대한민국 여성의 평균 키는 163이다. 와 같은 수치적 데이터로 이야기 해야한다는 말이다. 검정 활용하기 1. 모집단의 모수(parameter) 추정 모집단의 전수조사가 복잡하거나 방대할 경우 샘플을 통해 전체를 들여다 ..
[통계] 통계란? (개념, 표본추출방법, 명목척도,순서척도,구간척도,비율척도)
·
통계/통계지식
통계란? 특정집단을 대상으로 수행한 조사나 실험을 통해 나온 결과에 대한 요약된 형태의 표현이다. 통계자료의 획득 방법 4가지 1. 총 조사 / 전수조사(census) - 대상 집단 모두를 조사하는데 많은 비용과 시간이 소요되므로 특별한 경우(ex. 인구주택 총 조사)를 제외하고는 사용되지 않는다. 2. 표본조사 - 모집단에서 샘플을 추출하여 진행하는 조사로, 대부분의 설문조사가 표본조사로 진행된다. 모집단의 정의, 표본의 크기, 조사방법, 조사기간, 표본추출방법을 정확히 명시해야 한다. *모집단(population) : 조사하고자 하는 대상 집단 전체 *원소(element) : 모집단을 구성하는 개체 *표본(sample) : 조사하기 위해 추출한 모집단의 일부 원소 *모수(parameter) : 표본 ..