본문 바로가기

통계

(9)
[통계] 정의역이란, 공역이란, 치역이란? 쉽게 알아보기! 통계 기본 개념중 치역, 공역, 정의역을 간단하고 재미있는 예시로 설명한다. 이 과정에서 함수의 기본 개념 및 예시도 함께 설명되니 끝까지 차근차근 읽어보면 좋을것이다! 기본 개념 우선 회사에서 야근을 하는 상황을 상상해보자. 야근하는 사람들은 투표로 야식을 정해야하는 상황이다. 이때, 함수는 사람들이 야근을 하는 사무실 현장이다. 정의역은 야근을 하는 회사원이다. 공역은 야식메뉴 목록의 음식들이다. 치역은 야식 메뉴로 회사원이 선택한 음식이다. 개념 정의 더보기v 더보기 정의역(定義域 domain(of definition)) 집합 X에서 집합 Y로의 사상(寫像:함수) f에 대하여 X를 f의 정의역이라고 한다. 치역(値域 range) 함수가 취하는 값 전체의 집합을 일컫는다. 사상(함수) f:X → Y가..
[통계] 상관계수란? 결정계수란? 또 수정결정계수란? 회귀분석과 상관분석의 목적 회귀분석은 독립변수를을 가지고 종속변수를 설명하는게 목적이고, 상관분석은 두 변수의 직선관계 정도를 보는것이다. 때문에 상관분석에 경우, 둘 변수 중 어떤 변수가 종속변수(설명 당하는)이고 독립변수(설명하는)인지는 별로 관심의 대상이 아니다. 회귀분석이란? v 더보기 회귀분석(regression analysis)은 통계학에서 관찰된 연속형 변수들에 대해 독립변수와 종속변수 사이의 인과관계에 따른 수학적 모델인 선형적 관계식을 구하여 어떤 독립변수가 주어졌을 때 이에 따른 종속변수를 예측한다. 또한 이 수학적 모델이 얼마나 잘 설명하고 있는지를 판별하기 위한 적합도를 측정하는 분석 방법이다. 1개의 종속변수와 1개의 독립변수 사이의 관계를 분석할 경우를 단순회귀분석(Simple ..
[통계] p-value란 무엇인가? 짧고 굵은 기본개념! p value란, 귀무가설이 맞다는 전제하에 통계값이 관측값 이상일 확률을 말한다. 가설검증이란 표본데이터의 평균이 전체 데이터의 평균을 잘 반영한다는 가정 하에 데이터의 평균을 구하는것이다. 아무리 무작위 추출을 잘 한다 하더라고 추출 평균은 전체 평균값과 멀어질 수 있다. 따라서 얼마나 다른가 를 알기위한 방법이 필요하며, 이 때문에 p value 가 필요하다. 예를들어 '모분포의 평균이 100이다' 라는 귀무가설을 세웠을때, 내가 구한 관측값인 95라는 값. 또는 그보다 큰 값이 나올 확률이 p value 이다. 만약 이 값이 매우 작다면 우리는 귀무가설을 기각시키고 대립가설을 채택할 수 있게 된다. 아주 작은 확률의 사건이 발생했다기 보다는 귀무가설이 틀렸다고 보기 때문이다. 정리하자면 p val..
[통계] 중심극한정리 P-value에 대해 공부하다가, '모분포의 평균과 분산값이 주어졌을때 거기서 n 개를 sampling 했을 때 그 n 개의 평균이 얼마나 잘 나올 수 있는 값인지는 중심극한정리와 표준정규분포의 성질을 이용하여 정확히 계산가능하다' 라는 부분이 나와 중심극한정리를 짚고 넘어가기위해 리서치를 해봤다. 실세계에서 발생하는 자연 현상이나 사회 현상 중 많은 것들이 정규분포로 모형화 가능하다. 즉, 중심극한정리는 여러 확률변수의 합이 정규분포와 비슷한 분포를 이루는 현상을 말한다. 중심극한정리가 강력한 이유는 모집단의 형태가 어떻든지 간에 상관없이 표본 평균의 분포는 정규분포를 따르게 된다는 점에 있다. 출처 : 공돌이의 수학정리노트
[모델성능 평가지표] (1) 회귀모델 평가지표란? 여러가지로 만든 모델을 서로 비교해서 주어진 가설 공간에서 최고의 성능을 발휘하는 최적의 모델을 선택하기 위해 모델 평가 지표를 사용해서 성능을 평가한다. 회귀모델 성능 평가 회귀모델을 평가할 때는 실측값과 예측값의 차(=잔차)를 사용한 지표를 사용하는 것이 일반적이다. 회귀의 평가를 위한 지표는 실제 값과 회귀 예측값의 차이 값을 기반으로 한 지표가 중심이다. 실제값과 예측값의 차이를 그냥 더하면 잔차의 합은 0이므로 지표로 쓸 수 없다. 이 때문에 잔차의 절대값 평균이나 제곱, 또는 제곱한 뒤 다시 루트를 씌운 평균값을 성능 지표로 사용한다. 회귀 평가지표인 MAE, MSE, RMSE, MSLE, RMSLE는 값이 작을수록 R²는 값이 클수록 회귀 성능이 좋은 것으로 해석된다. 값이 작을..
[군집분석] K-중심군집(K-centroid clustering) : K-means clustering 참고 이번 주제는 분할적 군집화의 프로토타입 기반 기법 중 K-중심군집(K-centroid Clustering)이다. K-중심군집(K-centroid Clustering) 이란? 프로토타입 기반 군집화(Prototype-based Clustering)는 미리 정해놓은 각 군집의 프로토타입에 각 객체가 얼마나 유사한가를 가지고 군집을 형성하는 기법이다. K-중심군집에서는 연속형 데이터의 경우 평균(mean)이나 중앙값(median)을 그 군집의 프로토 타입으로 하며, 이산형 데이터의 경우 최빈값(mode)이나 메도이드(medoid)로 해당 군집을 가장 잘 나타내는 측도를 정해 프로토타입으로 정하게 된다. '평균(Mean)'을 쓰는 K-means Clustering, '중앙값(Median)'을 쓰는 K-me..
[군집분석] 군집분석이란? (군집분석 종류, 계층적군집화, 분할적군집화) 군집분석(cluster analysis)이란? 동일한 성격을 가진 여러 개의 그룹을 대상을 분류하는것을 말한다. 여기서 나뉜 부분집단을 군집이라 명칭한다. 유사한 성격을 가지는 몇 개의 군집으로 집단화 한 후, 형성된 군집들의 특성을 파악하여 군집들 사이의 관계를 분석하고 데이터 전체의 구조에 대한 이해를 돕고자 하는 탐색적 분석방법이다. 군집분석의 종류 군집분석은 크게 계층적 군집화와 분할적 군집화로 나뉜다. 군집분석의 형태를 그림으로 나타내면 아래와 같은 덴드로그램을 만들 수 있다. 1. 계층적 응집 군집화 (hierarchical clustering) 란? 각 관측지를 하나의 최초 군집으로 지정한 후, 한번에 두개씩 하나의 군집으로 만들어, 모든 군집들이 하나의 군집이 될 때까지 군집들을 결합해 나..
[통계적 검정] 통계적 검정이란? 통계적 검정이란? 연구자가 수립한 가설(Hypothesis) 이 유의한지 아닌지에 대해 검정하는 것을 의미한다. *여기서 연구자가 세우는 가설을 귀무가설(H0), 그에 반하는 가설을 대립가설(H1) 이라고 한다. 가설을 시험한다는 것은 대립가설이 틀릴 증거를 모아 귀무가설이 맞다고 얘기하는 것이다. 통계학에서는 가설을 숫자[모수]를 기반으로 한 주장을 의미하며, 여기서의 숫자는 모집단을 나타낼 수 있는 숫자를 의미한다. 대한민국 여성의 평균키는 작을것이다. 와 같은 애매모호함이 아니라, 대한민국 여성의 평균 키는 163이다. 와 같은 수치적 데이터로 이야기 해야한다는 말이다. 검정 활용하기 1. 모집단의 모수(parameter) 추정 모집단의 전수조사가 복잡하거나 방대할 경우 샘플을 통해 전체를 들여다 ..