1. https://data-rider.blogspot.kr/2016/01/blog-post_73.html
본문은 통계 관련 용어를 메모합니다.
가설 검정
모집단으로부터 추출한 표본을 사용하여 검토하는 통계적인 추론이다.
통계적인 유의성을 검정하는 것으로 유의성 검증 이라고도 한다.
가설의 두 가지
귀무가설 H0
비교하는 값과 차이가 없다는 것을 기본 개념으로 하는 가설이다.
대립가설 H1 (연구가설)
주장하는 가설로 차이가 있다는 것을 기본 개념으로 하는 가설이다.
직접 수행하기 불가능하여 귀무가설의 기각을 통해 받아들여 지는 반증을 거친다.
오류
제1종 오류(a error)
귀무가설 H0가 옳은데도 불구하고 H0를 기각하게 되는 오류이다.
제2동 오류(b error)
귀무가설 H0가 옳지 않은데도 불구하고 H0를 채택하는 오류이다.
기각역(critical region)
귀무가설 전제하에 구한 검정통계량의 분포에서 확율이 유의수준인 부분이다.
임계치(critical value)
주어진 유의수준에 따라 귀무가설의 기각 여부를 결정하는 기준점이다.
검정통계량
가설 검정을 위해서 사용하는 통계량을 말한다. 표본ㅌ
유의성
모집단에 대한 가설이 가지는 통계적인 의미이다.
유의수준 (Significance Level)
귀무가설이 사실임에도 기각하는 오류를 범할 확률이다.
유의수준 = 1 - 신뢰도
유의확률 (p-value)
영가설이 맞다고 가정할 때 얻은 결과 보다 극단적인 결과가 실제로 관측될 확률이다.
보통 0.05%의 유의 확률을 사용한다.
편차 (deviation)
평균과 관측값의 차이
분산 (variance)
편차의 제곱의 평균
표준편차 (standard deviation)
분산의 양의 제곱근
표준정규분포 (standard normal distribution)
평균은 0이고 표준편차가 1인 정규분포
정규분포 (normal distribution or 가우시안 분포: Gaussian distribution)
통계학에서 연속 확률 분포 중의 하나다.
T-Test
단일표본 T검정
독립표본 T검정
대응표본 T검정
Z-Test
모집단의 분산을 알고 있는 경우 사용
산포도(degree of scattering)
자료의 흩어진 정도 분산, 범위, 사분위수범위 등이 해당한다.
범위(range)
자료의 가장 큰값과 가장 작은값 간의 차이, 외부 특이점(Outlier)에 대한 처리가 필요하다.
사분위수(quartiles)
측정값을 정렬해서 4등분으로 나눈 것을 말한다.
모집단(population)
정보를 얻고자 하는 관심 대상의 전체 집합이다.
모수 (Parameter)
모집단의 특성을 기술하는 특정한 값을 말한다.
신뢰 구간 (confidence interval)
모수가 어느 범위 안에 있는지를 확률적으로 보여주는 방법이다.
정규성 검정
표본수 > 30 : 중심극한정리에 의해 정규성을 가지는 것으로 가정할 수 있음
30 > 표본수 > 10 : 정규성 검정 필요
10 > 표본수 : 정규성을 인정 받을 수 없음으로 비모수적인 통계 방법 사용
정규성 검정 방법
Kolmogorov-Smirnov test : 샘플의 수가 2000개 이상일때,
Sapiro-Wilks test : 샘플의 수가 4 - 2000개 이하일때,
모수적 방법 (Parametric)
표본 평균 검증
T 검정, Z 검정
표본 분산 검정
F 검증, 카이제곱 검정
비모수적 방법(Non-parametric)
정규분포가 아니거나 표본의 수가 적을때 사용
부호 검정 (Sign test)
관측치들 간에 크다 작다 혹은 같다라는 주장이 사실인지 검정
윌콕슨 부호 순위 검정
부호뿐만 아니라 관측치 간의 차이의 크기, 순위까지 고려하여 검정
크루스칼-왈리스 검정
3개 이상 집단의 중앙값 차이를 검정
외도 (Skewness)
크다 : 오른쪽 롱꼬리
첨도 (kurtosis)
크다 : 위로 솟다.
검정 통계량 (or 표본 통계량)
모집단 전체 조사가 힘든 경우 검정하기 위한 표본을 통계한다.
확률 분포
정규 분포, T 분포, 카이제곱 분포, F 분포
확률 분포 그래프의 X 좌표를 구한다.
확률 분포 (probability distribution)
확률 변수가 특정한 값을 가질 확률을 나태내는 함수를 의미한다.
이산 확률분포 (distribute of discrete random variable)
이산 확률 변수가 가지는 확률분포를 의미한다.
** 이산 확률 변수 (discrete random variable)
연속 확률분포 (continuous probability distribution)
확률 밀도 함수를 이용해 분포를 표현할 수 있는 경우를 의미한다.
** 연속 확률 변수 (continuous random variable)
확률 밀도 함수 (probability density function, PDF)
확률 변수의 분포를 나타내는 함수이다.
확률 질량 함수 (probability mass function, PMF)
이산 확률 변수에 의한 확률 분포 함수를 의미한다.
누적 분포 함수 (cumulative distribution function, CDF)
확률 변수가 특정 값보다 작거나 같은 확률을 나타낸다.
이항 분포 (binormial distribution)
연속된 n번의 독립적 시행에서 각 시행이 확률 p를 가질 때의 이산 확률 분포이다.
확률 변수 (random variable)
어떤 시행의 결과로 나타나는 각각의 실수값이다.
다항식 (polynomial)
1개 이상의 항으로 이루어진 식을 말한다.
다항식의 차수 (degree of polymormial)
각 항의 각 문자의 자수를 합친 것 중 가장 큰 값을 해당 다항식의 차수라 한다.
예) x^2 * y^3 은 5차수
X차 방정식
최고차 항의 차수가 X인 다항 방정식을 뜻한다.
방정식 (equation)
특정한 문자의 값에 따라 참/거짓이 결정되는 등식이다.
이때, 방정식을 참이 되게 하는 특정 문자의 값을 해(근)이라 한다.
실수
유리수 / 정수 (음, 양, 0) , 정수가 아닌 유리수 (유한 소수, 순한 소수)
무리수 / 순한하지 않는 소수
이산 수학 (Discrete mathematics)
이산적인 수학 구조에 대해 연구하는 학문으로, 연속되지 않은 공간을 다룬다.
커버사진
2. http://blog.naver.com/padosori60/220826886021
◆ 통계학 (Statistics)
수량적 비교를 기초로 하여 많은 사실을 통계적으로 관찰하고 처리하는 방법을 연구하는 학문이다. 근대 과학으로서의 19세기 중반 벨기에의 케틀레가 독일의 “국상학(Staaenkunde, 넓은 의미의 국가학)”과 영국의 “정치 산술(Political Arithmetic, 정치 사회에 대한 수량적 연구 방법)”을 자연과학의 “확률 이론”과 결합하여 수립한 학문에서 발전되었다.
◆ 기술통계학 (Descriptive Statistics)
측정이나 실험에서 수집한 자료의 정리, 표현, 요약, 해석 등을 통해 자료의 특성을 규명하는 통계적 방법이다.
◆ 추리통계학 (Inferencial Statistics)
모집단에서 뽑은 표본을 분석하여 이를 기초로 모집단의 특성을 규명하는 통계적 방법이다.
◆ 통계추론 (Statistical Inference)
관심 대상인 집단에 대해 조사한 결과로 부터 일관성을 찾아내고 불확실한 사실에 대한 결론이나 예측을 하는데 필요한 이론과 방법
◆ 연속데이터 (Continous Data)
키, 체중, 시간, 혈압, 경제성장률 등과 같이 연속적인 수치로 나타낼 수 있는 데이터
◆ 이산데이터 (Discrete Data)
주사위 숫자, 학번, 연령 등과 같이 연속적이지 않은 수치로 나타내는 데이터
◆ 질적데이터 (Qualitative Data)
좋다 '1', 그리 좋지않다 '2', 싫다 '3' 등과 같이 범주 또는 순서 형태의 속성을 가진 데이터
◆ 양적데이터 (Qualitative Data)
온도, 시각, 키, 체중, 시간 등과 같이 관측된 데이터의 값이 수치 형태의 속성을 가진 데이터
◆ 모집단 (Population)
분석의 대상이 되는 어떤 기본 단위의 변수에 관하여 수집한 관찰 값들의 집합이다.
◆ 모수 (Parameter)
모집단의 어떤 특성을 기술하며 모수 값은 그 모수를 특정 값으로 표현한 값이다.
◆ 표본 (Sample)
전체 모집단의 축도 또는 단면이 된다는 가정 하에서 모집단에서 선택된 모집단 구성단위의 일부
◆ 통계량 (Statistics)
표본의 특성을 수치로 나타내는 것을 통계량이라 한다.
◆ 중앙값 (Median)
변량의 값을 크기 순으로 늘어놓았을 때 중앙에 오는 수치로 데이터의 크기가 짝수일 경우는 한 가운데 2개를 취하고 이들 2개로 나눈 수치를 중앙값으로 정한다.
◆ 최빈값 (Mode)
가장 빈도가 많은 데이터 값을 특히 질적 데이터에서는 최빈값을 대표값로 정한다.
◆ 범위 (Range)
변량의 데이터의 변화폭을 말하며, 즉 최대값과 최소값의 차이를 의미한다.
◆ 편차 (Deviation)
데이터 (혹은 변량)가 평균값으로 부터 어느 정도 큰가 또는 작은가를 나타내는 값
편차 = 데이터의 값 (변량) - 평균값
◆ 확률 (Probability)
사건이 발생할 가능성을 0과 1 사이의 값으로 표현한 것.
◆ 확률변수 (Random Variable)
표본공간의 사건을 숫자로 바꿔 주는 함수이다. 확률변수에는 주사위의 눈과 같이 비연속 데이터를 취하는 이산형 확률변수와
체중, 키와 같이 연속하는 데이터를 취하는 연속형 확률변수라 한다.
◆ 확률분포 (Probability Distribution)
확률변수와 그에 대응하는 확률을 부여하며, 확률변수는 그 확률분포에 따른다고 말하며 이를 표로 나타낸 것을 확률분포표 라고 한다.
◆ 확률밀도함수 (Probability Density Function)
연속형 확률변수가 주어진 어떤 구간 내에 포함될 확률을 확률밀도라고 하며, 이를 함수 형태롤 나타낸 것을 확률밀도함수라고 한다.
◆ 표본공간 (Sample Space)
확률적 실험을 통해 일어날 수 있는 모든 가능한 결과의 집합
◆ 크로스 집계표
동시에 조사한 2개의 항목에 대해 해당수를 표에 정리한 표로, 분할표라고도 한다.
◆ 산포도 (Scatter Diagram)
크로스 집계표를 그래프로 나타낸 것으로 상관도 라고도 하며, 데이터에서 2개 항목 간 의 관계(이변량의 관계)를 아는데 편리하다.
◆ 상관관계 (Coefficient Correlation)
두 변량 중 하나가 증가함에 따라 다른 한 쪽이 증가 또는 감소할 때 두 변량의 관계를 의미한다.
한 변량이 증가할 때 상대 변량이 증가하면 양의 상관관계, 한 변량이 증가할 때 상대 변량이 감소하면 음의 상관관계라 한다.
◆ 공분산 (Covariance)
두 변량의 상관관계를 수치화한 것
◆ 사건 (Event)
표본공간의 부분집합
◆ 분산 (Variance)
확률분포 또는 자료가 얼마나 퍼져 있는지를 알려주는 수치이다.
분산은 음의 값을 가질 수 없으며 분산이 클수록 확률분포는 평균에서 멀리 퍼져있고 0에 가까울수록 평균에 집중된다.
◆ 표준편차 (Standard Deviation)
데이터가 평균을 중심으로 얼마나 퍼져있는지를 나타내는 수치로, 표준편차가 0에 가까울수록 데이터는 평균 근처에
집중되어 있음을 의미하고, 표준편차가 클수록 데이터가 널리 퍼져있음을 의미한다.
모집단 전체의 표준편차를 구할 수 없을 때, 표본의 표준편차를 이용한다. 표본표준편차는 일반적으로 s 또는 S로 나타내며
표본표준편차와 구분하여 모집단의 표준편차는 모표준편차 라고 한다.
◆ 기대값 (Expeted Value)
확률분포의 집중화 경향을 나타내는 것으로, 확률변수가 취할 수 있는 모든 값들의 평균을 의미한다.
◆ 확률밀도함수 (Probability Density Function)
연속확률변수가 어떤 구간내에 포함될 확률을 확률밀도라 하며, 이를 함수로 나타낸 것을 확률밀도함수라 한다.
◆ 정규분포 (Normal distribution)
◆ 변량의 표준화
◆ 이항분포 (Binomial distribution)
연속된 n번의 독립적 시행에서 각 시행이 확률 p를 가질 때의 이산확률분포이다.
이러한 시행 은 베르누이 시행이라고 불리기도 한다. 사실 n=1일 떄 이항분포는 베르누이 분포이다.
◆ 추정량 (Estimator)
표본정보에 의존하는 확률변수로서 모수를 추정하는 데 사용되는 표본통계량(표본평균, 표본분산, 표본비율)을 의미한다.
◆ 추정치 (Estimate)
추정량으로부터 결정되는 특정한 값을 의미한다.
◆ 불편추정량 (Unbiased Estimator)
일반적으로 추정량은 불편성, 일치성, 효율성 등의 특성을 가져야 하며, 불편성은 모든 가능한 통계량값의 평균이 모수와 같아지는 것이며, 이러한 통계량을 불편추정량 이라 한다.
◆ 통계적 추정(Statistical Estimation)
표본의 성격을 나타내는 통계량을 기초로 모수를 추정하는 통계적 분석 방법
◆ 가설(Hypothesis)
검정할 목적으로 설정하는 모수에 대한 잠정적인 주장 또는 가정을 의미한다.
◆ 가설검정 (Hypothesis Test)
가설검정은 모집단에 대하여 어떤 가설을 설정하고 그 모집단으로부터 표본을 분석함으로서 그 가설의 타당성 여부를 결정하는 것이다.
이에 반하여 추정(Estimation)은 표본으로부터 계산한 통계량을 가지고 무엇이 모수 인가를 규명하는 것이다.
◆ 통계적 가설검정 (Statistical Hypothesis Test)
표본에서 얻은 사실을 근거로 모집단에 대한 가설이 맞는지 틀리는지 검정하는 통계적 분석을 통계적 가설검정(Statistical Hypothesis Test)라고 한다.
◆ 회귀분석 (Regression Analysis)
변수와 변수 사이의 관계를 규명하는 통계적 방법으로 한 변수가 다른 변수에 미치는 영향력의 크기를 알아보는 것이 회귀분석의
목적이다.
3. http://www.google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd=9&cad=rja&uact=8&ved=0ahUKEwis3f2zpPraAhVLT7wKHbjBBmYQFghWMAg&url=http%3A%2F%2Fwww.kdec.re.kr%2Fboard%2Fdown.php%3Fmy_filepath%3D.%2Ffile%2Fbbs_edu_pds%2F347%26my_userfile%3Dstatistics.hwp%26PHPSESSID%3Dafdcbc80a2e21744dc8f76191bd23565&usg=AOvVaw3gZShGY5_0xpJGVVeV6KZq
statistics.hwp