https://angeloyeo.github.io/2020/03/23/sample_variance.html

표본 분산은 n 대신 n-1로 나눈다

  

 

 

Posted by uniqueone
,

[자기주도온라인평생학습] 이부일 교수의 R릴레오(WITHMOOC)

이부일 교수님의 R릴레오를 소개합니다. 현재 회귀분석까지 79개의 강의를 공유해주셨으며, R패키지와 통계학관련 강의를 주기적으로 공유해주고 계십니다.

명강의를 통하여 많은 분들이 통계와 R 에 좀 더 쉽게 한 발 다가서기를 바랍니다.

이부일의 R릴레오 #R강의 001 : 빈도 구하기

R을 이용하여 질적 자료에 대한 빈도를 구하기를 해 봅니다.

이부일의 R릴레오 #R강의 002 : 백분율 구하기

R을 이용하여 질적 자료의 백분율을 구하는 과정입니다.

이부일의 R릴레오 #R강의 003 : prettyR 패키지를 이용한 빈도와 백분율을 한 번에 구하기

prettyR 패키지에서 제공하는 freq() 함수를 이용하여 일변량 질적 자료에 대한 빈도와 백분율을 한 번에 구하는 과정을 소개합니다.

[이부일의 R릴레오] #R강의 004 : epiDisplay패지키의 tab1() 함수

epiDisplay 패키지에서 제공하는 tab1() 함수를 이용하여

일변량 질적 자료에 대한 빈도와 백분율을 한 번에 구하는 과정을 소개합니다.

[ 이부일의 R릴레오 ] #R강의 005 : barplot() 함수를 이용한 막대그래프

R의 기본기능에서 제공하는 barplot()함수를 이용하여 막대그래프를 작성하는 과정을 강의한다.

[ 이부일의 R릴레오 ] #R강의 006 : ggplot2 패키지를 이용한 막대그래프

R에서 데이터 시각화(Data Visualization)으로 가장 유명한 패키지인 ggplot2를 이용하여 일변량 질적 자료에 대한 막대그래프를 작성하는 내용입니다.

[ 이부일의 R릴레오 ] #R강의 007: plotly 패키지를 이용한 막대그래프

인터렉티브한 그래프 작성에 뛰어난 plotly 패키지에서 제공하는 plot_ly() 함수를 이용하여 막대그래프를 작성하는 내용입니다.

[ 이부일의 R릴레오 ] #R강의 008 : 일변량 양적 자료에 대한 빈도표 작성하기

일변량 양적 자료에 대한 빈도와 백분율을 작성하는 것으로,

cut() 함수를 통해서 구간의 정보를 갖는 새로운 질적 자료를 생성하고, 그 생성된 질적 자료에 대해 table()로 빈도, prop.table()로 백분율을 구하는 내용입니다.

[ 이부일의 R릴레오 ] #R강의 009 : hist() 함수를 이용한 히스토그램 작성하기

R의 기본기능에서 제공하는 hist() 함수를 이용하여 일변량 양적 자료에 대한 히스토그램을 작성하는 내용입니다.

[ 이부일의 R릴레오 ] #R강의 010 ggplot2 패키지를 이용한 히스토그램 작성하기

ggplot2 패키지를 이용하여 일변량 양적 자료에 대한 히스토그램을 작성하는 내용입니다.

[ 이부일의 R릴레오 ] #R강의 011 : plotly 패키지를 이용한 히스토그램 작성하기

plotly 패키지에서 제공하는 함수를 이용하여 일변량 양적 자료에 대한 히스토그램을 작성하는 내용입니다.

[ 이부일의 R릴레오 ] #R강의 012 : boxplot() 함수를 이용한 상자그림 작성하기

양적 자료에 이상치(outlier)가 있는지를 알아보기 위해서 작성하는 상자그림을 R의 기본기능에서 제공하는 boxplot() 함수를 이용하여 작성하는 내용입니다.

[ 이부일의 R릴레오 ] #R강의 013 : boxplot 작성 방법

상자그림(boxplot)를 작성하여 이상치를 파악하는 방법과 상자그림을 통해서 알 수 있는 분포의 모양을 소개하는 내용입니다.

[ 이부일의 R릴레오 ] #R강의 014 : ggplot2 패키지를 이용한 상자그림 작성하기

ggplot2 패키지를 이용하여 양적 자료에 대한 상자그림을 작성하는 내용을 다루었습니다.

[ 이부일의 R릴레오 ] #R강의 015 : plotly 패키지를 이용한 상자그림 작성하기

plotly 패키지를 이용하여 양적 자료에 대한 상자그림을 작성하는 내용을 다루었습니다.

[ 이부일의 R릴레오 ] #R강의 016 : 기술통계량의 개념(1)

양적 자료의 특징을 알려주는 기술통계량에 대한 개념을 소개하고 있습니다.

[ 이부일의 R릴레오 ] #R강의 017 : 기술통계량의 개념(02)

양적 자료에 대한 기술통계량의 개념으로 중심(대표값)을 나타내는 절사평균, 중위수, 최빈수에 대한 개념을 소개하고 있습니다.

[ 이부일의 R릴레오 ] #R강의 018 기술통계량(중심=대표값) 구하기(01)

양적 자료의 기술통계량으로 중심(대표값)을 알려주는 평균, 절사평균, 중위수, 최빈수를 R의 기본기능으로 구하는 내용입니다.

[ 이부일의 R릴레오 ] #R강의 019 기술통계량(퍼짐=산포=다름)의 개념

양적 자료의 특징을 파악하기 위해서 구하는 기술통계량으로 퍼짐(산포, 다름)을 알려주는 범위, 사분위범위, 분산, 표준편차, 중위수절대편차에 대한 개념을 간략히 소개하는 내용입니다.

[ 이부일의 R릴레오 ] #R강의 020 : 기술통계량 구하기(02)

양적 자료에 대한 기술통계량 중에서 퍼짐(산포, 다름)을 알려주는 범위, 사분위범위, 분산, 표준편차, 중위수절대편차를 R의 기본기능으로 구하는 과정을 다루고 있습니다.

[ 이부일의 R릴레오 ] #R강의 021 : 기술통계량구하기(3)

양적 자료에 대한 기술통계량 중에서 분포의 모양을 알려주는 왜도, 첨도에 대한 개념과 R에서 구하는 내용입니다.

[ 이부일의 R릴레오 ] #R강의 022 : psych 패키지를 이용하여 기술통계량 구하기

psych 패키지에서 제공하는 describe(), describeBy() 함수를 통해서 기술통계량을 구하는 내용을 다루고 있습니다.

[ 이부일의 R릴레오 ] #R강의 023 : dplyr 패키지를 이용한 기술통계량 구하기

dplyr 패키지를 이용하여 양적 자료에 대한 기술통계량을 구하는 내용을 다루고 있습니다.

[ 이부일의 R릴레오 ] #R강의 024 : dplyr 패키지를 이용하여 열(변수) 추출하기

dpylr 패키지에서 제공하는 select() 함수를 이용하여 데이터의 열(변수)를 추출하는 내용입니다.

[ 이부일의 R릴레오 ] #R강의 025 : dplyr 패키지를 이용한 행 추출하기

dplyr 패키지의 filter() 함수를 이용하여 특정한 행을 추출하는 내용입니다.

[ 이부일의 R릴레오 ] #R강의 026 : dplyr 패키지의 파이프 기능과 새로운 변수만들기

dplyr 패키지에서 제공하는 pipe(파이프) 기능과 mutate() 함수를 이용하여 새로운 변수를 생성하는 내용입니다.

[ 이부일의 R릴레오 ] #R강의 027 : dplyr 패키지를 이용한 기술통계량과 정렬하기

dplyr 패키지에서 제공하는 파이프 기능, summarise() 함수를 통한 기술통계량 구하기, group_by() 함수를 이용하여 집단별 처리, arrange() 함수를 이용하여 데이터를 정렬하는 내용을 다루고 있습니다.

[ 이부일의 R릴레오 ] #R강의 028 : dplyr 패키지를 이용한 데이터 합치기

dplyr 패키지에서 제공하는 inner_join(), full_join(), left_join(), right_join() 함수를 이용하여 데이터를 합치는 내용입니다.

[ 이부일의 R릴레오 ] #R강의 029 : dplyr 패키지를 이용한 semi join과 anti join

dplyr 패키지에서 제공하는 semi_join() 함수와 anti_join() 함수를 이용하여 데이터를 합치는 내용입니다.

[ 이부일의 R릴레오 ] #R강의 030 : 모집단과 표본

모집단, 표본의 대한 개념, 전수조사(총조사, 센서스)와 표본조사의 개념에 대해서 간략히 소개하는 내용입니다.

[ 이부일의 R릴레오 ] #R강의 031 : 분포(Distribution)

모집단의 분포가 어떻게 생겼는지를 표본을 뽑아서 추론하는 내용입니다.

[ 이부일의 R릴레오 ] #R강의 032 : 정규분포의 개념

모집단의 분포 중에서 가장 유명한 정규분포에 대한 개념을 간략히 설명하고 있습니다.

[ 이부일의 R릴레오 ] #R강의 033 : R을 이용하여 정규분포에서 확률구하기

R을 이용하여 정규분포에서 난수 생성하기, 누적확률 구하기, 확률변수값 구하기, 밀도 구하는 내용입니다.

[ 이부일의 R릴레오 ] #R강의 034 : 표본평균의 분포

표본평균의 분포에 대해서 짧게 설명한 내용입니다.

[ 이부일의 R릴레오 ] #R강의035 : 왜 분포를 알아야 하는가?

분포의 중요성을 설명하고 있습니다.

[ 이부일의 R릴레오 ] #R강의036 : 가설이란?

가설의 개념, 가설의 종류로 귀무가설과 대립가설을 다루고 있습니다.

[이부일의 R릴레오 ] #R강의037 : 유의수준이란 무엇인가? 01

가설검정에서의 유의수준에 대한 개념을 간략히 설명하고 있습니다.

[ 이부일의 R릴레오 ] #R강의038 : 유의수준이란 무엇인가?(02)

유의수준의 개념을 분포를 이용하여 설명하고 있습니다.

[ 이부일의 R릴레오 ] #R강의039 : 유의수준이란 무엇인가?(03)

가설검정에서의 유의수준 개념을 그림으로 설명하고 있습니다.

[ 이부일의 R릴레오 ] #R강의040 : 정규분포의 표준화

정규분포를 따르는 값들을 표준화하면,

표준화된 값들은 평균이 0이고 표준편차가 1인 표준정규분포를 따른다는 내용입니다.

[ 이부일의 R릴레오 ] #R강의041 : 유의확률이란 무엇인가?01

가설검정에서 표준정규분포에서의 유의수준과 유의확률의 개념을 설명하고 있습니다.

[ 이부일의 R릴레오 ] #R강의042 : 유의확률이란 무엇인가?02

가설검정에서의 유의확률 개념을 설명하고 있습니다.

[ 이부일의 R릴레오 ] #R강의043 : 일표본 t검정

하나의 모집단의 평균이 기존에 알고 있었던 것보다 커졌는지, 작아졌는지, 달라졌는지를 검정(분석)하는 일표본 t검정(One sample t-test)에 대한 내용을 다루고 있습니다.

[ 이부일의 R릴레오 ] #R강의044 : R을 이용한 일표본 t검정

R을 이용하여 일표본 t 검정(One sample t-test)을 하는 내용입니다.

[ 이부일의 R릴레오 ] #R강의045 : R을 이용한 윌콕슨의 부호 순위 검정

일표본 검정에서 비모수적 방법인 윌콘슨의 부호 순위 검정(Wilcoxon's signed rank test)을 소개하고 있습니다.

[ 이부일의 R릴레오 ] #R강의046 : R을 이용한 일표본 검정

정규성 검정과 정규성 검정 결과에 따라 정규성 가정을 만족하면 One sample t-test, 정규성 가정이 깨지면 Wilcoxon's signed rank test하는 것으로 7개의 양적 자료에 대한 결과를 for문을 이용하여 한 번에 진행하고, 그 결과를 엑셀 파일에 저장하는 내용입니다.

[ 이부일의 R릴레오 ] R강의047 : R을 이용한 일표본 검정에 대한 Flow Chart

R을 이용하여 일표본 검정을 진행할 때에

이해하기 쉽도록 Flow Chart를 작성해 보았습니다.

[ 이부일의 R릴레오 ] #R강의048 : 독립 2표본 검정(01)

독립 2표본 검정에 대한 이론적인 내용입니다.

[ 이부일의 R릴레오 ] #R강의049 : 독립 2표본 검정(02)

독립 2표본 검정의 내용으로 등분산이 가정되었을 때와 이분산이 가정되었을 때의 독립 2표본 검정의 내용을 다루고 있습니다.

[ 이부일의 R릴레오 ] #R강의050 : 독립 2표본 검정(03)

독립 2표본 검정에서 등분산 검정에 대한 내용입니다.

[ 이부일의 R릴레오 ] #R강의051 : 독립 2표본 검정(04)

R을 이용하여 다음의 내용을 실습하는 내용입니다.

1. 정규성 검정

2. 등분산성 검정

3. 등분산이 가정된 Two sample t-test

4. 이분산이 가정된 Two sample t-test

[ 이부일의 R릴레오 ] #R강의052 : 독립 2표본 검정(05)

독립 2표본 검정에서 정규성 가정이 깨졌을 때에 사용하는 비모수적 방법(Non-parametric method)인 윌콕슨의 순위합 검정(Wilcoxon's rank sum test)에 대한 이론을 간략히 설명하고 있습니다.

[ 이부일의 R릴레오 ] #R강의053 : 독립 2표본 검정(06)

R을 이용하여 윌콕슨의 순위합 검정(Wilcoxon's rank sum test)을 하는 내용입니다.

[ 이부일의 R릴레오 ] #054 : 독립 2표본 검정(07)

R을 이용하여

정규성 검정을 하고, 정규성 가정을 만족하면 등분산 검정을 하고,

등분산 가정이 되면 등분산이 가정된 Two sample t-test,

이분산 가정이 되면 이분산이 가정된 Two sample t-test,

정규성 가정이 깨지면 Wilcoxon's rank sum test를 하는 프로그램을 작성하는 내용입니다.

[ 이부일의 R릴레오 ] #R강의055 : 대응 2표본 검정(01)

동일한 집단의 사전의 양적 자료와 사후의 양적 자료에 통계적으로 유의한 차이가 있는지를 분석하는 내용으로, 정규성 가정이 만족되었을 때에 하는 대응 2표본 검정(Paired t-test)을 소개하고 있습니다.

[ 이부일의 R릴레오 ] #R강의 056 : 대응 2표본 검정(02)

동일한 대상자의 사전과 사후의 양적 자료에 통계적으로 유의한 차이가 있는지를 검정하는 Wilcoxon's signed rank test에 대한 내용으로 (사전-사후)의 값이 정규분포를 따르지 않을 때에 사용하는 방법입니다.

[ 이부일의 R릴레오 ] #R강의 057: 대응 2표본 검정(03)

정규성 가정이 만족할 때에 R을 이용하여 대응 2표본 t검정(Paired t-test)을 실습하는 내용입니다.

[ 이부일의 R릴레오 ] #R강의 058: 대응 2표본 검정(04)

R을 이용하여 대응 2표본 검정에서 정규성 가정을 만족하지 않을 때에 하는 Wilcoxon's signed rank test를 실습하는 내용입니다.

[ 이부일의 R릴레오 ] #R강의 059 : 대응 2표본 검정(05)

대응 2표본 검정으로 R을 이용하여 정규성 검정을 하고, 정규성 검정 결과에 따라 Paired t-test 또는 Wilcoxon's signed rank test하는 과정을 R로 실습하는 내용입니다.

[ 이부일의 R릴레오 ] #R강의 060 : 분산분석01

독립인 3개 이상의 모집단의 양적 자료에 통계적으로 유의한 차이가 있는지를 검정하는 분산분석에 대한 이론적인 내용입니다.

[ 이부일의 R릴레오 ] #R강의 061 : 분산분석02

독립인 3개 이상의 모집단의 양적 자료에 통계적으로 유의한 차이가 있는지를 검정하는 분산분석에 대한 이론적인 내용으로 SST = SSE + SSB에 대한 개념을 추가적으로 설명하고 있습니다.

[ 이부일의 R릴레오 ] #R강의 062 : 분산분석(03)

일원배치 분산분석(One way ANOVA)에 대한 이론적인 개념을 설명하는 것으로, F 검정통계량와 F분포를 설명하고, 이것을 이용하여 분산분석에 대한 가설검정을 하는 내용을 설명하고 있습니다.

[ 이부일의 R릴레오 ] #R강의 063 : 분산분석04

일원배치 분산분석으로, R을 이용하여 집단별 정규성 검정, Bartlett 또는 Levene의 등분산 검정, oneway.test(), aov() 함수를 이용한 분산분석을 하는 내용을 다루고 있습니다.

[ 이부일의 R릴레오 ] #R강의 064 : 분산분석05

분산분석의 내용으로 집단 간에 통계적으로 유의한 차이가 있다고 결론이 내려졌을 때에 어느 집단과 어느 집단 간에 유의한 차이가 있는지를 분석하는 다중비교(또는 사후분석)에 대한 R 실습 내용입니다.

[ 이부일의 R릴레오 ] #R강의 065 : 분산분석06

중비교(또는 사후분석) 방법으로

agricolae 패키지에서 제공하는 Tukey와 Duncan 방법을 R로 실습하는 내용입니다.

[ 이부일의 R릴레오 ] #R강의 066 : 분산분석07

정규성 가정이 깨졌을 때에 사용하는 Kruskal-Wallis rank sum test에 대한 이론적인 설명입니다.

[ 이부일의 R릴레오 ] #R강의 067 : 분산분석08

정규성 가정이 깨졌을 때에 사용하는 Kruskal-Wallis rank sum test을 R로 실습하는 내용입니다.

[ 이부일의 R릴레오 ] #R강의068 : 상관분석01

두 개의 양적 자료 간의 관련성(직선의 관계 = 선형의 관계)이 있는지를 시각적으로 보는 산점도에 대한 개념과 R을 이용한 실습한 내용입니다.

이부일의 R릴레오 ] #069 : 상관분석02

두 개의 양적 자료 간의 관련성(직선의 관계 = 선형의 관계)의 정도를 수치로 알려주는 상관계수(coefficient of correlation)를 설명하는 내용입니다.

[ 이부일의 R릴레오 ] #070 : 상관분석03

두 개의 양적 자료 간의 관련성(직선의 관계 = 선형의 관계)의 정도를 수치로 알려주는 상관계수(coefficient of correlation)입니다.

[ 이부일의 R릴레오 ] #071 상관분석04

두 개의 양적 자료의 선형(직선)의 관계가 어느 정도인지를 알아보는 방법으로 두 개의 양적 자료가 정규성 가정이 깨지거나 순위형 자료로 왔을 때에 사용하는 방법 중의 하나인 Kendall의 상관계수에 대한 개념을 설명하고, R로 실습하는 내용입니다.

[ 이부일의 R릴레오 ] #072 상관분석05

두 개의 양적 자료 간에 통계적으로 의미 있는 상관관계(직선의 관계 = 선형의 관계)가 있는지를 검정하는 상관분석입니다.

[ 이부일의 R릴레오 ] #073 : 회귀분석01

어떤 양적 자료(들)가 다른 양적 자료에 통계적으로 유의한 영향을 주는지를 분석하는 회귀분석 내용을 다룹니다. 회귀분석을 인과관계, 즉 원인과 결과의 관계가 있는지를 분석한다고 얘기할 수 있다. 예측의 가장 기본이 되고 가장 많이 사용하는 분석 방법 중의 하나입니다.

[ 이부일의 R릴레오 : 074회 ] # 회귀분석02

회귀분석으로

종속변수(반응변수, label), 독립변수(설명변수, feature), 절편(intercept), 기울기(slope), 오차(error), 회귀계수(coefficient of regression), 회귀모형(regression model), 최소제곱법을 통한 회귀계수를 구하는 과정을 짧게 다루고 있습니다.

[ 이부일의 R릴레오 ] #075 : 회귀분석03

회귀분석으로 회귀모형의 타당성 검정에 대한 이론적인 내용입니다.

SST, SSE, SSR, MSE, MSR

[ 이부일의 R릴레오 ] #076 : 회귀분석04

회귀분석으로

회귀계수(기울기)에 대한 유의성 검정으로

독립변수(X)가 종속변수(Y)에게 통계적으로 유의한 영향을 주는지를 검정하는 내용입니다.

[ 이부일의 R릴레오 ] #077 : 회귀분석05

회귀분석으로 회귀모형의 설명력(or 독립변수의 설명력 or 결정계수)에 대한개념을 소개하는 내용입니다.

[ 이부일의 R릴레오 ] #078 : 회귀분석06

R를 이용하여 단순선형 회귀분석을 하고, 회귀모형의 타당성, 독립변수의 유의성 검정을 해석하는 내용입니다.

[ 이부일의 R릴레오 ] #079 : 회귀분석07

R를 이용하여 단순선형 회귀분석을 하고, 회귀분석의 결과를 해석하는 내용으로 다음을 다루고 있습니다.

Q. 독립변수는 종속변수에게 어떤 영향을 주는가?

Q. 회귀모형의 설명력(독립변수의 설명력, 결정계수)은 얼마인가?

Q. 예측값은 얼마인가?

* 유튜브 : https://www.youtube.com/channel/UCJ49UIzNXAaxZdDNYFxNhsA

* 출처 : http://withmooc.com/courses/%ec%9d%b4%eb%b6%80%ec%9d%bc%ec%9d%98-r%eb%a6%b4%eb%a0%88%ec%98%a4-%ec%9d%b4%eb%b6%80%ec%9d%bc-%ea%b5%90%ec%88%98-youtube/

Posted by uniqueone
,

http://statkclee.github.io/think-stat/

통계적 사고 워크샵

싸이그래머 xwMOOC가 함께 합니다.

기계와의 경쟁을 준비하며…

“The future is here, it’s just not evenly distributed yet.”
- William Gibson

학습 개요

  • 일시
    • ’15년 11월 18일 ~ ’16년 1월 6일 (8주간)
    • 매주 수요일 19:00 ~ 20:00
  • 장소

 

 

 

 

교재

 

 

통계적 사고 (ThinkStats2) : 프로그래머를 위한 확률과 통계
- (번역): https://github.com/statkclee/ThinkStats2
- (원서): http://greenteapress.com/thinkstats2/
- 번역 버젼(’15년 11월 17일), PDF 파일
- 번역 버젼(’15년 11월 17일), HTML 파일
«««« 연습문제 초벌 번역
«««« 한국어판 서문 추가

 

 

장연습문제해답

1장 문제 해답
2장 문제 해답
3장 문제 해답
4장 문제 해답
5장 문제 해답
6장 문제 해답
7장 문제 해답
8장 문제 해답
9장 문제 해답
10장 문제 해답
11장 문제 해답
12장 문제 해답
13장 문제 해답
14장 문제 해답

공용 작업공간

위키…통계적 사고

LaTeX 사전 공부

출처: OpenIntro.org LaTeX 저작 교육과정

사전 준비

  1. Git과 GitHub
  2. 파이썬 설치: 아나콘다 기반 과학컴퓨팅 개발환경을 적극추천

# 파이썬 2 기준 우분투 14.04 64비트 버젼 설치 사례 $ wget https://3230d63b5fc54e62148e-c95ac804525aac4b6dba79b00b39d1d3.ssl.cf1.rackcdn.com/Anaconda2-2.4.0-Linux-x86_64.sh $ bash ~/Downloads/Anaconda2-2.4.0-Linux-x86_64.sh 사전준비 검증[xwmooc:~/ThinkStats2/code ] $ python nsfg.pynsfg.py:42: SettingWithCopyWarning: A value is trying to be set on a copy of a slice from a DataFrame See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy df.birthwgt_lb[df.birthwgt_lb > 20] = np.nan (13593, 244) nsfg.py: All tests passed.부랑자(Vagrant)와 가상상자(VirtualBox)를 활용한 과학컴퓨팅 환경 구축

부랑자(Vagrant) 아나콘다 설치환경 참조

학습 목차

일시학습 내용

2015. 11. 18 탐색적 자료 분석 & 분포
2015. 11. 25 확률 질량 함수 & 누적분포함수
2015. 12. 2 분포 모형화 (Modeling distributions) & 확률밀도함수
2015. 12. 9 변수간 관계
2015. 12. 16 추정 (Estimation)
2015. 12. 23 가설 검정 (Hypothesis testing
2015. 12. 30 선형최소제곱 & 회귀 (Regression)
2016. 1. 6 시계열 분석 & 생존분석

열린 통계학 개론

언론 기사

참고자료

xwMOOC 한글소스 Contact License

 

 

 

Posted by uniqueone
,