반응형

전체 글 823

[통계학] 03-1. 다변량 자료 기술통계 (1) - 분할표, k차원 분할표, 원도표, 막대그래프

(통계학-기본개념과 원리, 여인권)을 바탕으로 제작하였습니다. (k-mooc 통계학의 이해1, 여인권)을 수강하면서 정리해보았습니다. 다변량 범주형 자료를 표나 그래프를 이용하여 정리하는 방법을 알아보겠습니다. 다변량 변수(형태)는 다음으로 분류할 수 있습니다. 이를 분석 목적에 따라 다양한 표나 그래프를 선정해야 합니다. 비교 : X에 따라 Y에 차이가 있는가? (1번과 2번, 비율, 빈도, 분산, 평균 등) 관계 : X와 Y가 관련이 있는가?, X가 Y에 영향을 주는가? (1번, 4번) 분류 : X에 따라 Y를 분류할 수 있는가?, X와 Y가 비슷한 것끼리 묶을 수 있는가? 이제부터 다변량 변수를 정리하는 표나 그래프에 대해 알아보겠습니다. 1. 분할표 - contingency table 앞에서 배운..

[통계학] 02-8. 기술통계 (8) - 수치자료의 형태 (왜도, 첨도, 꼬리)

(통계학-기본개념과 원리, 여인권)을 바탕으로 제작하였습니다. (k-mooc 통계학의 이해1, 여인권)을 수강하면서 정리해보았습니다. 자료의 분표 형태가 대칭인지 아닌지를 나타내는 통계값(왜도)을 알아보겠습니다. 분포의 꼬리 부분이 얼마나 두터운지를 나타내는 통계값(첨도)를 알아보겠습니다. 7.3 분포의 형태 지금까지의 포스팅에서는 자료의 중심위치와 산포에 관련된 통계값에 대해 알아보았습니다. 수치형 자료에 대한 통계분석방법에서는 대부분 모집단의 형태가 중심위치를 기준으로 좌우대칭인 것으로 가정하고 있습니다. 분석방법의 적절성은 가정한 조건을 자료가 얼마나 만족하고 있는지에 따라 영향을 받습니다. 이런 점에서 자료가 어떤 형태로 분포되어 있는지, 자료가 모집단의 가정을 만족하는지 확인하는 통계값에 대해 ..

[통계학] 02-7. 기술통계 (7) - 수치자료 분포의 산포2 (표본분산, 표본표준편차, 표준화, 변동계수)

(통계학-기본개념과 원리, 여인권)을 바탕으로 제작하였습니다. (k-mooc 통계학의 이해1, 여인권)을 수강하면서 정리해보았습니다. 자료들 간의 거리를 이용하여 산포도를 계산하는 방법(표본분산, 표본표준편차)을 알아보겠습니다. 자료분석에서 측정 단위에 영향을 받지 않게 만드는 표준화에 대해 알아보겠습니다. 그리고 평균으로 표본표준편차를 보정한 변동계수를 알아보겠습니다. (3) 표본분산과 표본표준편차 범위나 사분위수범위의 경우 특정 위치의 두 값을 이용하기 때문에 표본의 정보를 많이 활용하지 못합니다. 이런 문제를 해결하기 위해 모든 자료들 간의 거리의 합을 이용하는 것 입니다. 수학적으로 거리 $D$는 임의의 점 a, b, c에 대해 다음과 같은 성질을 만족합니다. 우리는 거리$D$의 성질 중 $D$(..

[통계학] 02-6. 기술통계 (6) - 수치자표 분포의 산포1 (범위, 사분위범위, 상자그림)

(통계학-기본개념과 원리, 여인권)을 바탕으로 제작하였습니다. (k-mooc 통계학의 이해1, 여인권)을 수강하면서 정리해보았습니다. 수치자료의 퍼져있는 정도인 산포도를 나타내는 값 중 두 특정 위치의 정보를 활용한 통계값(범위, 사분위 범위)을 알아보겠습니다. 자료의 주요 위치를 파악하고 이상점 유무를 확인하는 데 사용되는 상자그림에 대해 알아보겠습니다. 7.2 산포 - dispersion, 퍼짐 대부분의 경우 중심위치만으로 자료의 특성을 파악하기에는 한계가 있습니다.. 중심위치만큼 중요한 통계값이 산포입니다. 산포는 자료들이 얼마나 퍼져 있는지를 나타내는 측도이며, 중심위치가 얼마나 안정적인지에 대한 중요한 정보를 제공합니다. 자료가 조밀하게 모여 있는 경우 중심위치(평균)의 변동성이 작아져 신뢰도는..

[통계학] 02-5. 기술통계 (5) - 수치자료의 대체중심위치(중앙값, 절사평균, 최빈값)

(통계학-기본개념과 원리, 여인권)을 바탕으로 제작하였습니다. (k-mooc 통계학의 이해1, 여인권)을 수강하면서 정리해보았습니다. 평균이 갖고 있는 단점은 이상점에 민감하다(이상점에 로보스트하지 않다)는 것이었습니다. 평균이 갖고 있는 단점을 해결할 수 있는 대체 통계값을 계산하는 방법(중앙값, 절사평균, 최빈값)과 성질을 알아보겠습니다. (6) 표본중앙값(sample median, 표본중위수) 표본중앙값은 자료를 크기순서대로 나열했을 때 가운데 위치에 있는 값으로 표본중위수라고도 합니다. 표본을 오름차순으로 정렬한 것을 순서통계량(order statistics)라고 합니다. ($x_1 < x_2 < ... < x_n$) 표본중앙값을 일반식으로 나타내면 다음과 같습니다. 여기서 $k_1 = (n+1)..

[통계학] 02-4. 기술통계 (4) - 수치자료 분포의 중심위치(평균, 표본비율, 기하평균, 조화평균, 가중평균)

(통계학-기본개념과 원리, 여인권)을 바탕으로 제작하였습니다. (k-mooc 통계학의 이해1, 여인권)을 수강하면서 정리해보았습니다. 7. 수치를 이용한 자료 정리 그래프 같은 시각적 기법은 자료의 특성을 파악하는데 있어 중요한 정보를 제공하지만 그것을 보는 사람에 따라 주관적으로 해석될 수 있습니다. 그렇기 때문에 일반적으로 자료분석의 최종 결과는 자료의 특성을 객관적으로 나타내는 수치로 제시됩니다. 일반적으로 자료의 특성은 자료를 대표할 수 있는 중심위치(central location)와 자료들이 얼마나 퍼져 있는지를 나타내는 산포(dispersion)로 표시된됩니다. 이번 포스팅에서는 수치자료 분포의 중심위치(평균, 표본비율, 가중평균, 기하평균, 조화평균)에 대해서 알아보겠습니다. 7.1 중심위치..

[통계학] 02-3. 기술통계 (3) - 수치형 자료 정리(도수분포표, 점도표, 히스토그램, 줄기-잎 그림)

(통계학-기본개념과 원리, 여인권)을 바탕으로 제작하였습니다. (k-mooc 통계학의 이해1, 여인권)을 수강하면서 정리해보았습니다. 수치자료를 범주화하는 방법을 알아보겠습니다. 또, 범주화된 수치자료를 표나 그래프를 이용하여 정리하는 방법을 알아보겠습니다. 4. 표를 이용한 정리(수치형) 4.1 도수분포표 - frequency table 수치자료에 대한 도수분포표를 만들 때에는 관측된 값들을 몇 개의 구간으로 범주화하여 해당 그룹에 속한 관측개체의 빈도로 도수분포표를 만듭니다. 우선, 수치자료의 범주화를 알아보겠습니다. 수치자료를 범주화할 때는 몇 개의 범주로 나눌 것인지와 범주의 경계값을 얼마로 할 것인지 정해야 합니다. 자료의 특성을 고려해 분석자가 임의대로 결정할 수 있습니다. 계급(class) ..

[통계학] 02-2. 기술통계 (2) - 범주형 자료 정리(도수분포표, 원도표, 막대그래프)

(통계학-기본개념과 원리, 여인권)을 바탕으로 제작하였습니다. (k-mooc 통계학의 이해1, 여인권)을 수강하면서 정리해보았습니다. 2. 표를 이용한 자료정리(범주형) 2.1 도수분포표 - frequency table 도수분포표는 범주형 자료 정리시 가장 많이 이용됩니다. 도수분포표는 각 범주에 몇 개의 관측개체가 있는지를 정리한 표입니다. 도수(frequency) 범주에 속한 관측개체의 수 (=빈도) 상대도수(relative frequency) 전체 자료 중 해당 범주에 속한 자료의 비율 $상대도수 = \frac{해당 범주 관측개체의 수}{전체 관측개체의 수}$ 로 구할 수 있습니다. 상대도수에 100을 곱해 % 표시를 하기도 합니다. 다음 자료를 살펴보겠습니다. 자료 1은 통계학의 이해 성적분포를 ..

[통계학] 02-1. 기술통계 (1) - 자료의 종류와 구조(범주형, 수치형자료)

(통계학-기본개념과 원리, 여인권)을 바탕으로 제작하였습니다. (k-mooc 통계학의 이해1, 여인권)을 수강하면서 정리해보았습니다. 2장 기술통계 - Descriptive statistics 이번 장에서는 자료를 속성에 따라 분류하고 이 분류에 따라 자료를 표나 그래프와 같은 시각적인 방법으로 정리하는 방법에 대해 알아보겠습니다. 또한 평균이나 분산과 같은 수치를 이용하여 자료의 특성을 알아보는 방법에 대해 알아보겠습니다. 1. 자료의 종류와 구조 자료를 속성에 따라 어떻게 분류하는지 알아보겠습니다. 아래의 신체검사 자료(데이타셋)을 확인하겠습니다. 위의 자료에서 변수와 관측개체를 확인할 수 있습니다. 변수와 관측개체가 무엇인지 알아보겠습니다. 변수(variable) 위의 자료에서 성별, 혈액형, 비만..

2. R Studio 환경 설정 하기

R Studio를 보다 효율적이고 쾌적하게 사용하기 위해서 몇 가지 환경을 설정해보도록 하겠습니다. 환경설정은 총 네가지로 진행하려고 합니다. 1) 한글 사용을 대비한 인코딩 설정 2) R스튜디오 작업 폴더(워킹 디렉터리) 설정 3) R프로젝트 생성 및 스크립트 저장 4) 스크립트 영역 자동 줄바꿈 설정 4가지를 설정하도록 하겠습니다. 1. 한글 사용을 대비한 인코딩 설정 Tools의 Global option을 선택해주세요 change를 클릭해주세요 UTF-8을 선택한 뒤 OK를 눌러줍시다. 2. R 스튜디오 작업 폴더(워킹 디렉터리) 설정 작업폴더를 일치시켜두면 편합니다. 앞으로 예제파일이나 데이터 파일을 다운받으실 때마다 작업폴더에 모아두면 관리하기가 수월할 것 같습니다. 우선 C드라이브에 폴더를 하..

반응형