대학원 10

헷갈리는 기초통계 개념 #1 - 변수, 변량, 분산, 공변인, 공분산(variable, variate, variance, covariate, covariance) 개념 차이

변수, 변량, 분산, 공변인, 공분산(variable, variate, variance, covariate, covariance)의 개념 간 차이는 다음과 같다. • variable: 변수 • variate: 변량 변수를 각각 X1, X2, X3라고 하면, 변량은 변수를 선형 조합(linear combination)해서 만든 변인. (예) W = 3X1 + 2X2 + X3 → W는 변량. - univariate: 단변량 (예) X1 → 변인 하나. univariate = variable - bivariate: 이변량. (예) W = 3X1 + 2X2. bivariate ≠ variable - multivariate: 다변량 (예) W = 3X1 + 2X2 + X3 + ... • variance: 분산 •..

표집 방법/표본 추출법 sampling method

표집방법 - 확률적 방법(probability sampling), 비확률적 방법(nonprobability sampling)으로 나뉨. 1. 확률적 표집 방법 표집치(statistics)를 통해 전집치(parameters)를 추정하거나 전집 특성에 대해 통계적 가설 검증을 하기 위해 시행하는 방법. 전집 특성을 가장 잘 나타낼 것이라 추정되는 요소들을 확률, 통계적으로 적절하게 표집하는 것 확률적 방법이 가능하기 위해서는 전집을 구성하는 각 표집단위들이 표집에 선택될 확률이 밝혀져야 하며, 각 표집단위들을 서로 구별할 수 있는 일련번호를 부여할 수 있어야 함. ex. 전집이 100명, 그 중 10명 표집. 각 학생들에게 1~100까지 일련번호를 부여. 특정 학생이 표집에 선택될 확률은 0.1. *표집단위..

[기초통계] 신뢰도와 타당도 (feat. 필요조건과 충분조건 개념)

🔘타당도 (1) 안면타당도(face validity): 관련 분야 전문가가 타당성 여부를 검토하는 것 (2) 내용타당도(content validity): 측정 내용이 대표성을 가지고 있는지, 측정 요소가 적절히 구성되어 있는지 검토하는 것. 논리적 타당도, 교과타당도라고 하기도 함. (3) 구인타당도(construct validity): 어떤 도구가 어떤 심리적 특성을 재고 있다고 하는 경우, 정말 그런 특성을 재고 있는지 검증하는 것. 성분타당도라고 하기도 함. *구인: 어떤 개념을 구성한다고 생각할 수 있는 하위개념, 하위특성. 구성하고 있는 인자, 요인. *구인타당도 확인 방법: 개념이나 심리적 특성을 하위영역으로 나누고 각각에 대해 조작적 정의를 내리고 측정도구를 개발함. 개발한 도구를 실시한 결..

[기초통계] 변산성 수치 - 편차, 분산, 표준편차 개념과 의미 (1)

🚩변산성(variability) - 자료의 분포에 대한 정보 제공 - 편차(deviation): 각 데이터가 평균으로부터 떨어진 정도 (데이터-평균) - 분산(variance): 편차 제곱들의 평균 - 표준편차(standard deviation): 분산의 제곱근 ℹ️ 변산성(variability), 분산도(variation), 분산(variance) 차이? 변산성(variability): 범위, 분산, 표준편차와 같이 자료의 분포에 대한 정보를 제공하는 측정치라고 할 수 있다. 분산(variance): 위와 같이 편차 제곱들의 평균을 의미한다. 분산도(variation): 분포의 흩어진 정도를 말한다. 즉, 다양성의 정도를 나타낸다. 분산도 또는 변산이라고 말하기도 한다. 변산성(variability)과..

[기초통계] 기술통계 & 추리통계 개념

통계학은 크게 기술통계, 추리통계로 나뉜다. 기술통계 (descriptive statistics) - 관찰 데이터에서 데이터의 특징을 뽑아내어 기술함 ex. 평균, 표준편차, 도수분포표, 히스토그램 ❓기술통계는 무엇일까? 어떤 목적을 가지는가? - 단순히 숫자가 나열되어 있는 데이터 자체만으로는 데이터의 정보를 쉽게 알 수 없음. - 분포한다: 다양한 수치로 나타난다 - 분포가 생기는 이유: 수치가 결정된 이면에 불확실성의 구조가 있기 때문. - 분포의 특성: 고유한 특징이나 반복되는 것이 있음. - 데이터로부터 분포의 특징을 이끌어내기 위해 통계를 사용함. 통계는 축약을 통해 많은 숫자로 나타난 데이터를 어떤 기준으로 정돈해 의미 있는 정보만 추출.(물론, 이 과정에서 정보의 손실이 발생하기는 하지만 ..

통계 개념 (한/영) (last update: 23. 5. 27.)

통계를 생전 처음 접하는 사람에게 통계 개념들은 정말 낯설기만 하다. 공부하다보면, 논문을 영어로 읽을 때도 있는데 이때 특정 통계 용어들을 모르고 접하면, 사전적 의미 그대로 해석하게 되고 그럴 경우 논문을 잘못 이해하는 불상사가 발생한다. (대표적 예: bias - 통계에서는 편향, 편파 등으로 해석, imputation: 통계에서는 대체로 해석) ​ 전공이 아니라면 어려움을 덜 겪을 수도 있을 것 같기는 한데, 연구를 하려면 연구방법론은 모든 학생이 기본적으로 배워야 하기 때문에 어느 정도 자주 사용되는 용어 정도는 기억하면 편하다. 가장 좋은 방법은 통계 용어를 한글-영어로 엑셀 파일에 정리해두는 것이다. 앞으로도 계속 업데이트를 할 예정이다. 영어 한글 time-invariant variable..

전공 커리큘럼과 로드맵에 대한 고찰

교육측정평가 전공 중 교육통계 쪽을 전공하고 있는데 3학기 쯤 되니 전공 로드맵을 이렇게 짰으면 좋을 것 같다는 생각이 든다. 1학기 교육통계분석론 (기초통계) 고급심리통계 (심리학과. 기초통계) 회귀분석 (강의가 신설되었는데 회귀분석 수강 후 다층모형 수강. 순서가 좋다) 다층모형 (이건 어쩔 수 없다.. 우리 전공은 1학기차에 들어야 함.) 1학기에 4개 듣는 것은 매우 힘들기는 한데, 1-2월에 기초통계를 예습하고 온다면 덜 부담스럽다. 꼭 예습하고 오자. 2학기 구조방정식모형 다변량분석 (심리학과) R 모듈 수업 (신설된다고 하니 2학기에 수강하는 것이 좋음) 전공 세미나가 있다면 듣고.. 없다면.. 타과 강의 수강도 추천. 3학기 인과추론 경험과학적연구방법론 ? 4학기 ?? 후회 1. 인과추론을..

분포 - 정규분포, t분포, 카이제곱분포, F분포 (수정중)

정규분포 t분포 P(X > 100) = P((X-µ)/σ > ... ) = P(Z > ...) p값을 구하기 위해 x를 z로 변환하여 계산 Z=(X-µ)/σ 에서 σ를 모를 때 s를 써야 하는데 s를 쓰게 되면 정규분포가 아니라 t분포를 따르게 됨. - t분포의 파라미터: 자유도 ν - 자유도: n 또는 ν (ν; nu라고 부름) - 기댓값: 0 - 분산: ν/(ν+2) (*자유도가 커지면 1에 가까워짐. 즉, 표준정규분포에 가까워짐) 카이제곱분포 Z들이 모두 표준정규분포를 따를 때, Z 제곱합들이 따르는 분포가 카이제곱분포 - 카이제곱분포의 파라미터: 자유도 ν - 자유도: n 또는 ν (ν; nu라고 부름) m개 제약이 가해지면 자유도는 n-m개. 어떨 때 제약이 가해지는가? Z=(X-µ)/σ 에서 ..

헷갈리는 기초통계 개념 #0

문과 출신이 통계를 공부하다보니 낯선 용어들이 너무나 많다. 기초통계 교재를 보더라도 뭔가 자세히 설명해주지 않는 용어들도 많고, 기초통계 책 하나를 공부했다 하더라도 뭔가 기본적인 통계 지식을 다 알게 되었다고 하기에는 불충분한 경우가 많다. 자주 등장하지만, 명쾌하게 이야기해주지 않는 통계 용어들도 너무 많다.. (통계학의 바이블이라고 불릴 정도의 기초통계 책을 누군가가 집대성해 주었으면 하는 바람이다.) 헷갈리는 통계 용어들이 있는데, 확실하게 개념을 짚고 넘어가면 좋다. 물론, 나도 책을 공부하면서, 강의를 들으면서 정리한 내용들이라 오류가 있을 수 있음을 미리 얘기한다. - 유의확률(significance probability, p-value, probability value), 유의수준(sig..