우당탕탕 개발공부

[커널 아카데미] 데이터 분석 부트캠프 18기_ 2주차 학습일지 본문

⌛ BootCamp/[커널아카데미] 데이터분석 부트캠프

[커널 아카데미] 데이터 분석 부트캠프 18기_ 2주차 학습일지

냥냥서 2025. 3. 7. 17:58

 

0304

[ 데이터 분석을 위한 기초 수학/통계 ]

더보기

오늘 진짜.. 까먹었던..통계 배우느라.. 머리가 지끈 지끈^^.. 어떻게 다 까먹을수가 ~~~..

그래도 강사님이 문과시선에서 ㅋㅋㅋ 친절하게 설명해 주셔서.. 그나마 상기하는데 도움이 되었음 ㅠ.ㅠ

다중 선형 회귀 분석, 단순 선형 회귀 분석, t-test, f검정.. 등등..ㅎ 으아!!!!!!!!! 

 

 

날짜 데이터 처리

종료일 - 시작일 = 기간 ( 종료일은 기간에서 제외됨! )

* 종료일을 포함시키려면? +1 를 하면 됨!

 

날짜 데이터 연도, 월, 일 분리하기 (+ 시간 데이터도 같음! )

=YEAR( )

=MONTH( )

=DAY( )

 

=HOUR( )

=MINUTE( )

=SECOND( )

 

🤔 날짜와 텍스트를 같이 추출하려면?

=YEAR(D3)&"년"  --> 2023년

 

연도, 월, 일 데이터로 합치기

=DATE(연도, 월, 일)

시간 데이터라면?

=TIME(시, 분, 초)

 


💡  통계

: 일부분(표본)으로 전체(모집단)를 추론할 수 있음. 100%는 아님ㅎ

 

 

💡  가설 검정의 기준 : p-value(유의확률)

: 귀무가설이 맞다는 전제 하에, 표본에서 실제로 관측된 통계치와 '같거나 더 극단적인' 통계치가 관측될 확률

 

예)

귀무가설( H0 ) ㅣ 돼지 10,000마리의 평균 체중은 100kg이다.

- 표본에 따라 다양한 평균값이 나올 수 있음!

- 전체 평균이 진짜 100kg일 때 표본의 평균이 30kg이 나올 확률은 5%미만임 (유의수준)

- 그런데 추출한 표본의 평균이 30kg이 나왔다면?
-> 전체의 평균이 100kg이 아닐 것이라고 의심
-> 이때, 30kg이 나오거나 30kg보다 더 극단적인 평균이 나올 확률 p-value


💡 t -test

: 두 집단 (or 한 집단의 전/후)의 평균이 통계적으로 유의미한 차이가 있는지를 검정

 

💡F-검정

: 두 집단 분산에 통계적으로 유의미한 차이가 있는지를 검정

 

[ 시행 단계 ]

변수(집단) 선택 -> F-검정 -> t-test -> 결과해석

 

f-검정의 귀무 가설

-> 두 집단의 평균에 유의미한 차이가 없다. ( p>유의수준)

 

f-검정의 대립 가설

-> 두 집단의 평균에 유의미한 차이가 있다. ( p<유의수준)

 

 

( 다 까먹었다..ㅎ..... 수학은 너무 어려워이ㅣㅣ~ )

 

 


 

💡 모델링 (=공식을 만든다!)

[ 회귀 분석 ]

: 두 개 이상의 연속형 변수(수치)인 종속 변수와 독립 변수 간의 관계를 파악하는 분석

y= ax + b

y :  종속 변수 ( 우리가 알고 싶은 값 )

x : 독립 변수 (우리가 알고 있는 값)

 

 

단순 선형 회귀 분석 평가와 해석 

- 결정 계수 : 0~1 값을 가지며, 1에 가까울수록 회귀 모형이 실제 값을 잘 설명함

- F값 (p-value) : F값이 0.05미만(유의수준)이면 회귀 모형이 유의미

- y절편 및 x1의 계수 확인 : y절편-> b

 

 

  다중 선형 회귀 분석 평가와 해석 

- 조정된 결정 계수 : 0~1 값을 가지며, 1에 가까울수록 회귀 모형이 실제 값을 잘 설명함

- F값 (p-value) : F값이 0.05미만(유의수준)이면 회귀 모형이 유의미

- y절편 및 각 독립 변수의 p-value와 계수 확인 : 각 독립변수의 p-값이 0.05보다 작은 변수들의 계수

 

 

 

 

0306

[ 데이터 분석을 위한 기초 수학/통계 2 ]

더보기

벌써 이동훈 강사님과 마지막 날이라니 ~~ 이렇게 쉽고 재미있게 설명해 주시는 강사님을 또 만날 수 있을까!

덕분에 엑셀.. 수학 등등.. 이해가 잘 됐습니닷....( 이래놓고 혼자하면 못 함 )

 

 

 

💡 시계열 데이터

-> 시간의 흐름에 따라 정리한 데이터

-> 현재 시점과 가까운 과거 데이터가 가중치가 높아짐!

 

- 정상 시계열 데이터 : 추세/ 계절성 X , 관측된 시간에 무관한 성질

- 비정상 시계열 데이터

 

 


💡 머신러닝 (TEP)

: 경험과 학습을 통해 자동으로 개선

- 기계 학습

- 작업(T), 경험(E), 성능(P)

- 지도 학습, 비지도 학습, 강화 학습

 


 

💡 데이터 시각화

: 데이터 분석 결과를 쉽게 이해할 수 있도록 시각적으로 표현하고 전달되는 과정

: 도구가 아니라 전략이다 !

 

 

퀴즈가 있는 날이라 퀴즈까지 완료!

 

 

 

벌써 2주차 끝이다! 다음주부터는 파이썬 배우는데 얼른 배우고 싶다

이번주도 수고했다 냥냥