innn

단일변수 범주형 자료 탐색 본문

빅데이터 R/R

단일변수 범주형 자료 탐색

33삼 2022. 7. 17. 20:48

결과값 원그래프
중앙값을 제일 많이 쓰임. 연속형 자료 내에서 가장 가운데 값을 말하는 것임.

평균값은 평균인데, 데이터의 의미가 중앙값이 왜 중요하냐면, 평균값에 튀는 숫자 120같은게 있으면 의미가 없다. 이럴때 중앙값을 많이 본다. 그래서. 

절사 평균이란, 관측된 자료값 중에서 작은 값의 하위 n프로와 큰값의 상위n프로를 제외하고 나머지를 가지고 평균 계산하는거 왜? 튀는 값을 뺴고 평균을 재기 위해서. 

120이 들어오면 평균값이 깨지니까. 그래서 중앙값과 절사 평균값을 구하는 것임. / 결과콘솔

 

4등분 = 4분위수
10프로 구간별로 찍어서 보는게 3번라인

 

결과 콘솔
산포 = 분포 = distribution
히스토그램 결과 콘솔 (연속형 자료의 분포를 시각화할때 사용한다) 면적의 차이가 있다

 

결과 콘솔
상관분석 데이터분석할때 정말 중요함 / 다중변수 = 변수가 두 개 이상인 자료가 다중변수임

 

결과 콘솔 19번으로 고른 아이콘으로 그래프에 점이 찍힌다
벡터에 연비, 배기량, 뒤바퀴축 기어비 vars에 집어서 mtcar에다가 데이터 셋을 가지고 타겟에 집어넣고 pairs 타켓과 페어스는 우리가 아까 앞쪽엔 2개의 변수만 가지고 비교했는데, pairs는 네개의 변수에대 한 산점도를 보여주는 그래프.  / 결과 콘솔
변수 mpg , disp , drat , wt 네개 가령 drat과 wt비교할땐 x축이 wt, y축이 drat인거임.
lm이 선을 찾아주는 것임
결과 콘솔창

'빅데이터 R > R' 카테고리의 다른 글

벡터의 연산  (0) 2022.07.03