innn

2022.07.31 본문

빅데이터 R

2022.07.31

33삼 2022. 7. 31. 20:26

숫자만 분석하는 게 아닌 문자나 문장, sns 댓글 등 분석하는 경우가 많다. 그럴때 워드 클라우드를 쓴다.

워드 클라우드는 문자형 데이터를 다루는 대표적인 데이터 분석기법

 

 

 

가령 

이런 데이터를 분석한다하면??

저장명도 늘 영어로 해야함

 

실습할 때 실행하면 아래와 같다

 

 

실행 콘솔창. 토큰들(명사 단어들)이 뽑아져 있다.

 

네이버 데이터랩엔 국내의 웬만한 데이터 존재

전세계적으로 관심을 갖는 건 구글 트렌드에서 찾으면 됨..

국내 데이터는 네이버 데이터랩을 이용할것

 

 

 

워드클라우드는 R을 이용해서 R에 뿌려진 데이터를 자바에서 실핼하게 하면됌(프론트엔드로 보여지게하고)

 

회귀분석은 미래 주식 시세를 어떻게 예측할지를 생각할 때 가장 많이 쓰인다.

원유 가격 등 주식 시세에 영향을 미치는 요인들을 독립변수라 한다.

회귀 이론을 기초로 독립변수가 종속변수에 미치는 영향을 파악해서 예측 모데릉ㄹ 도출해놓고 통계적 방법을 쓰는 것이 회귀분석

독립변수가 한 개인건 단순 회귀

독립변수가  두 개 이상인 건 다중 회귀

R엔느 없지만 머신러닝에는 다항 회귀가 있다.

독립변수 X가 하나일떄

예를 들면 기상청의 날씨 자료를 이용해서 아이스크림 판매량을 알 수 있는 것

 

W값 독립변수

 

이 그래프의 최고의 약점은 일차 방정식 최고 약점은

스피드가 1위치에 가면 1인데 제동거리는 -가 된다.

스피드가 1일때, 제공거리가 마이너스로 나오는 것이 최대 약점

그래서 2차함수로 하는 게 정확하다.

어떤 것에 적합하게 잘 돌아가냐에 따라 정확도의 차이가 확연하다.

 

당뇨 환자가 혈당이 어느 정도 수치가 되면 이사람은 ㅣ상태다 . 하는 걸 범주형으로 통계할 때 쓰는 방법

 

로지스틱 회귀 분석은 LM이 아니라 GLM() 함수를 쓴다.

분류 모델은 GLM 보다 PREDICT 모델을 많이 쓴다.

 

R이 정확도가 떨어진다고 생각 들때 더 공부해야할 항목
99.9999로 나오면 훈련세트에만 적합한 거지 사실 테스트에선 쓸 ㅅ ㅜ 없음.

훈련 세트에 너무 과다하게 학습 못하도록 훼방 놓는것

기울기를 작게 만들기 위해서, 라쏘 회귀를 많이 쓰이는 것.

회귀 모델을 쓸땐 리치 혹은 라쏘 회귀를 많이 쓴다. 

 

시각화 하는데는 R이 제일 편하고

프레딕션할 땐 다중회구ㅣ를 쓸지 단순으로 쓸지 본인 프젝에 맞게 쓴다.

오늘 얘기한 CSV데이터들이 있는 거라면 판다스를 배워서 (스크립트 랭귀지라서 금방 알수 있음) 배워서 넘파일에 ㅁ분석할 수 있다.