일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- RProgramming
- Eclipse
- Rstudio
- R프로그래밍
- programmers
- cor()
- core.autocrlf
- queryDSL
- Spring
- str()
- DTO사용이유
- Q타입클래스
- 머신러닝프로세스
- r
- 이클립스
- 프로그래머스
- stepfilter
- JPA
- git오류
- 이중배열
- querydsl적용하기
- 머신러닝
- R명령어
- 알고리즘
- 자바
- git
- LIKE검색
- summary()
- 한글깨지는문제
- java
- Today
- Total
목록R (25)
놀고 싶어요

함수 이름을 아는 경우 help("sum") # help(sum) 도 가능 함수 이름을 모르는 경우 help.search("sum") 여기서는 큰따옴표를 무조건 써줘야 된다. 그렇지 않는 경우 오류가 발생한다. Error in help.search(sum) : argument ‘pattern’ must be a single character string R studio에서 help 탭을 사용하여 검색해도 괜찮다. history() 그 외 history() 명령어를 이용하면 본인이 최근에 사용한 명령어 25개를 조회할 수 있다. History 탭에 조회되는데 해당 명령어 클릭시 Console 창에 반영이 되며 enter를 누르면 해당 명령어가 재실행된다. 아래는 help.search("sum") 결과 화면..

머신러닝: 군집분석 비지도 학습 (Unsupervised learning) 답이 데이터 안에 있는 경우를 지도학습(supervised learning)이라고 한다. 비지도학습(unsupervised learning)은 답이 존재하지 않는 데이터를 우리의 비즈니스 목적에 맞게 활용할 수 있는 방법이다. 우리는 그 중 K-Means 클러스터링에 대해 알아보도록 하겠다. Ex) 고객 세분화, 상권 세분화 등처럼 답이 정해진 과거 데이터가 있는 것이 아니라서 종속변수가 정해질 수 없는 경우, 유사한 것 끼리 그룹을 짓는 기법이다. 그러기 위해서는 ‘유사하다’를 정의할 방법이 있어야 하고 어떤 값을 기준으로 비슷한지 Feature 값을 정하는 것이 중요하다. 그리고 마지막으로 몇 개의 그룹으로 나뉘어야 하는지 값..

머신러닝: 의사결정나무 입력데이터에 대해 까다로운 점이 없어 널리 사용되고 있다. 다만, 과적합이 발생하기 쉬워서 보완이 필요할 수도 있는 방법이다. (과적합: 학습정확도는 높은 반면에 예측정확도가 낮아지는 상황을 말한다.) Tree 그리기 예제) 대여 건수가 500건이 넘는지 안넘는지? install.packages("tree") library(tree) set.seed(1234) 데이터를 나누기 전, set.seed()라는 함수를 사용하여 결과가 항상 동일할 수 있도록 출발점을 고정 set.seed()함수는 난수를 사용해서 랜덤하게 만드는 기능을 활용하는 모든 경우에 출발점을 고정함으로써 항상 동일한 결과가 나오도록 하는 기능이다. 1234로 값을 고정한 경우, 1234가 아닌 다른 숫자를 사용한 경..

머신러닝 로지스틱 회귀분석 종속변수가 범주형인 경우 어떻게 머신러닝을 활용할 수 있을까? 머신러닝 프로세스는 회귀분석에서 설명한 내용과 동일하게 적용이 되지만 다만 다른 함수를 사용한다. 로지스틱 회귀분석 종속변수가 범주형 데이터이다. 출발점에는 회귀분석에 있어서 선형관계를 설명하는 것과 동일한 모양을 갖춘다. ‘특정 대여소의 일평균/시간당 평균 대여건수가 너무 낮다면 대여소 위치를 바꿔야 하지 않을까?’ 대여건수의 평균이 최소 기준을 넘나 넘지않나 예측이 필요하다. 로지스틱스 회귀분석에서는 사용자가 임계값을 입력하는 것을 기본으로 모델의 설명력을 판단한다. 로지스틱 회귀분석의 머신러닝 프로세스에서는 Accuracy, Precision, Recall, F1-score 등의 확률을 기반으로 평가한다. Tr..

회귀분석 Regression analysis 세상의 많은 일들이 회귀분석으로 설명될 수 있다. 그러나 대개는 설명력이 부족하고 예측력이 낮아 하나의 독립변수로는 설명할 수 없다. 또한 수치형 데이터가 아닌데 회귀관계가 존재하는 경우가 있다. Yes or no로 대답할 수 있는게(범주형 데이터) 종속변수에는 영향이 지대한 경우가 있을 수 있다. 머신러닝 Machine learning : 기계가 많은 데이터를 사용해서 결과를 설명할 수 있는 특징, 패턴, 수식 등을 찾아내도록 하는 것 다양한 기법이 존재하고 기법마다 다른 접근법을 사용하지만 대개의 경우 그 하부에는 통계적 기법이나 통계적 아이디어가 있고 그것을 구현하는 관점에서 알고리즘, 컴퓨터 수학 그리고 수학이 어우러져 있다. 통계 관점에서 다루던 회귀..

상관분석을하고 의미있는 관계를 찾았다고 해도 해당 관계는 인과관계가 의미하진 않는다. 회귀분석은 인과관계를 설명하는 방법 중 하나이다. 회귀분석의 목적 1. 데이터의 관계에 대해서 설명 - 통계적 관점 2. 예측에 활용 - 머신러닝 관점 회귀분석 독립변수 x와 종속변수 y의 관계를 설명하는 선형식을 찾는 것 ex) y= ax+b 같은 식 x와 y는 수치형 데이터 (독립변수는 하나 이상의 값이 될 수 있다.) 예제) 자전거 대여 건수(Count)는 기온(Temp)와 상관이 있는지 확인 1. 키 결합하기 전에 두 데이터 시간 간격이 동일한지 확인해 본다. weather dataframe 데이터를 시간 단위로 대여건수 평균값을 요약한다. weather2
unique(dataframe변수): 수치형 데이터가 아닌 컬럼의 값을 확인한다. unique(dataframe변수$컬럼): 유니크한 값들을 추려서 보여줌 na.rm R은 결측값이 있는 경우 계산을 수행하지 못한다. -> NA를 반환한다. -> NA를 제외하고 계산을 수행해야 한다. na.rm NA remove Ex) sum(dataframe변수$Carbon_amount, na.rm = TRUE) table 전체 데이터에서 타입별 수를 확인한다. head(dataframe변수): 최초 여섯 줄을 읽어옴 tail(dataframe변수): 마지막 줄부터 6개의 행 데이터를 가져온다. dim(dataframe변수): dim은 dimension을 의미. 행과 열의 크기를 가져온다. 행 열 순서로 나타난다. st..

데이터 분석 초입 단계에서 어떤 변수가 중요한지, 각 변수끼리 무슨 관계가 있는지 모르므로 제일 먼저 변수 간의 관계를 파악하려는 시도를 다양하게 한다. 1.시각화(visualization) 2.탐색적 데이터 분석(EDA) 이러한 초기의 과정들이 결국 상관분석의 한 부분이 된다. 깊이 있는 분석이 어떤 분석을 중심으로 진행되어야 하는가를 다양한 가능성으로부터 점점 좁혀가는 과정, 방법에 상관분석이 종종 사용된다. 상관분석 (Correlation analysis) 두 수치형 데이터간의 관계 데이터 간에 관계가 있는가 하는 상관분석을 가장 쉽게 하는 방법은 산점도(scatter plot)을 그리는 방법이다. 시각화(visualization): 빠르고 간략하게 상관성 여부를 파악할 수 있지만 계량적으로 얼마나..

수치형 데이터가 아닌 경우 데이터 비교할 때 '좋아한다', '좋아하지 않는다.' 같은 식으로 몇 명이 좋아하는 지 세어서 좋아하는 비율을 비교한다. (여기서의 비율은 평균값과 같은 의미를 갖는다.) 항상 같은 비율의 차이가 나오지 않고, 어떤 비율이 정답인지 정해져있지도 않고, 조금 다른 것을 아예 다르다고 할 수 없고.. -> 이런 문제를 풀때 카이제곱분포를 사용한다. Ex) 1. A를 먹으면 B 질병의 발생 확률이 낮아진다. 2. 흡연이 폐암에 미치는 영향 3. 해당 마케팅이 우리 상품 광고에 효과적인지 아닌지 카이제곱분포(Chi-square Distribution) : 정규분포의 분산에 대한 확률분포. (평균으로 부터 얼마나 떨어져 있는가에 대해 확률적으로 알려주는 분포) 데이터가 평균으로부터 얼마..

이표본 t-검정과 분산분석(ANOVA)의 유사성과 차이점 분산분석 단계인 등분산 분석, 분산분석, 사후분석 분산분석을 위해 Bartlett’s Test, One-way ANOVA, Tukey’s Range Test 함수 활용 5개 구의 데이터 비교시 two sample t-test 사용불가 (2개 넘게 비교하므로) t-test는 2개의 그룹만 상호 비교한다. 2개 이상 데이터 그룹 비교하기 위해서는 분산분석(ANOVA: analysis of variance)를 사용한다. (ANOVA를 2개 그룹 비교시 사용해도 상관없다.) 평균을 비교하는데 왜 갑자기 분산분석을 사용하지? 분산은 평균을 찾은 후에 데이터들이 평균으로부터 평균적으로 얼마나 떨어져 있는지 나타낸다. 다시 말하면 평균이 없으면 분산도 없으며,..