분류 전체보기 73

[STAT 101] T - Test

T-test 두 그룹의 평균을 비교할 때 - student's T-test           ㄴ 두 개 이상은 ANOVA test를 활용 – Analysis of Variance test            ㄴ 평균의 차이 유무를 보는 것                     ㄴ 평균의 차이가 높을수록 유의미한 통계분석을 할 수 있을 테니            ㄴ 모집단의 표준편차를 알고 있을 때는 Z-test를 활용함                     ㄴ 허나 모집단의 분포를 제대로 아는 것은 거의 불가능에 가까움                     ㄴ T-test를 통해 모집단의 표준편차를 표본표준편차로 수정해 확인하는 것                     ㄴ 허나 n > 30일때는 중심극한이론에 따..

Statistics 2024.07.04

[STAT 101] 가설과 가설 검정

Hypothesis H0 Null Hypothesisㄴ statement that there are no relationship between the measured phenomenon (the dependent variables) and the independent variables (variables that the experimenter controls or changes).  To see that the variables are related, null hypothesis should be rejected H0는 내가 원하는 결과의 반대라고 보면 됨10대가 수학을 더 잘하는가?           ㄴ H0 = 나이와 수학은 상관관계가 없다.           ㄴ H1 = 나이와 수학은 상관관계가 있..

Statistics 2024.07.04

[Python Libraries] pandas, numpy, matploilib, seaborn, scikit-learn, statsmodels, scipy, tensorflow, pytorch

pandas Libraryimport pandas as pddf = pd.read_excel(file_address)print(df) numpyimport numpy as nparr = np.array([1, 2, 3, 4, 5])print(arr.mean()) matploilibimport matplotlib.pyplot as pltplt.plot([1, 2, 3, 4], [1, 4, 9, 16])plt.xlabel('X-axis')plt.ylabel('Y-axis')plt.show() seabornimport seaborn as snsimport pandas as pddata_sample = pd.DataFrame({'x':[1, 2, 3, 4], 'y':[1, 4, 9, 16]})sns.barplo..

Python 2024.07.04

[Python 101] 여러 확장자로 Data Frame 저장하기

Data Frame (dictionary) 를 여러 확장자로 저장하기 Pandas 및 Json으로 파일 저장하기import pandas as pddf = pd.DataFrame(data)excel_file_path = '/content/sample_data/data.csv'#csv로 저장하기df.to_csv(excel_file_path, index = False)#excel로 저장하기df.to_excel(excel_file_path, index = False)#json으로 저장하기import jsonjson_file_path = '/content/sample_data/data.json'# json 파일을 쓰기모드로 열어서 data를 거기에 덮어씌우게 됩니다.with open(json_file_path, ..

Python 2024.07.04

[STAT 101] 정규화 (Normalization)와 표준화 (Standardization)

정규화 (Normalization) 한 데이터의 항목들의 범위의 차이를 왜곡하지 않고 공통 척도로 변경하는 작업.보통 항목 간 Range의 차이가 심할 경우 정규화를 시켜준다. Min-Max Scaling Min-Max Scaling은 모든 항목들이 [0,1] 사이에 위치하도록 가공해준다.위의 방법으로 정규화를 시켜줄 수 있으며, scikit-learn의 Normalizer로도 구현 가능하다.  표준화 (Standardization) or Z-Score Normalization 표준화는 모든 항목들이 다음과 같은 표중 정규분포의 속성을 가지게 만들어주며,많은 머신러닝 알고리즘에서 표준화를 기본적으로 요구한다.  평균은 0이되고 표준편차는 1이 되고, 이 때, Z-score는 다음과 같이구할 수 있다.이렇..

Statistics 2024.07.04

[Python 101] 변수들과 데이터 관련 함수

전역변수와 지역변수 전역변수 : Global  Variables지역변수 : Local Variables# 전역변수 예시global_var = 10def global_example(): print("전역변수 접근:", global_var)global_example() # 출력: 전역변수 접근: 10# 지역변수 예시def local_example(): local_var = 20 print("지역변수 접근:", local_var)local_example() # 출력: 지역변수 접근: 20# 함수 내에서 전역변수를 수정하는 예시def modify_global(): global global_var global_var = 30 print("함수 내에서 수정된 전역변수:", glo..

Python 2024.07.04

[Data Literacy_05] 결론 도출

결과와 결론 결과: 계산과 분석을 통해 나온 결과물결론: 결과가 목적에 대해 어떤 의미가 있는지 설명하는 것 결론이 주관적 견해가 최대한 배제된,주어진 데이터의 범주에서 설명 가능한 내용들로 이루어진일종의 "스토리 텔링"이다.  결론 잘 정리하기 0. "문제 정의"와 "지표 설정"위 단계에서 세운 목표를 상기하며 결론 작성 1. 단순하고 쉽게 전달하기핵심 지표 위주로 보고지표 해석 방법도 설명해당 지표를 활용할만한 포인트를 제안하고액션 아이템을 제안한다 2. 흥미유발모든 내용을 담지 말고, 상대가 궁금할 만한 데이터만 제공 3. 대상 관점에서의 접근공유 받는 사람의 시점에서 이해하기 쉽도록 정리"지식의 저주"에 빠지지 말고, 첨부 자료와 시각화를 잘 활용 4. 시각화 팁대상이 직관적으로 이해할 수 있는 ..

Datalogy 2024.07.04

[Data Literacy_04] 지표 설정과 북극성 지표

지표란? 특정 목표나 성과를 측정하기 위한 구체적인 측정 가능한 기준목표 달성도를 평가하고, 전략적 결정에 필요한 핵심 정보를 제공정의한 문제를 정확하게 파악하는데 필요한 요소 예시목표: 날씬해지기핵심지표: 체지방률, BMI 수단 1: 주 5회 이상 운동지표 1: 운동 이행률 (n일/5일) 수단 2: 매일 7시 이후 금식지표 2: 식단달성률 (n일/30일) 위와 같이 널리 사용되는 주요 지표와 이 프로젝트 안에서의 개별 지표를 활용할 수 있음  주요 지표 예시 1. Active User (활성 유저) 서비스에 들어오는 모든 유저가 액티브 유저는 아님정의를 어떻게 하느냐에 따라 전략과 방향이 달라지고, "이탈 유저"가 정의 1. 사이트에만 들어온 유저 (허들은 가장 낮지만, 효율과 이익이 가장 낮음)2. ..

Datalogy 2024.07.04

[Data Literacy_03] 데이터의 유형

정석적 데이터 (Qualitative Data)비수치적 데이터로 텍스트, 비디오, 오디오의 형태를 가지는 주관적 요소를 포함. 정형화, 구조화 되기 어렵고 새로운 현상이나 개념에 대한 이해를 심화하는데 사용함. 정량적 데이터 (Quantitative Data)양적인 측정을 통해 얻을 수 있는 수치적으로 표현되는 정보를 포함.숫자로 존제하는 데이터기 때문에 통계 분석과 지표 만들기에 용이하고 객관성을 가짐. 정성적 데이터를 정량화 해서 사용하기도 한다.예시) 매우만족 - 5점, 만족-4점, 불만-1점 등등예시) 인구 통계 데이터, 수치형 설문조사 데이터, 비즈니스 데이터, 행동 로그 데이터 (웹페이지 등등), 마케팅 데이터 정량적 데이터의 활용1. DAU (Daily Active User)나 Retenti..

Datalogy 2024.07.04