실전 데이터 분석하기

3주차 강의 : Pandas와 Matplotlib로 분석하기

shl4917 2023. 5. 4. 22:35

어김없이 돌아온 3주차 강의 아카이빙 자료입니다!
3주차 강의는 < Pandas & Matplotlib > 사용하여 분석 해보는 시간을 가졌다.
 

데이터 전처리 > 분석하기 (pandas) > 시각화하기 (Matplotlib)

위 프로세스에 익숙해지면 파이썬 분석 어렵지 않아요~! : )) 
하.지.만 파이썬에 익숙치 않은 사람이라면 어렵게 다가올지도..? (그것은 바로 나) 

 

해당 강의에서는 파이썬에 대한 용어를 외우는 것을 강조하지 않는다.

파이썬 분석에서 해당 용어들을 어떻게 활용하는냐를 보여주는 것에 초점을 맞춘 느낌..? 

파이썬을 깊게 공부하고 싶다면 분명 아쉬운 점이 느껴지는 강의 커리큘럼이지 않을까 싶다..! 

주어진 데이터에서 분석할 내용은 아래와 같다. 
목표: 수강생들이 가장 많이 혹은 적게 듣는 시간과 요일을 데이터 분석으로 찾기

[ 기본 세팅 순서 ]
1. Pandas 사용 선언하기
: import pandas as pd
2. 수강 데이터 다운 받기 및 가져오기
: 구글 colab 에서 다운로드한 파일 불러오기
3. 분석할 데이터 불러오기
: sparta_data = pd.read_table('access_detail.csv',sep=','
4. 데이터 살펴보기
:sparta_data.head()

모든 데이터 로드할 필요 없이 head() 통해 상위 5개 데이터 확인 가능하다.

[ 분석 준비하기 ]
1. 필요한 데이터 확인하기

- user_id (유저 id) & access_date (접속 시작 날짜 및 시간)
2.시간 데이터 전처리 해주기

[ 분석 및 시각화 ]
1) matplotlib, numpy 사용 선언하기
: import matplotlib.pyplot as plt import numpy as np
2) 요일별 수강생 수 바 그래프 그리기

그래프 그리기 위한 python

3) 시간 별 접속 하는 수강생 수의 라인 그래프 그리기

시간별 접속하는 수강생 수의 라인 그래프 그리는 python

4) 요일 별 접속 시간 살펴보기 그리고 히트맵으로 나타내기

요일 별 접속 시간을 히트맵으로 나타낸 화면

우리에게 주어진 데이터를 '어떻게' 가공할 것 인가? 
그리고 원하는 결과를 도출하기 위한 '가설'의 중요성도 다시 한번 알게 된 주차였다.

 

해당 강의는 데이터 파일로 원하는 결과를 얻기 위한 분석이 주요 내용이였다.

아카이빙 할 만한 내용을 좀 더 세부적으로 작성하며 다듬고 싶지만....! 

일단 파이썬 내용이 너무 많다보니..습득한 내용을 정리하면서 쓰기란 쉽지 않다. 

 

무엇보다 해당 강의로 멘토님이 강조하신 내용이 따로 있다.

언급된 파이썬 언어들을 외우지 말고, 어떤 상황에서 어떻게 사용하는지만 알면 된다는 말!
하지만 역시 파이썬에 대한 개념이 잡힌 상태에서 듣는 것이 습득이 더 잘 되지 않을까 싶다.

 

별도로 파이썬에 대한 기본적인 지식을 쌓으면서, 

해당 강의를 듣는다면 너무나 좋을 것 같단 생각이 강하게 든다!