본문 바로가기
빅데이터분석

[파이썬] 파이썬 입문 데이터분석 프로젝트 만들기 - (5) 데이터 불러오기, 데이터타입

by 모닥불🔥 2024. 4. 28.

 

SQL 부트캠프 강의 정리하기 전에 정리하던 파이썬 분석 프로젝트 강의! 전처리 단계로 넘어왔다.


🔥 강의 목차

오리엔테이션
파이썬 기초 문법
데이터 전처리
데이터 시각화
마케팅 데이터 분석 및 지표 정의하기

🔥파이썬 전처리: pd.read_csv()

데이터를 전처리 하려면 먼저 판다스에서 csv 라이브러리를 불러올 수 있어야 한다.

import pandas as pd
df = pd.read_csv('path/file.csv')

 

일단 import pandas as pd로 판다스 라이브러리를 불러오고,

pd.read_csv()로 원하는 csv 파일을 불러온다.

csv 파일은 따옴표 '' 안에 넣어서, 주소, 파일명, 확장자까지 같이 불러오면 된다.

그런 다음에 이 데이터를 df에 저장한다. (df = 부분)

 

type(df)

 

이렇게 저장된 df는 데이터프레임 형태이다.

즉, type(df)를 입력하면, pandas.core.frame.DataFrame 이라고 나온다.

 

데이터를 파악하기 위해 기본적인 행, 열, 값, 인덱스 등을 확인할 수 있다.

 

참고로, 구글 드라이브에 있는 데이터를 활용한다면 pandas를 삽입하기 전에 먼저 거쳐야 할 단계가 있다.

아래 링크를 그대로 복사하여 실행하거나, 구글코랩 창 좌측에 있는 폴더모양 > 3번째에 있는 구글 드라이브 모양 > Google Drive에 연결 버튼을 눌러서 드라이브를 연결해야 저장된 csv 파일을 불러올 수 있다.

from google.colab import drive
drive.mount('/content/drive')

 

🔥파이썬 전처리: 데이터 파악하기

1. 데이터의 행, 열 개수를 알아보는 방법

df.shape

 

위 코드를 입력하면 아래와 같이 출력된다.

여기에서는 iris(수선화)에 대한 데이터를 가지고 왔는데 150개의 행, 6개의 열로 이루어져 있다.

 

2. 데이터에 어떤 컬럼(열)이 있는지 알아보는 방법

df.column

 

위 코드를 입력하면 해당 데이터가 가지고 있는 컬럼의 이름을 출력한다.

 

이 데이터는 ID부터 Species까지 총 6개의 열이 있음을 확인할 수 있다.

 

3. 데이터를 배열로 변환하는 방법

df.values

 

위 코드를 입력하면 아래와 같이, [ ] 대괄호 안에 데이터가 따로 따로 들어가게 되는데, 대괄호 하나에 들어가는 데이터가 하나의 행을 의미한다. 즉.. 아래 코드는 150개의 대괄호로 이루어져 있다.

아래 원본 테이블과 비교하면 더욱 이해하기 쉽다. 1행만 보면... 첫번째 데이터 / 5.1 / 3.5 / 1.4 / 0.2 / setosa 종

 

4. 인덱스를 반환하는 방법

df.index

 

위 코드를 입력하면 아래와 같은 결과가 나온다.

index 범위는 0에서부터 시작하여, 총 150개의 index가 있으며, index는 1씩 늘어난다.

즉, 0번부터 149번까지 총 150개의 index가 있다는 의미이다. 150번 index까지 151개가 있다고 헷갈리지 않도록 주의!

 

여러 csv 파일을 드라이브 등에 저장해 두고 불러오고, 살펴보는 연습을 하면 좋을 것 같다.

 

 

* 본 게시글은 '메타코드'의 동의를 받아 작성된 글로, 강의 내용에 대한 모든 저작권은 Ringo 선생님에게 있습니다. 개인용도의 학습 외에 무단사용은 엄격히 금지됩니다. 위반 시 법적 조취가 취해질 수 있습니다.