본문 바로가기
카테고리 없음

[1장] Python에서 엑셀 데이터 읽어오기 pandas openpyxl 라이브러리 비교

by hera1 2024. 1. 21.

안녕하세요 오늘은 python 관련 첫 포스팅입니다. 이번에는 python에서 엑셀 데이터를 읽어 가져오는 방법에 대해서 소개하려고 합니다. 다양한 라이브러리를 통해 엑셀 데이터를 손쉽게 읽을 수 있습니다. 이번 포스팅에서는 엑셀 파일을 읽는 두 가지 주요 라이브러리인 pandasopenpyxl을 사용하는 방법에 대해 자세히 알아보겠습니다.

pandas 라이브러리를 활용한 엑셀 데이터 읽기

pandas 라이브러리

pandas 라이브러리란?

pandas는 데이터 분석 및 조작을 위한 강력한 라이브러리로, 엑셀과 같은 표 형태의 데이터를 쉽게 다룰 수 있습니다.

pandas 설치 방법

다음과 같이 터미널에서 간편하게 명령어 입력으로 라이브버리 설치가 가능합니다.

pip install pandas

pandas 사용 예시 코드

import pandas as pd

# 엑셀 파일 경로
excel_file = '파일경로.xlsx'

# 엑셀 파일 읽기
df = pd.read_excel(excel_file)

# 데이터프레임 출력
print(df)

위 코드에서 pd.read_excel() 함수를 사용하여 엑셀 파일을 읽어들입니다. 반환된 값은 pandas의 데이터프레임(DataFrame) 객체로, 표 형태의 데이터를 다루기 용이하게 만들어줍니다.

openpyxl 라이브러리를 활용한 엑셀 데이터 읽기

openpyxl 라이브러리

openpyxl 라이브러리란?

openpyxl은 엑셀 파일을 다루기 위한 라이브러리로, 엑셀의 다양한 기능을 파이썬 코드에서 사용할 수 있도록 해줍니다.

openpyxl 설치

마찬가지로 터미널에서 명령어 입력으로 openpyxl 라이브러리 설치가 가능합니다.

pip install openpyxl

openpyxl 사용한 예시 코드

from openpyxl import load_workbook

# 엑셀 파일 경로
excel_file = '파일경로.xlsx'

# 엑셀 파일 열기
workbook = load_workbook(excel_file)

# 원하는 시트 선택
sheet = workbook['Sheet1']

# 모든 데이터 출력
for row in sheet.iter_rows(min_row=1, values_only=True):
    print(row)

load_workbook() 함수를 사용하여 엑셀 파일을 엽니다. 그 후 iter_rows() 함수를 통해 시트의 모든 행을 반복하며 데이터를 읽어옵니다.

두 라이브러리의 장단점 비교

pandas

  • 장점: 데이터프레임을 통한 다양한 데이터 조작 기능, 데이터 필터링 및 변환 용이합니다.
  • 단점: 대용량 데이터에 대한 처리 속도가 상대적으로 느릴 수 있습니다.

openpyxl

  • 장점: 엑셀 파일 자체의 다양한 속성에 직접 접근 가능, 작은 크기의 데이터에 대해 빠른 처리 가능합니다.
  • 단점: 데이터를 조작하려면 직접 셀에 접근해야 하므로 복잡할 수 있습니다.

오늘은 Python에서 엑셀 데이터를 읽는 방법으로 pandasopenpyxl을 사용하는 두 가지 주요 방법을 살펴보았습니다. 각 라이브러리는 특징과 용도에 따라 선택할 수 있으며, 엑셀 데이터를 다룰 때 효율적으로 활용할 수 있습니다. 여러분들도 상황에 맞는 도구들을 활용하면 데이터 처리 및 분석을 보다 편리하게 수행할 수 있기를 바라며 오늘 포스팅을 마치겠습니다. 다른 글도 궁금하시다면 여기도 방문해주세요. 긴 글 읽어주셔서 감사합니다.