안녕하세요 오늘은 python 관련 첫 포스팅입니다. 이번에는 python에서 엑셀 데이터를 읽어 가져오는 방법에 대해서 소개하려고 합니다. 다양한 라이브러리를 통해 엑셀 데이터를 손쉽게 읽을 수 있습니다. 이번 포스팅에서는 엑셀 파일을 읽는 두 가지 주요 라이브러리인 pandas
와 openpyxl
을 사용하는 방법에 대해 자세히 알아보겠습니다.
pandas 라이브러리를 활용한 엑셀 데이터 읽기
pandas 라이브러리란?
pandas
는 데이터 분석 및 조작을 위한 강력한 라이브러리로, 엑셀과 같은 표 형태의 데이터를 쉽게 다룰 수 있습니다.
pandas 설치 방법
다음과 같이 터미널에서 간편하게 명령어 입력으로 라이브버리 설치가 가능합니다.
pip install pandas
pandas 사용 예시 코드
import pandas as pd
# 엑셀 파일 경로
excel_file = '파일경로.xlsx'
# 엑셀 파일 읽기
df = pd.read_excel(excel_file)
# 데이터프레임 출력
print(df)
위 코드에서 pd.read_excel()
함수를 사용하여 엑셀 파일을 읽어들입니다. 반환된 값은 pandas
의 데이터프레임(DataFrame
) 객체로, 표 형태의 데이터를 다루기 용이하게 만들어줍니다.
openpyxl 라이브러리를 활용한 엑셀 데이터 읽기
openpyxl 라이브러리란?
openpyxl
은 엑셀 파일을 다루기 위한 라이브러리로, 엑셀의 다양한 기능을 파이썬 코드에서 사용할 수 있도록 해줍니다.
openpyxl 설치
마찬가지로 터미널에서 명령어 입력으로 openpyxl 라이브러리 설치가 가능합니다.
pip install openpyxl
openpyxl 사용한 예시 코드
from openpyxl import load_workbook
# 엑셀 파일 경로
excel_file = '파일경로.xlsx'
# 엑셀 파일 열기
workbook = load_workbook(excel_file)
# 원하는 시트 선택
sheet = workbook['Sheet1']
# 모든 데이터 출력
for row in sheet.iter_rows(min_row=1, values_only=True):
print(row)
load_workbook()
함수를 사용하여 엑셀 파일을 엽니다. 그 후 iter_rows()
함수를 통해 시트의 모든 행을 반복하며 데이터를 읽어옵니다.
두 라이브러리의 장단점 비교
pandas
- 장점: 데이터프레임을 통한 다양한 데이터 조작 기능, 데이터 필터링 및 변환 용이합니다.
- 단점: 대용량 데이터에 대한 처리 속도가 상대적으로 느릴 수 있습니다.
openpyxl
- 장점: 엑셀 파일 자체의 다양한 속성에 직접 접근 가능, 작은 크기의 데이터에 대해 빠른 처리 가능합니다.
- 단점: 데이터를 조작하려면 직접 셀에 접근해야 하므로 복잡할 수 있습니다.
오늘은 Python에서 엑셀 데이터를 읽는 방법으로 pandas
와 openpyxl
을 사용하는 두 가지 주요 방법을 살펴보았습니다. 각 라이브러리는 특징과 용도에 따라 선택할 수 있으며, 엑셀 데이터를 다룰 때 효율적으로 활용할 수 있습니다. 여러분들도 상황에 맞는 도구들을 활용하면 데이터 처리 및 분석을 보다 편리하게 수행할 수 있기를 바라며 오늘 포스팅을 마치겠습니다. 다른 글도 궁금하시다면 여기도 방문해주세요. 긴 글 읽어주셔서 감사합니다.