1. 학습 목표: 수작업 1시간 업무를 5분 만에 끝내는 데이터 자동화
매달 혹은 매주 쏟아지는 수십 개의 엑셀 파일을 하나하나 열어 복사하고 붙여넣는 작업은 단순 반복 업무의 전형이자 실수의 원인이 됩니다. 본 강의의 목표는 파이썬(Python)과 판다스(Pandas) 라이브러리를 활용하여 흩어져 있는 여러 개의 엑셀 데이터를 단 몇 줄의 코드로 통합하고, 즉시 보고용 파일로 내보내는 자동화 프로세스를 구축하는 것입니다. 이 과정을 마스터하면 2026년 현재의 스마트 워크 환경에서 가장 핵심적인 데이터 처리 역량을 갖추게 됩니다.
단순히 합치는 것에 그치지 않고, 각 데이터가 어느 파일에서 왔는지 출처를 표시하고 결측치를 처리하는 실무적인 기법까지 다룹니다. 프로그래밍 경험이 적은 초보자도 바로 현업에 적용할 수 있도록 구성되었습니다.
2. [사전 준비 사항]
실습을 시작하기 전에 아래의 환경을 갖추어 주세요. 2026년 기준 최신 안정화 버전을 권장합니다.
- 운영체제(OS): Windows 11, macOS Sequoia, 또는 최신 리눅스 배포판
- 파이썬 버전: Python 3.12.x 이상
- 코드 에디터: Visual Studio Code (VS Code) 최신 버전 추천
- 필수 설치 라이브러리: 터미널(Terminal) 또는 명령 프롬프트(CMD)에서 아래 명령어를 입력하여 설치합니다.
pip install pandas openpyxl※ pandas는 데이터 분석의 핵심 도구이며, openpyxl은 파이썬이 엑셀 파일(.xlsx)을 읽고 쓸 수 있게 도와주는 엔진 역할을 합니다.
3. 단계별 실습 과정
단계 1: 작업 디렉토리 설정 및 샘플 파일 준비
먼저 통합할 엑셀 파일들을 하나의 폴더에 모아둡니다. 예를 들어 data_folder라는 폴더 안에 sales_jan.xlsx, sales_feb.xlsx, sales_mar.xlsx 등의 파일이 있다고 가정합니다. 모든 파일은 동일한 컬럼 구조(예: 날짜, 제품명, 판매량, 금액)를 가지고 있어야 가장 깔끔하게 합쳐집니다.
단계 2: 라이브러리 임포트 및 파일 목록 불러오기
파이썬의 os 모듈과 pandas를 불러와 폴더 내의 파일 목록을 자동으로 스캔합니다.
import pandas as pd
import os
# 파일이 들어있는 폴더 경로 설정
folder_path = './data_folder/'
# 폴더 내의 모든 파일 리스트 가져오기 (엑셀 파일만 필터링)
file_list = [f for f in os.listdir(folder_path) if f.endswith('.xlsx')]
print(f'찾은 파일 개수: {len(file_list)}개')
print(file_list)단계 3: 반복문을 이용한 데이터 읽기 및 리스트 저장
이제 빈 리스트를 만들고, for 반복문을 통해 각 엑셀 파일을 읽어와 데이터프레임(DataFrame) 형태로 저장합니다. 이때 ‘파일명’ 컬럼을 새로 만들어 데이터의 출처를 명시하는 것이 실무에서 매우 중요합니다.
all_data = []
for file in file_list:
file_full_path = os.path.join(folder_path, file)
# 엑셀 파일 읽기
df = pd.read_excel(file_full_path)
# 데이터 출처 기록 (파일명에서 확장자 제외)
df['출처파일'] = file.replace('.xlsx', '')
# 리스트에 추가
all_data.append(df)
print("모든 파일을 메모리에 로드했습니다.")단계 4: Pandas concat 함수로 데이터 수직 통합
리스트에 담긴 여러 개의 데이터프레임을 pd.concat() 함수를 사용하여 하나로 합칩니다. ignore_index=True 옵션을 주어 인덱스 번호가 0부터 새롭게 매겨지도록 설정합니다.
# 데이터 통합
combined_df = pd.concat(all_data, ignore_index=True)
# 통합된 데이터의 상위 5행 확인
print(combined_df.head())단계 5: 데이터 정제 및 보고서 파일 저장
통합된 데이터에서 결측치(NaN)가 있다면 제거하거나 0으로 채우고, 최종 결과를 엑셀 파일로 저장합니다. 2026년 실무에서는 데이터의 무결성이 무엇보다 중요하므로 간단한 정제 과정을 거칩니다.
# 결측치가 있는 행 제거 (필요 시)
combined_df = combined_df.dropna(subset=['제품명'])
# 최종 결과 저장
output_filename = '2026_통합_업무보고서.xlsx'
combined_df.to_excel(output_filename, index=False)
print(f'성공! {output_filename} 파일이 생성되었습니다.')4. 결과 확인 및 응용 팁
생성된 2026_통합_업무보고서.xlsx 파일을 열어보면, 여러 파일에 흩어져 있던 데이터가 순서대로 합쳐져 있고 우측 끝에 ‘출처파일’ 컬럼이 생성된 것을 확인할 수 있습니다.
추가 응용 팁
- 특정 열만 선택하기:
pd.read_excel(path, usecols=['날짜', '금액'])처럼 필요한 열만 골라 읽어오면 메모리를 절약할 수 있습니다. - 날짜 형식 통일:
pd.to_datetime()함수를 사용해 날짜 컬럼의 형식을 일괄적으로 변경하면 보고서 작성 시 피벗 테이블 생성이 훨씬 쉬워집니다. - 자동화 스케줄링: 이 파이썬 스크립트를 윈도우 작업 스케줄러나 맥의 캘린더 알람에 등록하면 매일 정해진 시간에 자동으로 보고서가 생성됩니다.
결론: 파이썬으로 업무의 질을 높이세요
오늘 배운 Pandas 기초 기술은 데이터 분석가뿐만 아니라 일반 사무직 직무에서도 필수적인 ‘생존 기술’입니다. 수백 개의 파일을 손으로 합치던 과거의 방식에서 벗어나, 단 5분 만에 정확한 데이터를 추출하고 통합하는 자동화 시스템을 구축해 보시기 바랍니다. 코드 몇 줄이 여러분의 퇴근 시간을 앞당겨 줄 것입니다. 이제 이 코드를 바탕으로 여러분만의 맞춤형 업무 자동화 도구를 확장해 보십시오.