[실무 강의] Python과 ChatGPT API로 웹페이지 정보 추출 및 AI 보고서 초안 자동 생성 완벽 마스터 튜토리얼

학습 목표: Python과 ChatGPT API로 웹 콘텐츠를 AI 보고서로 변환하기

본 강의는 2026년 현재, 급변하는 정보의 홍수 속에서 특정 웹페이지의 핵심 정보를 빠르게 추출하고, 이를 기반으로 인공지능이 작성한 보고서 초안을 자동으로 생성하는 실무 기술을 마스터하는 것을 목표로 합니다. 여러분은 이 강의를 통해 단순히 웹 스크래핑을 넘어, 대규모 언어 모델(LLM)인 ChatGPT API를 활용하여 비정형 데이터를 유의미한 정보로 가공하고, 보고서 작성 시간을 획기적으로 단축하는 방법을 배우게 될 것입니다. 실습 위주의 단계별 접근을 통해, 이론은 물론 실제 프로젝트에 바로 적용 가능한 역량을 길러드리겠습니다.

사전 준비 사항

본 실습을 원활하게 진행하기 위한 개발 환경 설정 및 필수 도구들을 안내합니다. 아래 사항들을 미리 준비해 주시면 강의 내용을 더욱 효과적으로 따라오실 수 있습니다.

권장 개발 환경

통합 개발 환경(IDE): Visual Studio Code (최신 버전 권장)
운영체제(OS): Windows 10/11, macOS (최신 버전), 또는 Ubuntu 22.04 이상
Python 버전: Python 3.9 이상 (2026년 기준 안정적인 최신 버전)

필수 라이브러리 설치

터미널 또는 명령 프롬프트를 열어 다음 명령어를 실행하여 필요한 라이브러리들을 설치합니다.

pip install requests beautifulsoup4 openai python-dotenv

requests: 웹 페이지의 HTML 콘텐츠를 가져오는 데 사용됩니다.
beautifulsoup4: 가져온 HTML 콘텐츠를 파싱하여 원하는 정보를 추출하는 데 사용됩니다.
openai: ChatGPT API와 연동하여 텍스트를 요약하고 보고서 초안을 생성하는 데 사용됩니다.
python-dotenv: API 키와 같은 민감한 정보를 환경 변수로 안전하게 관리하는 데 사용됩니다.

OpenAI API 키 준비

ChatGPT API를 사용하려면 OpenAI 플랫폼에서 API 키를 발급받아야 합니다. OpenAI 계정에 로그인한 후, API Keys 페이지에서 새로운 시크릿 키를 생성하여 준비해 주십시오. 발급받은 키는 외부에 노출되지 않도록 주의해야 합니다.

프로젝트 루트 디렉토리에 .env 파일을 생성하고, 발급받은 API 키를 다음 형식으로 저장합니다.

OPENAI_API_KEY="여러분의_API_키를_여기에_입력하세요"

단계별 실습 과정

이제 Python과 ChatGPT API를 활용하여 웹페이지 정보 추출 및 AI 보고서 초안을 자동 생성하는 구체적인 단계를 실습해 보겠습니다. 각 단계별로 코드를 작성하고 실행하면서 그 작동 원리를 이해하는 데 집중해 주세요.

1단계: 개발 환경 설정 및 필수 라이브러리 불러오기

먼저, 파이썬 스크립트 파일(예: report_generator.py)을 생성하고 필요한 라이브러리들을 임포트합니다. python-dotenv를 사용하여 .env 파일에 저장된 API 키를 불러올 준비를 합니다.

import requests
from bs4 import BeautifulSoup
import openai
import os
from dotenv import load_dotenv

# .env 파일에서 환경 변수 로드
load_dotenv()

# OpenAI API 키 설정
openai.api_key = os.getenv("OPENAI_API_KEY")

print("환경 설정 및 라이브러리 로드 완료.")

위 코드를 실행했을 때, 오류 없이 ‘환경 설정 및 라이브러리 로드 완료.’ 메시지가 출력되면 성공입니다. 이는 API 키가 정상적으로 로드되었음을 의미합니다.

2단계: requests와 BeautifulSoup4로 웹페이지 콘텐츠 추출

다음으로, 특정 웹페이지의 HTML 콘텐츠를 가져와서 필요한 텍스트 정보만을 추출하는 과정을 실습합니다. 우리는 requests 라이브러리로 웹페이지를 요청하고, BeautifulSoup4로 HTML을 파싱하여 본문 텍스트를 추출할 것입니다.

def extract_webpage_content(url):
    try:
        response = requests.get(url, timeout=10) # 10초 타임아웃 설정
        response.raise_for_status() # HTTP 오류 발생 시 예외 발생
        soup = BeautifulSoup(response.text, 'html.parser')

        # 웹페이지의 주요 텍스트 콘텐츠 추출 (예시: p, h1, h2, li 태그)
        paragraphs = soup.find_all(['p', 'h1', 'h2', 'h3', 'li'])
        content = "\n".join([para.get_text() for para in paragraphs if para.get_text().strip()])

        return content
    except requests.exceptions.RequestException as e:
        print(f"웹페이지 요청 중 오류 발생: {e}")
        return None
    except Exception as e:
        print(f"콘텐츠 추출 중 오류 발생: {e}")
        return None

# 테스트할 웹페이지 URL (예시: 실제 뉴스 기사나 블로그 포스트 URL로 변경 가능)
target_url = "https://www.example.com/news-article-2026"
# 주의: 실제 웹사이트를 크롤링할 때는 해당 사이트의 robots.txt를 확인하고, 과도한 요청을 삼가야 합니다.

web_content = extract_webpage_content(target_url)

if web_content:
    print(f"\n--- 추출된 웹 콘텐츠 (일부) ---\n{web_content[:500]}...") # 처음 500자만 출력
else:
    print("웹 콘텐츠 추출에 실패했습니다.")

target_url은 여러분이 분석하고자 하는 실제 웹페이지 URL로 변경하여 테스트해 보세요. 이 코드는 웹페이지의 텍스트 콘텐츠를 효율적으로 수집하는 방법을 보여줍니다. BeautifulSoup는 복잡한 HTML 구조 속에서 특정 태그나 클래스를 가진 요소들을 쉽게 찾아내어 텍스트를 추출할 수 있게 해줍니다.

Python과 ChatGPT API로 웹페이지 정보 추출 및 AI 보고서 초안 자동 생성 관련자료 1

출처: https://img1.daumcdn.net/thumb/R1280x0.fpng/?fname=http://t1.daumcdn.net/brunch/service/user/4qE1/image/Z4ZMZKsHWrlqRd4PLMa8JerB4N8.png

이 단계에서는 웹페이지에서 ‘읽을 수 있는’ 텍스트를 최대한 많이, 그리고 깔끔하게 추출하는 것이 중요합니다. 불필요한 메뉴나 푸터 정보는 제외하고, 본문 내용에 집중하도록 find_all 메서드의 인자를 조절하는 연습을 해보세요.

3단계: ChatGPT API 연동 및 추출 정보 요약

추출된 웹 콘텐츠를 기반으로 ChatGPT API를 호출하여 핵심 내용을 요약하고, 이를 보고서 초안의 형태로 가공하는 단계입니다. 프롬프트 엔지니어링이 매우 중요합니다. ChatGPT에게 명확하고 구체적인 지시를 내려야 원하는 결과를 얻을 수 있습니다.

def generate_ai_report_draft(text_content):
    if not text_content:
        return "요약할 콘텐츠가 없습니다."

    # ChatGPT에게 전달할 프롬프트 구성
    prompt = f"""
당신은 전문 IT 분석가이며, 주어진 웹페이지 콘텐츠를 바탕으로 다음과 같은 형식의 보고서 초안을 작성해야 합니다.

보고서 제목: (웹페이지 내용의 핵심을 담은 제목)

1. 핵심 요약:
   - 웹페이지의 가장 중요한 내용을 3~5줄로 요약합니다.

2. 주요 내용:
   - 웹페이지의 주요 주제와 세부 사항들을 3~4개의 소제목으로 나누어 설명합니다.
   - 각 소제목 아래에는 2~3줄의 설명을 추가합니다.

3. 시사점 및 전망:
   - 해당 웹페이지 내용이 현재 IT 트렌드나 미래에 미칠 영향에 대해 간략하게 분석합니다.
   - 2~3줄로 작성합니다.

4. 참고 자료:
   - 원문 웹페이지 URL: {target_url}

제공된 웹페이지 콘텐츠:
"""{text_content}"""

    try:
        response = openai.chat.completions.create(
            model="gpt-4o", # 2026년 기준 최신 모델 또는 gpt-3.5-turbo 등 사용 가능
            messages=[
                {"role": "system", "content": "You are a helpful assistant that summarizes web content and generates report drafts."},
                {"role": "user", "content": prompt}
            ],
            temperature=0.7, # 창의성 조절 (0.0: 보수적, 1.0: 창의적)
            max_tokens=1000 # 생성할 토큰의 최대 개수
        )
        return response.choices[0].message.content
    except openai.APIError as e:
        print(f"ChatGPT API 호출 중 오류 발생: {e}")
        return "ChatGPT API 호출에 실패했습니다."

if web_content:
    report_draft = generate_ai_report_draft(web_content)
    print(f"\n--- 생성된 AI 보고서 초안 ---\n{report_draft[:1000]}...") # 처음 1000자만 출력
else:
    print("보고서 초안을 생성할 콘텐츠가 없습니다.")

프롬프트는 ChatGPT가 어떤 역할을 수행하고, 어떤 형식으로 응답해야 하는지를 명확하게 지시하는 것이 핵심입니다. model 파라미터는 여러분이 사용 가능한 최신 모델로 설정할 수 있습니다. temperature 값은 생성되는 텍스트의 창의성을 조절하는 중요한 요소이므로, 다양한 값을 시도하며 최적의 결과를 찾아보세요.

Python과 ChatGPT API로 웹페이지 정보 추출 및 AI 보고서 초안 자동 생성 관련자료 2

출처: http://imgnews.naver.net/image/5575/2023/08/09/0000400291_001_20230809072803107.jpg

이 단계에서 생성되는 보고서 초안은 원문의 길이와 복잡성, 그리고 프롬프트의 품질에 따라 크게 달라질 수 있습니다. 원하는 결과가 나오지 않는다면 프롬프트 내용을 더 구체적으로 수정하거나, temperature 값을 조정해 보는 것이 좋습니다.

4단계: AI 보고서 초안 자동 생성 및 파일 저장

마지막으로, ChatGPT로부터 받은 보고서 초안을 파일로 저장하는 단계입니다. 이렇게 저장된 파일은 나중에 사람이 검토하고 수정하여 최종 보고서로 완성하는 데 사용될 수 있습니다.

def save_report_to_file(report_content, filename="ai_report_draft.md"):
    try:
        with open(filename, "w", encoding="utf-8") as f:
            f.write(report_content)
        print(f"\n보고서 초안이 '{filename}' 파일로 성공적으로 저장되었습니다.")
    except IOError as e:
        print(f"파일 저장 중 오류 발생: {e}")

# 전체 워크플로우 실행
if __name__ == "__main__":
    print("Python과 ChatGPT API를 이용한 AI 보고서 초안 생성 시작...")

    # 1. 웹 콘텐츠 추출
    target_url = "https://www.zdnet.co.kr/view/?no=20260101100000" # 2026년 가상 뉴스 기사 URL
    # 실제 사용 시, 유효한 URL로 변경하고 robots.txt 준수 여부 확인 필수
    print(f"분석 대상 URL: {target_url}")
    extracted_content = extract_webpage_content(target_url)

    if extracted_content:
        # 2. ChatGPT로 보고서 초안 생성
        print("ChatGPT API를 통해 보고서 초안 생성 중...")
        final_report_draft = generate_ai_report_draft(extracted_content)

        # 3. 생성된 보고서 초안 파일로 저장
        if final_report_draft and "ChatGPT API 호출에 실패했습니다." not in final_report_draft:
            save_report_to_file(final_report_draft)
            print(f"\n--- 최종 생성된 보고서 초안 내용 (파일 확인) ---\n{final_report_draft[:1000]}...")
        else:
            print("보고서 초안 생성에 실패했거나 내용이 없습니다.")
    else:
        print("웹 콘텐츠 추출 실패로 인해 보고서 초안을 생성할 수 없습니다.")

    print("AI 보고서 초안 생성 프로세스 완료.")

if __name__ == "__main__": 블록은 스크립트가 직접 실행될 때만 코드가 작동하도록 하는 표준 파이썬 관용구입니다. 이 블록 안에 전체 워크플로우를 통합하여 실행하면, 웹페이지 추출부터 AI 보고서 초안 생성 및 저장까지의 모든 과정을 한 번에 처리할 수 있습니다.

Python과 ChatGPT API로 웹페이지 정보 추출 및 AI 보고서 초안 자동 생성 관련자료 3

출처: https://www.busan.go.kr/data/synap/20251215/files/79bcb416-b729-4308-b5a2-c77300ac152d.png

파일 저장 시에는 인코딩 문제로 인해 한글이 깨지는 것을 방지하기 위해 encoding="utf-8"을 명시하는 것이 중요합니다. 저장된 파일의 확장자를 .md(Markdown)로 설정하면, 마크다운 뷰어에서 깔끔하게 내용을 확인할 수 있습니다.

결과 확인

위의 모든 코드를 report_generator.py 파일에 저장한 후, 터미널에서 다음 명령어를 실행하여 결과를 확인합니다.

python report_generator.py

스크립트가 성공적으로 실행되면, 현재 스크립트가 있는 디렉토리에 ai_report_draft.md 파일이 생성될 것입니다. 이 파일을 열어보면 ChatGPT가 생성한 보고서 초안을 확인할 수 있습니다.

예상되는 ai_report_draft.md 파일 내용 (일부):

보고서 제목: 2026년 IT 트렌드 분석 및 미래 기술 전망

1. 핵심 요약:
   - 2026년 IT 산업은 AI 기반 자동화, 엣지 컴퓨팅 확산, 그리고 지속 가능한 기술에 초점을 맞추고 있습니다.
   - 특히, Generative AI는 콘텐츠 생성 및 비즈니스 의사 결정 과정에 혁신적인 변화를 가져오고 있습니다.
   - 클라우드 네이티브 아키텍처는 기업의 민첩성과 확장성을 극대화하는 핵심 전략으로 부상하고 있습니다.

2. 주요 내용:
   2.1. 인공지능의 일상화:
      - ChatGPT와 같은 LLM은 단순 질의응답을 넘어 데이터 분석, 코드 생성, 보고서 초안 작성 등 실무 영역에 깊숙이 통합되고 있습니다.
      - AI 윤리 및 거버넌스에 대한 중요성이 더욱 강조되고 있습니다.

   2.2. 엣지 컴퓨팅의 부상:
      - IoT 기기 및 자율주행차의 확산으로 데이터 처리의 효율성이 중요해지며, 엣지 컴퓨팅의 역할이 증대되고 있습니다.
      - 중앙 서버의 부담을 줄이고 실시간 데이터 처리를 가능하게 합니다.

   2.3. 지속 가능한 IT:
      - 에너지 효율적인 데이터 센터 구축 및 친환경 기술 개발이 주요 화두입니다.
      - 기업의 ESG 경영 전략에 IT 부문의 지속 가능성이 필수 요소로 자리 잡고 있습니다.

3. 시사점 및 전망:
   - 기업들은 AI와 엣지 컴퓨팅을 통해 운영 효율성을 극대화하고 새로운 비즈니스 기회를 창출할 수 있습니다.
   - 지속 가능한 IT는 미래 경쟁력의 핵심이며, 기술 개발 단계부터 환경적 요소를 고려해야 할 것입니다.

4. 참고 자료:
   - 원문 웹페이지 URL: https://www.zdnet.co.kr/view/?no=20260101100000

이 파일은 여러분이 지정한 웹페이지의 내용을 바탕으로 ChatGPT가 생성한 보고서 초안입니다. 이 초안을 기반으로 내용을 추가하거나 수정하여 최종 보고서를 완성할 수 있습니다. 이 자동화된 워크플로우를 통해 여러분은 정보 수집 및 초안 작성에 드는 시간을 대폭 절약하고, 더 중요한 분석 및 의사 결정에 집중할 수 있게 될 것입니다.

본 강의를 통해 여러분은 Python과 ChatGPT API를 활용한 강력한 자동화 도구를 구축하는 방법을 익혔습니다. 이 기술은 웹 스크래핑, 데이터 요약, 콘텐츠 생성 등 다양한 분야에 응용될 수 있으며, 여러분의 생산성을 한 단계 더 끌어올리는 데 크게 기여할 것입니다. 앞으로 이 지식을 바탕으로 더욱 창의적이고 효율적인 IT 솔루션을 개발하시길 바랍니다.