Skyward용 PDF를 쉽게 분할하고 이름을 바꿉니다.-파이썬 튜토리얼-php.cn

Skyward용 PDF를 쉽게 분할하고 이름을 바꿉니다.

王林

풀어 주다： 2024-07-30 01:14:33

원래의

815명이 탐색했습니다.

Easily Split and Rename PDFs for Skyward

왜 그것을 구축하고 무엇을 하는가?

몇 주 전 제 상사는 우리가 겪고 있는 특정 문제에 대한 작업 흐름을 생각해 볼 수 있는지 알아보라는 과제를 저에게 주었습니다. 우리는 Pre/ACT 편지를 SMS(학생 관리 시스템)로 가져오고 싶었는데, 우리의 경우에는 Skyward였습니다. 우리가 직면한 문제는 Pre/ACT 편지가 대량 PDF 또는 개별 PDF로 되어 있고 Skyward에 들어가려면 각 학생의 ID 번호에 대한 PDF가 필요하다는 것입니다. 이를 달성하기 위해 UI용 Streamlit을 사용하여 Python으로 프로그램을 작성하기로 결정했습니다.

우리가 해결해야 할 문제를 PDF부터 살펴보겠습니다. 편지의 대량 단일 PDF 내보내기를 가져오는 것이 더 합리적이었습니다. 이는 대량 내보내기를 개별 PDF로 분할해야 함을 의미했습니다. 각 문자는 일반적으로 2페이지로 구성되지만 항상 그런 것은 아니므로 한 페이지씩 간단히 나누면 오류가 발생할 가능성이 높습니다.

두 번째 문제는 각 학생의 PDF를 읽고 해당 ID 번호로 이름을 바꾸는 것이었습니다. 이는 주로 나에게 필요한 것을 가져오는 Regex 패턴에 달려 있습니다.

이것도 시간이 걸리는 도전이었기 때문에 AI와 협력하여 코드 생성을 도왔습니다. 참고: 이는 사용 중인 논리와 언어를 아는 것을 대체하지 않습니다. AI/LLM으로 이 글을 작성할 때 저는 생각의 사슬 접근 방식을 사용하여 제가 원하는 것을 한 입 크기로 제공한 다음 더 추가하기 전에 각 청크를 디버깅하고 테스트했습니다. 아래 코드는 사용된 최종 코드입니다. 각 섹션을 섹션별로 분류하겠습니다. 해당 지역에서 이를 솔루션으로 구현하려는 경우 TLDR이 이 게시물의 끝 부분을 참조하세요.

요구사항 및 수입품

이 부분은 매우 간단하며 프로그램이 실행되는 기초입니다.

UI를 위한 간소화
PDF 조작을 위한 pypdf2, pymupdf 및 fitz

requirements.txt 내용

streamlit
pypdf2
fitz
pymupdf

로그인 후 복사

app.py 가져오기

import PyPDF2
import fitz  # PyMuPDF
import re
from pathlib import Path
import concurrent.futures
import streamlit as st
import shutil
import zipfile
import os

로그인 후 복사

아이디 찾기

이 다음 스니펫은 대량 PDF에서 ID를 찾고 이를 분할하는 데 사용할 페이지 목록을 만드는 방법을 다루고 있습니다. 이는 정규식에 따라 달라지는 부분이며 상황에 따라 변경해야 할 수도 있습니다.

def find_id_pages(input_pdf):
 doc = fitz.open(input_pdf)
 id_pages = []
 id_pattern = re.compile(r'\(ID#:\s*(\d+)\)')

    for i, page in enumerate(doc):
 text = page.get_text()
        if id_pattern.search(text):
 id_pages.append(i)

    return id_pages

로그인 후 복사

PDF 분할

제목에서 알 수 있듯이 PDF를 분할하는 데 사용됩니다. 이것은 각 개별 PDF의 이름을 추출하는 기능을 사용합니다. 또한 성능 향상을 위해 한 번에 최대 10개까지 병렬로 분할된다는 점도 알 수 있습니다.

def split_pdf(input_pdf, output_folder, progress_callback):
 input_path = Path(input_pdf)
 output_folder = Path(output_folder)
 output_folder.mkdir(parents=True, exist_ok=True)

    # Find pages with IDs
 id_pages = find_id_pages(input_pdf)

    if not id_pages:
 st.error("No ID pages found in the PDF.")
        return

 pdf_reader = PyPDF2.PdfReader(str(input_path))
 total_pages = len(pdf_reader.pages)
 temp_pdfs = []

    for i in range(len(id_pages)):
 start_page = id_pages[i]
 end_page = id_pages[i + 1] if i + 1 < len(id_pages) else total_pages

 pdf_writer = PyPDF2.PdfWriter()
        for j in range(start_page, end_page):
 pdf_writer.add_page(pdf_reader.pages[j])

 temp_pdf_path = output_folder / f'temp_{i}.pdf'
        with open(temp_pdf_path, 'wb') as output_pdf:
 pdf_writer.write(output_pdf)

 temp_pdfs.append(temp_pdf_path)
 progress_callback((i + 1) / len(id_pages))  # Update progress bar

    # Process renaming in parallel
    with concurrent.futures.ThreadPoolExecutor(max_workers=10) as executor:
 executor.map(lambda pdf_path: extract_and_rename_pdf(pdf_path, output_folder), temp_pdfs)

로그인 후 복사

def extract_and_rename_pdf(pdf_path, output_folder):
 doc = fitz.open(pdf_path)
 text_first_page = doc[0].get_text()

    # Extract ID using a regex pattern for the format (ID#: 01234)
 match_first_page = re.search(r'\(ID#:\s*(\d+)\)', text_first_page)

    if match_first_page:
 id_value = match_first_page.group(1)
 new_pdf_path = output_folder / f'{id_value}.pdf'
 pdf_path.rename(new_pdf_path)
    else:
 new_pdf_path = output_folder / f'unknown_{pdf_path.stem}.pdf'
 pdf_path.rename(new_pdf_path)

로그인 후 복사

거의 다 왔어

다음은 몇 가지 짧은 기능입니다. 하나는 분할된 PDF를 모두 압축하는 기능(내부 서버에서 실행하려는 경우)이고 다른 하나는 임시 파일을 정리하여 PII 학생 정보가 어디에 남지 않도록 하는 기능입니다. 살 필요는 없습니다.

def zip_output_folder(output_folder, zip_name):
 shutil.make_archive(zip_name, 'zip', output_folder)

로그인 후 복사

def clean_up(output_folder, zip_name):
 shutil.rmtree(output_folder)
 os.remove(f"{zip_name}.zip")

로그인 후 복사

UI 구축

마지막 코드는 UI용입니다. Streamlit은 다재다능한 WebUI입니다(예, 단독으로 실행할 수 있습니다). 몇 번의 시도 끝에 유용성을 고려했습니다. 간단하게 정리하여 업로드 버튼, 작업 버튼(예: 분할) 및 압축된 PDF를 가져오는 다운로드 버튼으로 분류했습니다.

# Streamlit App Portion
st.title("PDF Splitter and Renamer")

uploaded_file = st.file_uploader("Choose a PDF file", type="pdf")
output_folder = "output_folder"

if st.button("Split and Rename PDF"):
    if uploaded_file and output_folder:
        try:
            # Save uploaded file temporarily
            with open("temp_input.pdf", "wb") as f:
 f.write(uploaded_file.getbuffer())

 progress_bar = st.progress(0)
            def update_progress(progress):
 progress_bar.progress(progress)

 split_pdf("temp_input.pdf", output_folder, update_progress)

 zip_name = "output_pdfs"
 zip_output_folder(output_folder, zip_name)
 st.success("PDF split and renamed successfully!")

            with open(f"{zip_name}.zip", "rb") as f:
 st.download_button(
                    label="Download ZIP",
                    data=f,
                    file_name=f"{zip_name}.zip",
                    mime="application/zip"
 )

            # Remove temporary file
 Path("temp_input.pdf").unlink()
 clean_up(output_folder, zip_name)
        except Exception as e:
 st.error(f"An error occurred: {e}")
    else:
 st.error("Please upload a PDF file and specify an output folder.")

로그인 후 복사

시작 및 실행을 위한 TLDR

작업을 시작하고 실행하려면 다음 명령을 사용하세요(Linux, WSL 및 MacOS를 가정함). http://localhost:8501로 이동하여 앱에 접속할 수 있습니다.

git clone https://github.com/Blacknight318/act-to-sms.git
cd act-to-sms
python3 -m venv venv
source venv/bin/activate
pip install -r requirements.txt
streamlit run app.py

로그인 후 복사