CPC Test Parser

Overview

The cpc_parser package is a Python library designed to extract structured question data from CPC (Certified Professional Coder) practice test PDF files. It converts unstructured PDF content into validated, structured data models that can be used for analysis, benchmarking, and machine learning applications.

Key Features

PDF Parsing: Extracts questions, answer choices, correct answers, and explanations from CPC test PDFs
Data Validation: Uses Pydantic models to ensure data integrity and consistency
Structured Output: Converts parsed data into JSON/JSONL format for easy consumption
Comprehensive Coverage: Handles questions (pages 4-35), answer keys, and detailed explanations

Package Structure

cpc_parser/
├── __init__.py          # Package exports and version info
├── schema.py            # Pydantic data models (Question, QuestionDataset)
└── parse_pdf.py         # Main parsing logic (CPCTestParser)

Core Components

1. Data Models (`schema.py`)

Question: Represents a single CPC test question with validation
- ID (1-100), stem text, four options (A-D), correct answer, explanation
QuestionDataset: Collection of questions with metadata and utilities
- JSONL export/import, statistics, validation of unique IDs

2. Parser (`parse_pdf.py`)

CPCTestParser: Main parsing engine
parse_cpc_test(): Convenience function for quick parsing

Processing Flow

flowchart TD
    A["CPC Test PDF"] --> B["Initialize CPCTestParser"]
    B --> C["Parse Questions<br/>(Pages 4-35)"]
    C --> D["Parse Answer Key<br/>(Answer Key Section)"]
    D --> E["Parse Explanations<br/>(Explanations Section)"]
    E --> F["Combine Data"]
    F --> G["Validate with Pydantic"]
    G --> H["QuestionDataset"]
    H --> I["Export JSONL"]
    H --> J["Generate Statistics"]
    
    style A fill:#e1f5fe
    style H fill:#e8f5e8
    style I fill:#fff3e0
    style J fill:#fff3e0

Overview

Key Features

Package Structure

Core Components

1. Data Models (`schema.py`)

2. Parser (`parse_pdf.py`)

Processing Flow

Quick Start

Basic Usage

Overview

Key Features

Package Structure

Core Components

1. Data Models (schema.py)

2. Parser (parse_pdf.py)

Processing Flow

Quick Start

Basic Usage

1. Data Models (`schema.py`)

2. Parser (`parse_pdf.py`)