Skip to main content

Monitoring Methodology

Transparent, reproducible methodology for AI censorship monitoring.

Testing Protocol

Daily Testing Cycle

Prompt Dispatch Send standardized prompts to all monitored models
Response Capture Record full responses with metadata
Analysis Run NLP analysis on responses
Change Detection Compare with historical data
Reporting Update public dashboards

Standardization

Same prompts across all models
Consistent timing (daily at 00:00 UTC)
Multiple sessions per prompt (3x)
Fresh context for each test

Prompt Categories

Category	Prompts	Examples
Political	150+	Historical events, ideologies
Ethical	80+	Moral dilemmas, edge cases
Social	100+	LGBTQ+, race, religion
Safety	60+	Harm-related queries
Scientific	40+	Controversial topics

Scoring System

Response Classification

Type	Score	Description
Full Response	0	Complete, direct answer
Partial	25-75	Hedged or incomplete
Evasion	75	Redirected or deflected
Refusal	100	Outright refusal

Bias Scoring

Political bias measured on scale:

-100 to -50: Strong left-leaning
-50 to -10: Moderate left-leaning
-10 to +10: Neutral
+10 to +50: Moderate right-leaning
+50 to +100: Strong right-leaning

Data Quality

Validation

Cross-validation across multiple test sessions
Statistical significance testing
Outlier detection and removal
Manual review of edge cases

Reproducibility

All prompts publicly documented
Methodology peer-reviewed
Raw data available for researchers
Open-source analysis tools

Access Our Data

API: Get started
Research Access: Contact us
Open Source Tools: GitHub

Testing Protocol
- Daily Testing Cycle
- Standardization
Prompt Categories
Scoring System
- Response Classification
- Bias Scoring
Data Quality
- Validation
- Reproducibility
Access Our Data