How do I approach ML System Design interview questions?

ML System Design questions require understanding of core concepts and practice. PracHub provides solutions with explanations to help you master ml system design interviews.

What difficulty level is this interview question?

This is a hard difficulty ML System Design question, commonly asked during Onsite rounds at OpenAI.

What role is this question designed for?

This question is commonly asked for Machine Learning Engineer candidates at OpenAI during technical interviews.

Design an image/video near-duplicate detection system

Last updated: Mar 29, 2026

Quick Overview

This question evaluates competency in ML system design and large-scale multimedia retrieval, focusing on perceptual fingerprinting versus embedding strategies, scalable indexing and nearest-neighbor retrieval, and robustness to resizing, re-encoding, watermarks, minor edits, and adversarial manipulations.

|Home/ML System Design/OpenAI

Design an image/video near-duplicate detection system

OpenAI

Dec 15, 2025, 12:00 AM

hardMachine Learning EngineerOnsiteML System Design

Question

Design a system to detect near-duplicate images/videos (e.g., reuploads, minor edits, different encodes) at large scale.

Requirements

Support both images and videos.
Robust to resizing, cropping, re-encoding, watermarks, small edits.
High throughput ingestion; low-latency query for takedown/merge/dedup.
Handle billions of media items.

Deliverables

Fingerprinting approach (perceptual hashing vs embeddings).
Indexing and retrieval architecture.
Thresholding, evaluation, and operational concerns (false positives, adversarial behavior).

Submit Your Answer to Earn 20XP

Loading comments...

Browse More Questions

More ML System Design•More OpenAI•More Machine Learning Engineer•OpenAI Machine Learning Engineer•OpenAI ML System Design•Machine Learning Engineer ML System Design

Your design canvas — auto-saved