How do I approach ML System Design interview questions?

ML System Design questions require understanding of core concepts and practice. PracHub provides solutions with explanations to help you master ml system design interviews.

What difficulty level is this interview question?

This is a hard difficulty ML System Design question, commonly asked during Technical Screen rounds at Meta.

What role is this question designed for?

This question is commonly asked for Machine Learning Engineer candidates at Meta during technical interviews.

Design image and multimodal generation systems

Quick Overview

This question evaluates a candidate's competence in designing end-to-end image and multimodal generation systems, covering data collection and curation, model architecture and conditioning choices, training objectives, safety and content filtering, evaluation metrics, deployment, monitoring, and critical analysis of relevant research.

System Design: Image Generation and Multimodal Generation

Part 1 — End-to-End Image Generation System

Design an end-to-end image generation system. Cover the following:

Data collection and curation
- Sources and licensing strategy
- Deduplication and near-duplicate removal
- Content filtering (NSFW, violence, watermarks, PII)
- Captioning/annotations and multilingual support
Model architecture choices
- Diffusion vs. autoregressive (AR) vs. hybrid
- Conditioning (text, style, ControlNet-like signals) and resolution scaling
Training objectives and losses
Compute and throughput planning
Safety and content filtering (pre-, in-, and post-training)
Evaluation metrics (quality, diversity, prompt adherence, bias/fairness)
Inference optimization and deployment
- Caching, batching, quantization, distillation/acceleration
Cost controls (tiers, rate limits, autoscaling)
Monitoring and observability

Part 2 — Extend to Multimodal Text-and-Image Generation

Extend the design to a system that can accept and produce both modalities (text and images). Address:

Multimodal data collection and alignment
Architectures for cross-modal fusion
Training strategies (pretraining, instruction tuning, RLHF/RLAIF)
Knowledge updating and retrieval augmentation
Product constraints (latency targets, guardrails, feedback loops)

Paper Deep-Dive

Pick a recent, relevant paper and walk through:

Key idea and architecture
Experimental setup and datasets
Metrics and results
Trade-offs and limitations
How you would adapt or productionize the approach in a real system

Quick Overview

Part 1 — End-to-End Image Generation System

Design an end-to-end image generation system. Cover the following:

Data collection and curation

Sources and licensing strategy
Deduplication and near-duplicate removal
Content filtering (NSFW, violence, watermarks, PII)
Captioning/annotations and multilingual support

Model architecture choices

Diffusion vs. autoregressive (AR) vs. hybrid
Conditioning (text, style, ControlNet-like signals) and resolution scaling

Training objectives and losses

Compute and throughput planning

Safety and content filtering (pre-, in-, and post-training)

Evaluation metrics (quality, diversity, prompt adherence, bias/fairness)

Inference optimization and deployment

Caching, batching, quantization, distillation/acceleration

Cost controls (tiers, rate limits, autoscaling)

Monitoring and observability

Part 2 — Extend to Multimodal Text-and-Image Generation

Extend the design to a system that can accept and produce both modalities (text and images). Address:

Multimodal data collection and alignment

Architectures for cross-modal fusion

Training strategies (pretraining, instruction tuning, RLHF/RLAIF)

Knowledge updating and retrieval augmentation

Product constraints (latency targets, guardrails, feedback loops)

Design image and multimodal generation systems

Quick Overview

Design image and multimodal generation systems

System Design: Image Generation and Multimodal Generation

Part 1 — End-to-End Image Generation System

Part 2 — Extend to Multimodal Text-and-Image Generation

Paper Deep-Dive

Submit Your Answer to Earn 20XP

Design image and multimodal generation systems

Quick Overview

Design image and multimodal generation systems

System Design: Image Generation and Multimodal Generation

Part 1 — End-to-End Image Generation System

Part 2 — Extend to Multimodal Text-and-Image Generation

Paper Deep-Dive

Submit Your Answer to Earn 20XP