How do I approach System Design interview questions?

System Design questions require understanding of core concepts and practice. PracHub provides solutions with explanations to help you master system design interviews.

What difficulty level is this interview question?

This is a medium difficulty System Design question, commonly asked during Onsite rounds at Harvey.

What role is this question designed for?

This question is commonly asked for Software Engineer candidates at Harvey during technical interviews.

Design a RAG question-answering system | Harvey Interview Question

Quick Overview

This question evaluates system design and machine-learning engineering competencies for building Retrieval-Augmented Generation (RAG) systems, including information retrieval, embedding-based vector search, LLM prompting, data ingestion and indexing, storage and operational concerns within the System Design domain.

Scenario

Design a Retrieval-Augmented Generation (RAG) system that answers user questions using an internal document corpus (e.g., product docs, policies, runbooks). The system should ground answers in the corpus and cite sources.

Requirements

Functional

Users submit a natural-language query and receive an answer generated by an LLM.
The answer must be grounded in retrieved documents (include citations/links/IDs).
Support document ingestion/updates (new docs, edits, deletions).
Handle multi-turn conversations (optional, but describe how you would support it).

Non-functional

Latency target (p95): e.g., < 3 seconds for typical queries.
Availability: e.g., 99.9% .
Data privacy: some documents may be access-controlled per user/team.
Quality: minimize hallucinations; provide a way to evaluate and monitor quality.

What to cover

High-level architecture and main components.
Data ingestion and indexing pipeline (chunking, embeddings, metadata).
Retrieval strategy (top-k, filtering, reranking).
Prompting/generation strategy (context window management, citations).
Storage choices (vector DB, metadata store) and scaling approach.
Caching, monitoring, evaluation, and failure modes.

Quick Overview

Requirements

Functional

Users submit a natural-language query and receive an answer generated by an LLM.

The answer must be grounded in retrieved documents (include citations/links/IDs).

Support document ingestion/updates (new docs, edits, deletions).

Handle multi-turn conversations (optional, but describe how you would support it).

Non-functional

Latency target (p95): e.g., < 3 seconds for typical queries.

Availability: e.g., 99.9% .

Data privacy: some documents may be access-controlled per user/team.

Quality: minimize hallucinations; provide a way to evaluate and monitor quality.

What to cover

High-level architecture and main components.

Data ingestion and indexing pipeline (chunking, embeddings, metadata).

Retrieval strategy (top-k, filtering, reranking).

Prompting/generation strategy (context window management, citations).

Storage choices (vector DB, metadata store) and scaling approach.

Caching, monitoring, evaluation, and failure modes.

Design a RAG question-answering system

Quick Overview

Scenario

Requirements

Functional

Non-functional

What to cover

Solution

Submit Your Answer to Earn 20XP

Design a RAG question-answering system

Quick Overview

Scenario

Requirements

Functional

Non-functional

What to cover

Solution

Submit Your Answer to Earn 20XP