Spaces:

vanderbilt-dsi
/

survey-analytics

Running

App Files Files Community

survey-analytics / crosstab_rag.py

umangchaudhry

Upload 20 files

cc2626e verified about 1 month ago

raw

history blame contribute delete

24.3 kB

	"""
	Crosstab RAG Module
	------------------
	Retrieves crosstab demographic breakdown data from Pinecone vectorstore.
	Uses question_info for precise namespace matching and metadata filtering.
	Returns raw data only - no synthesis.
	"""

	import os
	from typing import List, Dict, Optional, Any
	from pathlib import Path

	from dotenv import load_dotenv
	from langchain_openai import OpenAIEmbeddings
	from langchain.schema import Document
	from langchain_pinecone import PineconeVectorStore
	from pinecone import Pinecone

	load_dotenv()

	# Import QuestionnaireRAG to reuse question matching when needed
	try:
	from questionnaire_rag import QuestionnaireRAG
	except ImportError:
	# Handle case where running as module
	from .questionnaire_rag import QuestionnaireRAG

	PINECONE_RETRIEVE_K = 100
	MAX_CROSSTAB_CHUNKS = 50


	class CrosstabSummarizer:
	"""Summarizes crosstab data to reduce token usage."""

	def __init__(self, llm_model: str = None, openai_api_key: str = None):
	from langchain_openai import ChatOpenAI
	llm_model = llm_model or os.getenv("OPENAI_MODEL", "gpt-4o")
	openai_api_key = openai_api_key or os.getenv("OPENAI_API_KEY")
	self.llm = ChatOpenAI(model=llm_model, openai_api_key=openai_api_key, temperature=0.0)

	def summarize(
	self,
	user_query: str,
	retrieved_docs: List[Document],
	question_text: Optional[str] = None,
	top_n_sources: int = 6
	) -> Dict:
	"""Summarize crosstab data, extracting relevant demographic breakdowns."""
	if not retrieved_docs:
	return {"answer": "No relevant crosstab data found for that query.", "sources": []}

	context_parts, sources = [], []
	for i, d in enumerate(retrieved_docs):
	# Handle both Document objects and dicts (from checkpoint deserialization)
	if hasattr(d, 'metadata'):
	md = d.metadata or {}
	content = d.page_content or ""
	elif isinstance(d, dict):
	md = d.get("metadata", {})
	content = d.get("page_content", "")
	else:
	md = {}
	content = ""

	id_hint = md.get("question_id") or md.get("variable_name") or f"part_{i+1}"
	context_parts.append(f"--- Part {i+1} \| {id_hint} ---\n{content}")
	sources.append(id_hint)
	context_text = "\n\n".join(context_parts)

	# Load prompts
	prompt_dir = Path(__file__).parent / "prompts"
	system_prompt_path = prompt_dir / "crosstab_rag_prompt_system.txt"
	user_prompt_path = prompt_dir / "crosstab_rag_prompt_user.txt"

	system_prompt = system_prompt_path.read_text(encoding="utf-8") if system_prompt_path.exists() else ""

	question_context = f"\n\nSURVEY QUESTION THAT WAS RETRIEVED: {question_text}" if question_text else ""
	relevance_check = (
	"\n\n⚠️ RELEVANCE: The retrieved question IS relevant to the user's query. "
	"Remember: ALL subtopics, specific examples, and related aspects ARE relevant:\n"
	"- 'personal financial situation' IS about economy\n"
	"- 'tariffs' IS about economy\n"
	"- 'stock market' IS about economy\n"
	"- 'gender-affirming healthcare' IS about healthcare\n"
	"- 'Biden approval' IS about presidential approval\n"
	"Only flag as irrelevant if about a COMPLETELY UNRELATED topic (e.g., user asked 'economy' but question is about 'sports teams'). "
	"When in doubt, ANALYZE THE DATA - do not reject it."
	) if question_text else ""

	user_prompt_template = user_prompt_path.read_text(encoding="utf-8") if user_prompt_path.exists() else "{user_query}\n\n{context_text}"
	user_prompt = user_prompt_template.format(
	user_query=user_query,
	question_context=question_context,
	relevance_check=relevance_check,
	context_text=context_text
	)

	from langchain.schema import HumanMessage, SystemMessage
	messages = [SystemMessage(content=system_prompt), HumanMessage(content=user_prompt)]
	try:
	result = self.llm.invoke(messages)
	answer = result.content if hasattr(result, 'content') else str(result)
	except Exception as e:
	answer = f"Error generating summary: {e}"
	return {"answer": answer.strip(), "sources": sources[:top_n_sources]}


	class CrosstabRetriever:
	"""Retrieves crosstab chunks from Pinecone using metadata filtering."""

	def __init__(
	self,
	pinecone_api_key: str,
	index_name: str,
	embed_model: str,
	openai_api_key: str,
	verbose: bool = False
	):
	self.pc = Pinecone(api_key=pinecone_api_key)
	self.index_name = index_name
	self.embedder = OpenAIEmbeddings(model=embed_model, openai_api_key=openai_api_key)
	self.verbose = verbose

	def _build_namespace_from_question_info(self, question_info: Dict[str, Any]) -> Optional[str]:
	"""Build namespace from question_info (year + month)"""
	year = question_info.get("year")
	month = question_info.get("month", "")

	if year and month:
	return f"Vanderbilt_Unity_Poll_{year}_{month}_cleaned_data_crosstabs".replace(" ", "_")

	# Try to extract from poll_date
	poll_date = question_info.get("poll_date", "")
	if poll_date:
	try:
	from datetime import datetime
	# Handle format like "2025-June"
	if "-" in poll_date and len(poll_date.split("-")) == 2:
	year_str, month_str = poll_date.split("-")
	return f"Vanderbilt_Unity_Poll_{year_str}_{month_str}_cleaned_data_crosstabs".replace(" ", "_")
	else:
	date_obj = datetime.strptime(poll_date, "%Y-%m-%d")
	year_str = str(date_obj.year)
	month_str = date_obj.strftime("%B")
	return f"Vanderbilt_Unity_Poll_{year_str}_{month_str}_cleaned_data_crosstabs".replace(" ", "_")
	except Exception as e:
	if self.verbose:
	print(f" ⚠️ Failed to parse poll_date '{poll_date}': {e}")

	return None

	def retrieve_parts_for_question_info(
	self,
	question_info_list: List[Dict[str, Any]],
	k: int = PINECONE_RETRIEVE_K,
	filters: Optional[Dict[str, Any]] = None
	) -> Dict[str, List[Document]]:
	"""
	Retrieve crosstab chunks for question_info list.
	Groups by namespace (year/month) and filters by variable_name and question_id.

	Args:
	question_info_list: List of question info dicts with variable_name, year, month, question_id
	k: Number of results to retrieve per variable
	filters: Optional filters with year/month to constrain namespace search

	Returns:
	Dict mapping variable_name to list of Document objects
	"""
	try:
	index = self.pc.Index(self.index_name)
	stats = index.describe_index_stats()
	available_namespaces = list(stats.get('namespaces', {}).keys())

	if not available_namespaces:
	if self.verbose:
	print(" ⚠️ No namespaces found in index")
	return {}

	# Build target namespace from filters if provided
	target_namespace = None
	if filters:
	year = filters.get("year")
	month = filters.get("month", "")
	if year and month:
	target_namespace = f"Vanderbilt_Unity_Poll_{year}_{month}_cleaned_data_crosstabs".replace(" ", "_")
	if target_namespace not in available_namespaces:
	if self.verbose:
	print(f" ⚠️ Target namespace {target_namespace} not found in available namespaces")
	target_namespace = None

	# Group questions by namespace
	questions_by_namespace = {}
	for q_info in question_info_list:
	var_name = q_info.get("variable_name")
	if not var_name:
	continue

	# Try to build namespace from question_info first
	namespace = self._build_namespace_from_question_info(q_info)
	if namespace and namespace in available_namespaces:
	if namespace not in questions_by_namespace:
	questions_by_namespace[namespace] = []
	questions_by_namespace[namespace].append(var_name)
	elif target_namespace:
	# Use target namespace from filters
	if target_namespace not in questions_by_namespace:
	questions_by_namespace[target_namespace] = []
	questions_by_namespace[target_namespace].append(var_name)
	else:
	# Only search all namespaces if NO question metadata is available
	# This prevents broad searches when question_info is provided
	if self.verbose:
	print(f" ⚠️ Could not determine namespace for {var_name} (year={q_info.get('year')}, month={q_info.get('month')})")
	# Skip this question rather than searching all namespaces
	continue

	# Get embedding dimension
	embed_dim = 1536 # Default for text-embedding-3-small
	try:
	if hasattr(self.embedder, 'model') and 'small' in str(self.embedder.model).lower():
	embed_dim = 1536
	elif hasattr(self.embedder, 'model') and 'large' in str(self.embedder.model).lower():
	embed_dim = 3072
	except:
	pass

	dummy_vector = [0.0] * embed_dim
	all_docs_by_variable = {}

	# Build mapping from variable_name to question_id for filtering
	var_to_question_id = {}
	for q_info in question_info_list:
	var_name = q_info.get("variable_name")
	question_id = q_info.get("question_id")
	if var_name and question_id:
	var_to_question_id[var_name] = question_id

	# Search each namespace
	for namespace, var_names in questions_by_namespace.items():
	if namespace not in available_namespaces:
	continue

	if self.verbose:
	print(f" 🔍 Searching namespace: {namespace}")
	print(f" Looking for variables: {', '.join(sorted(set(var_names)))}")
	if var_to_question_id:
	matched_vars = [v for v in var_names if v in var_to_question_id]
	if matched_vars:
	print(f" 🔑 Using question_id filter for: {', '.join(sorted(set(matched_vars)))}")

	# Build filter for variable names and question IDs
	unique_vars = list(set(var_names))

	# Build filter conditions - match on either variable_name OR question_id
	filter_conditions = []
	for var in unique_vars:
	var_conditions = []

	# Add variable_name conditions (with and without _crosstab suffix)
	var_conditions.append({"variable_name": {"$eq": var}})
	var_conditions.append({"variable_name": {"$eq": f"{var}_crosstab"}})

	# Add question_id condition if available
	# Note: question_id in Pinecone metadata might have _part suffix for chunked crosstabs
	# but we match on base question_id and filter in post-processing
	if var in var_to_question_id:
	question_id = var_to_question_id[var]
	var_conditions.append({"question_id": {"$eq": question_id}})

	# Combine conditions for this variable with $or
	if len(var_conditions) > 1:
	filter_conditions.append({"$or": var_conditions})
	else:
	filter_conditions.append(var_conditions[0])

	# Combine all variable filters with $or
	if len(filter_conditions) == 1:
	var_filter = filter_conditions[0]
	else:
	var_filter = {"$or": filter_conditions}

	try:
	result = index.query(
	vector=dummy_vector,
	top_k=k * len(unique_vars),
	namespace=namespace,
	filter=var_filter,
	include_metadata=True
	)

	if self.verbose:
	print(f" 📊 Found {len(result.matches)} matches in {namespace}")

	for match in result.matches:
	metadata = match.metadata or {}
	var_name = metadata.get("variable_name", "")

	# Handle question_id format like "VAND10_part1"
	question_id = metadata.get("question_id", "")
	if question_id and "_part" in question_id:
	base_var = question_id.split("_part")[0].replace("_crosstab", "")
	if base_var in unique_vars:
	var_name = base_var

	# Check if variable_name has _crosstab suffix
	if var_name and var_name.endswith("_crosstab"):
	base_var = var_name.replace("_crosstab", "")
	if base_var in unique_vars:
	var_name = base_var

	if not var_name or var_name not in unique_vars:
	continue

	content = metadata.pop('text', '') or metadata.pop('page_content', '') or ''
	if not content:
	continue

	if var_name not in all_docs_by_variable:
	all_docs_by_variable[var_name] = []

	all_docs_by_variable[var_name].append(
	Document(page_content=content, metadata=metadata)
	)

	except Exception as e:
	if self.verbose:
	print(f" ⚠️ Error querying namespace {namespace}: {e}")
	continue

	# Sort documents by chunk_index
	for var_name in all_docs_by_variable:
	all_docs_by_variable[var_name].sort(key=lambda d: d.metadata.get("chunk_index", 999))
	all_docs_by_variable[var_name] = all_docs_by_variable[var_name][:MAX_CROSSTAB_CHUNKS]

	if self.verbose:
	total_docs = sum(len(docs) for docs in all_docs_by_variable.values())
	print(f" ✅ Retrieved {total_docs} total document(s) for {len(all_docs_by_variable)} variable(s)")

	return all_docs_by_variable

	except Exception as e:
	if self.verbose:
	print(f" ❌ Error in retrieve_parts_for_question_info: {e}")
	return {}


	class CrosstabsRAG:
	"""Crosstabs RAG with question_info-based retrieval."""

	def __init__(
	self,
	questionnaire_rag: QuestionnaireRAG,
	verbose: bool = False
	):
	self.questionnaire_rag = questionnaire_rag
	self.verbose = verbose

	pinecone_api_key = os.getenv("PINECONE_API_KEY")
	openai_api_key = os.getenv("OPENAI_API_KEY")
	index_name = os.getenv("PINECONE_INDEX_NAME_CROSSTABS", "crosstab-index")
	embed_model = os.getenv("OPENAI_EMBED_MODEL", "text-embedding-3-small")

	self.retriever = CrosstabRetriever(
	pinecone_api_key=pinecone_api_key,
	index_name=index_name,
	embed_model=embed_model,
	openai_api_key=openai_api_key,
	verbose=verbose
	)

	def retrieve_raw_data(
	self,
	user_query: str,
	question_info: Optional[List[Dict[str, Any]]] = None,
	source_questions: Optional[List[Dict[str, Any]]] = None,
	filters: Optional[Dict[str, Any]] = None
	) -> Dict:
	"""
	Retrieve raw crosstab data.
	Uses question_info if provided (skips QuestionnaireRAG).
	Otherwise uses QuestionnaireRAG to find questions, then retrieves crosstabs.
	Falls back to semantic search if metadata filtering returns no results.

	Args:
	user_query: User's query (used for QuestionnaireRAG if question_info not provided)
	question_info: List of question info dicts (preferred - skips QuestionnaireRAG)
	source_questions: Optional list of full question dicts from previous stage (avoids lookup)
	filters: Optional filters for QuestionnaireRAG

	Returns:
	Dict with crosstab_docs_by_variable, matched_questions, namespace_used, survey_info
	"""
	if self.verbose:
	print(f"\n📊 [Crosstabs] Query: {user_query}")
	if question_info:
	print(f"🔍 Question info: {len(question_info)} question(s) provided")
	if filters:
	print(f"🔍 Filters: {filters}")

	# If question_info provided, skip QuestionnaireRAG
	if question_info:
	if self.verbose:
	print(f"✅ Using provided question_info, skipping QuestionnaireRAG")

	# Retrieve crosstab data directly
	crosstab_docs_by_variable = self.retriever.retrieve_parts_for_question_info(
	question_info_list=question_info,
	k=PINECONE_RETRIEVE_K,
	filters=filters
	)

	if not crosstab_docs_by_variable:
	return {"error": f"No crosstab data found for {len(question_info)} question(s)."}

	# Get question metadata - use provided source_questions if available, otherwise lookup
	if not source_questions:
	source_questions = []
	questions_by_id = self.questionnaire_rag.questions_by_id
	for q_info in question_info:
	question_id = q_info.get("question_id")
	if question_id and question_id in questions_by_id:
	source_questions.append(questions_by_id[question_id])
	else:
	# Fallback: try to find by variable_name and year/month
	var_name = q_info.get("variable_name")
	year = q_info.get("year")
	month = q_info.get("month", "")
	if var_name:
	# Search through questions_by_id for matching variable
	for qid, q_data in questions_by_id.items():
	if (q_data.get("variable_name") == var_name and
	q_data.get("year") == year and
	q_data.get("month", "") == month):
	source_questions.append(q_data)
	break

	# Format results
	formatted_results = {}
	matched_variables = []
	all_namespaces = set()

	for var_name, docs in crosstab_docs_by_variable.items():
	question_metadata = next(
	(q for q in source_questions if q.get("variable_name") == var_name),
	{}
	)
	question_text = question_metadata.get("question_text", "")

	if docs:
	first_doc_meta = docs[0].metadata
	survey_name = first_doc_meta.get("survey_name", "")
	all_namespaces.add(survey_name)

	formatted_results[var_name] = {
	"crosstab_docs": docs,
	"question_text": question_text or (docs[0].metadata.get("question_text", "") if docs else ""),
	"matched_question": question_metadata
	}
	matched_variables.append(var_name)

	return {
	"crosstab_docs_by_variable": formatted_results,
	"matched_questions": source_questions,
	"matched_variables": matched_variables,
	"namespace_used": list(all_namespaces),
	"survey_info": {"poll": "Vanderbilt_Unity_Poll", "year": None, "month": None}
	}

	# Otherwise, use QuestionnaireRAG to find questions first
	if self.verbose:
	print(f"🔍 Using QuestionnaireRAG to find questions")

	try:
	q_result = self.questionnaire_rag.retrieve_raw_data(
	question=user_query,
	filters=filters or {},
	k=10
	)
	except Exception as e:
	return {"error": f"Error querying questionnaire: {e}"}

	source_questions = q_result.get("source_questions", [])
	question_info_from_questions = q_result.get("question_info", [])

	if not source_questions:
	return {"error": "No matching questions found in questionnaire for that query."}

	if self.verbose:
	print(f"✅ Found {len(source_questions)} question(s) from QuestionnaireRAG")

	# Retrieve crosstab data using question_info
	crosstab_docs_by_variable = self.retriever.retrieve_parts_for_question_info(
	question_info_list=question_info_from_questions,
	k=PINECONE_RETRIEVE_K
	)

	if not crosstab_docs_by_variable:
	return {"error": f"No crosstab data found for any of the {len(source_questions)} matched questions."}

	# Format results
	formatted_results = {}
	matched_variables = []
	all_namespaces = set()

	for matched_question in source_questions:
	variable_name = matched_question["variable_name"]
	question_text = matched_question["question_text"]

	if variable_name in crosstab_docs_by_variable:
	formatted_results[variable_name] = {
	"crosstab_docs": crosstab_docs_by_variable[variable_name],
	"question_text": question_text,
	"matched_question": matched_question
	}
	matched_variables.append(variable_name)

	if crosstab_docs_by_variable[variable_name]:
	first_doc = crosstab_docs_by_variable[variable_name][0]
	survey_name = first_doc.metadata.get("survey_name", "")
	all_namespaces.add(survey_name)

	return {
	"crosstab_docs_by_variable": formatted_results,
	"matched_questions": source_questions,
	"matched_variables": matched_variables,
	"namespace_used": list(all_namespaces),
	"survey_info": {"poll": "Vanderbilt_Unity_Poll", "year": None, "month": None}
	}