Has construido modelos, entrenado redes neuronales y ajustado hiperparámetros. Conoces scikit-learn, TensorFlow y PyTorch.
Pero cuando el entrevistador pregunta: "¿Cómo manejarías el desbalance de clases en un sistema de detección de fraude en producción?" o "Explica matemáticamente el tradeoff sesgo-varianza."
De repente, toda esa experiencia práctica no se traduce en respuestas claras y confiadas.
Esta guía te da 60+ preguntas reales de entrevistas de machine learning hechas en Google, Meta, Amazon y startups top de IA.
Qué Evalúan las Entrevistas de ML
- Fundamentos: Algoritmos, matemáticas, estadística
- Experiencia práctica: Resolución de problemas del mundo real
- Diseño de sistemas: Sistemas ML en producción a escala
- Código: Implementar algoritmos desde cero
- Comunicación: Explicar conceptos complejos simplemente
Preguntas de Fundamentos de ML
1. Explica el tradeoff sesgo-varianza
Sesgo mide qué tan lejos están las predicciones de los valores verdaderos en promedio. Alto sesgo = underfitting.
Varianza mide cuánto cambian las predicciones con diferentes datos de entrenamiento. Alta varianza = overfitting.
Error Total = Sesgo² + Varianza + Error Irreducible
En la práctica:
- Aumentar complejidad → reduce sesgo, aumenta varianza
- Agregar regularización → reduce varianza, puede aumentar sesgo
- Más datos de entrenamiento → reduce varianza sin afectar sesgo
2. ¿Qué es la regularización y por qué la usamos?
La regularización agrega un término de penalización a la función de pérdida para prevenir overfitting.
Regularización L1 (Lasso):
- Produce soluciones dispersas (algunos pesos se vuelven exactamente 0)
- Buena para selección de características
Regularización L2 (Ridge):
- Encoge pesos hacia cero pero raramente exactamente cero
- Maneja mejor características correlacionadas
En redes neuronales:
- Dropout: Pone aleatoriamente neuronas en cero durante entrenamiento
- Early stopping: Detiene el entrenamiento cuando la pérdida de validación aumenta
3. ¿Cómo manejas datasets desbalanceados?
Enfoques a nivel de datos:
- Sobremuestreo de clase minoritaria (SMOTE)
- Submuestreo de clase mayoritaria
- Aumento de datos
Enfoques a nivel de algoritmo:
- Pesos de clase
- Aprendizaje sensible al costo
- Enmarcarlo como detección de anomalías
Evaluación:
- ¡No uses accuracy! Usa:
- Precision, Recall, F1-score
- PR-AUC (mejor que ROC-AUC para datos desbalanceados)
4. ¿Cuál es la diferencia entre bagging y boosting?
Bagging:
- Entrena modelos en muestras bootstrap en paralelo
- Combina promediando o votando
- Reduce varianza
- Ejemplo: Random Forest
Boosting:
- Entrena modelos secuencialmente, cada uno corrigiendo errores anteriores
- Reduce sesgo
- Ejemplos: AdaBoost, Gradient Boosting, XGBoost
Preguntas de Deep Learning
5. Explica backpropagation matemáticamente
Backpropagation calcula gradientes de la pérdida respecto a cada peso usando la regla de la cadena.
Insight clave: Los gradientes fluyen hacia atrás, multiplicándose en cada capa. Por eso:
- Gradientes que desaparecen: Sigmoid/tanh comprimen gradientes → usa ReLU
- Gradientes explosivos: Los gradientes se componen → usa gradient clipping
6. ¿Por qué usamos funciones de activación?
Sin funciones de activación: Red neuronal = transformación lineal, sin importar la profundidad.
| Función | Pros | Contras |
|---|---|---|
| ReLU | Rápida, sin gradiente que desaparece | Neuronas muertas |
| Leaky ReLU | Previene neuronas muertas | Gradiente pequeño para negativos |
| GELU | Mejor para transformers | Compleja |
| Sigmoid | Salida [0,1] | Gradiente que desaparece |
7. Explica el mecanismo de atención y transformers
Atención permite al modelo enfocarse en partes relevantes de la entrada:
Attention(Q, K, V) = softmax(QKᵀ / √dₖ) V
- Q (Query): Lo que estamos buscando
- K (Key): Contra qué emparejamos
- V (Value): Lo que recuperamos
Por qué funcionan los transformers:
- Procesamiento paralelo: Sin dependencia secuencial como RNNs
- Dependencias de largo alcance: Atención conecta cualquier dos posiciones directamente
- Escalabilidad: Pueden entrenarse en datasets masivos
Diseño de Sistemas para ML
8. Diseña un sistema de recomendación para e-commerce
Arquitectura de alto nivel:
Usuario → Feature Store → Generación de Candidatos → Ranking → Re-ranking → Resultados
Componentes:
-
Generación de Candidatos (Recall):
- Filtrado colaborativo
- Basado en contenido
- Ítems populares (cold start)
-
Ranking (Precisión):
- Modelo más complejo (GBM, DNN)
- Optimiza para probabilidad de click/compra
-
Re-ranking:
- Diversidad
- Reglas de negocio
- Restricciones de fairness
9. Diseña un sistema de detección de fraude
Requisitos:
- Tiempo real (< 100ms latencia)
- Alta precisión (minimizar falsos positivos)
- Patrones de fraude evolucionando
Features:
- Features de transacción
- Features agregadas
- Features de grafo
- Features comportamentales
Manejando desbalance:
- Pesos de clase
- Enmarcarlo como detección de anomalías
- Aprendizaje sensible al costo
Desafíos de Código
10. Implementa regresión logística desde cero
class LogisticRegression:
def __init__(self, lr=0.01, n_iters=1000):
self.lr = lr
self.n_iters = n_iters
def _sigmoid(self, z):
return 1 / (1 + np.exp(-np.clip(z, -500, 500)))
def fit(self, X, y):
n_samples, n_features = X.shape
self.weights = np.zeros(n_features)
self.bias = 0
for _ in range(self.n_iters):
z = np.dot(X, self.weights) + self.bias
predictions = self._sigmoid(z)
dw = (1/n_samples) * np.dot(X.T, (predictions - y))
db = (1/n_samples) * np.sum(predictions - y)
self.weights -= self.lr * dw
self.bias -= self.lr * db
def predict(self, X, threshold=0.5):
return (self._sigmoid(np.dot(X, self.weights) + self.bias) >= threshold).astype(int)
Practica Entrevistas ML con IA
Leer preguntas es el paso uno. Articular respuestas claramente es lo que te consigue el trabajo.
Interview Whisper te permite:
- Practicar explicando conceptos de ML a un entrevistador IA
- Obtener feedback sobre claridad y completitud
- Cubrir preguntas teóricas Y prácticas
- Construir confianza antes de la entrevista real
Empieza a Practicar Preguntas de Entrevista ML con IA
Artículos Relacionados
- Guía de Entrevistas de Diseño de Sistemas
- Preparación para Entrevistas FAANG 2026
- 10 Patrones Esenciales de Algoritmos
- Método STAR para Entrevistas
La diferencia entre leer sobre ML y dominar entrevistas ML es práctica. Empieza a articular estas respuestas hoy.