Porque sería carísimo computacionalmente y perdería información local.
Las convoluciones permiten analizar la imagen por zonas pequeñas, detectando patrones locales.
“Porque las CNN aprenden patrones locales primero —bordes, curvas— y luego los combinan.”
Tú, el diseñador de la red.
El algoritmo no elige automáticamente.
“La arquitectura la diseña el humano; los pesos los aprende la red.”
Es una pequeña matriz (3×3, 5×5, etc.) cuyos valores la red aprende.
“Un filtro es un detector de patrones que la red aprende sola.”
Porque es simple, computacionalmente eficiente y reduce problemas de gradientes.
“Porque es rápida, estable y funciona muy bien en redes profundas.”
No.
Pooling NO tiene pesos y NO usa activación.
“No, pooling solo resume la información. No aprende nada.”
Porque las capas densas solo trabajan con vectores, no con mapas espaciales.
“Flatten convierte las características detectadas en una lista que la red puede clasificar.”
Sí.
No necesitan RGB.
Pueden recibir 1, 3, 4 o muchos canales.
“Sí, solo necesitan un tensor. El número de canales da igual.”
No lo sabe.
Empieza con filtros aleatorios y aprende a través del gradiente qué filtros producen menor error.
“La red inventa los filtros que mejor reducen el error.”
3×3 es suficientemente pequeño para capturar detalles y suficientemente grande para ser expresivo. Es estándar moderno.
“3×3 es un buen equilibrio entre detalle y eficiencia.”
-
Más filtros → más capacidad, más cómputo, más riesgo de overfitting.
-
Menos filtros → menos capacidad, más rápido, pero puede aprender menos.
“Más filtros = más capacidad, pero más riesgo; menos filtros = más simple pero menos potente.”
No.
Ve matrices, intensidades, contrastes y patrones matemáticos.
“No ve objetos: ve patrones. La interpretación es emergente.”
Sí, siempre.
Normalizar ayuda al gradiente y evita problemas numéricos.
“Sí, siempre normalizamos. Le facilita la vida al algoritmo.”
El modelo aprende:
- pesos
- bias
- filtros
Pero TÚ defines:
- arquitectura
- learning rate
- optimizador
- capas
- tamaño de kernel
- funciones de activación
“El modelo aprende parámetros; tú defines la estructura.”
Porque las primeras detectan patrones simples y las siguientes combinan esos patrones en estructuras más complejas.
“Primero detecta bordes, luego formas, luego partes, luego objetos.”
Es la versión filtrada de la imagen, donde se destacan patrones específicos.
“Es la imagen transformada después de aplicar un filtro.”
- Stride: cuántos pixeles avanza el filtro.
- Padding: agregar bordes para no perder información.
“Stride es el paso; padding es el borde.”
Porque respetan la estructura 2D y reutilizan pesos (convoluciones), reduciendo parámetros y aprendiendo patrones espaciales.
“Porque entienden espacio. Los MLP destruyen la estructura de la imagen.”
Aprende filtros que detectan patrones útiles:
- bordes
- curvas
- texturas
- formas
- partes de objetos
No aprende “qué es un gato”, aprende las características que distinguen un gato.
“No aprende objetos: aprende patrones.”