Cómo funciona una neurona artificial

Un rincón coordinado por Fꓤancisco Javier Яodríguez Amoяín
En una neurona artificial, tanto las entradas como la salida son números reales.
Para cálculos internos y representaciones numéricas, los modelos de inteligencia artificial utilizan números de punto flotante de precisión doble (64 bits), lo que significa que pueden manejar números con aproximadamente 15-17 dígitos decimales significativos.
Cada neurona toma múltiples valores de entrada (x₁, x₂, x₃,…) y los combina de la siguiente manera:
Suma ponderada de las entradas
Cada entrada xᵢ se multiplica por un peso wᵢ y se suma un sesgo b:
z = w₁x₁ + w₂x₂ + … + wₙxₙ + b
- Pesos (wᵢ): Indican la importancia de cada entrada. Un peso grande significa que la entrada correspondiente tiene una mayor influencia en la salida de la neurona.
- Sesgo (b): Permite a la neurona tener una salida diferente de cero incluso si todas las entradas son cero.
Aplicación de la función de activación
El valor z se pasa por una función de activación f(z), que introduce no linealidad y define la salida final de la neurona:
y = f(z)
- Función de activación (f(z)): Introduce no linealidad en el modelo, lo cual es crucial para que las redes neuronales puedan aprender patrones complejos en los datos. Algunas funciones de activación comunes son la sigmoide, la tangente hiperbólica (tanh) y la ReLU (Rectified Linear Unit).
Ejemplo numérico
Supongamos que una neurona tiene dos entradas:
- x₁ = 0.5
- x₂ = 0.8
Pesos:
- w₁ = 0.2
- w₂ = -0.4
Sesgo:
- b = 0.1
Función de activación: sigmoide
Cálculo de la suma ponderada
z = (0.5 × 0.2) + (0.8 × -0.4) + 0.1 = 0.1 – 0.32 + 0.1 = -0.12
Aplicamos la función sigmoide
y = f(z) = 1 / (1 + exp(-z)) ≈ 1 / (1 + exp(0.12)) ≈ 0.47
Si la red neuronal se usa para clasificar algo, como imágenes de dígitos, la salida puede interpretarse como una probabilidad de pertenecer a una determinada clase.
Neuronas Artificiales Modernas:
Aunque la idea central de una neurona artificial sigue siendo la misma (suma ponderada + función de activación), las redes neuronales actuales son mucho más avanzadas en términos de optimización, eficiencia y escalabilidad.
Los modelos modernos tienen millones de neuronas interconectadas en arquitecturas complejas, utilizan técnicas de optimización avanzadas y entrenan con terabytes de datos en supercomputadoras.
Arquitecturas de redes neuronales profundas
Los modelos de lenguaje basados en arquitecturas de redes neuronales profundas, específicamente en la familia de Transformers (GPT, DeepSeek y otros) tienen hasta 96 capas y un gran número de neuronas en cada capa (alrededor de 10,000 neuronas por capa en las versiones más grandes) con millones de parámetros, lo que les permite aprender representaciones complejas y hacer tareas como generación de texto, traducción, resumen, etc.
Aprendizaje en una red neuronal
El aprendizaje en una red neuronal implica ajustar los pesos y sesgos para minimizar los errores en las predicciones. Se usa un conjunto de entrenamiento para enseñar a la red, y un conjunto de prueba para evaluar su rendimiento.
El proceso de aprendizaje se basa en:
- Propagación hacia adelante: La entrada atraviesa la red capa por capa, produciendo una salida.
- Cálculo del error: Se mide la diferencia entre la salida predicha y la salida real.
- Retropropagación: Se ajustan los pesos y sesgos usando gradiente descendente, para reducir el error en futuras predicciones.
Ataques adversariales
Las redes neuronales son vulnerables a ataques adversariales porque dependen de patrones en los datos de entrada que pueden ser manipulados de formas que los humanos no perciben.
¿Por qué ocurre esto?
Las redes neuronales dependen de patrones sutiles en los datos de entrada. Los ataques adversariales explotan esto al encontrar pequeñas alteraciones que afectan significativamente la salida de la red. Al trabajar con miles o millones de parámetros, hay muchas maneras de manipular los datos sin que sea obvio para los humanos.
¿Cómo se crean estos ataques?
- Fast Gradient Sign Method (FGSM): Un método rápido que calcula el gradiente de la pérdida con respecto a la entrada y lo usa para modificar la imagen.
- Projected Gradient Descent (PGD): Similar al FGSM, pero iterativo, lo que lo hace más efectivo.
- Ataques con redes generativas adversariales (GANs): Redes diseñadas para generar ejemplos adversariales más sofisticados.
Para terminar un video de Nerea Luis, doctora en IA.
Comparte este artículo, tus amig@s lo agradecerán…
Mastodon: @LQSomos@nobigtech.es; Bluesky: LQSomos;
Telegram: LoQueSomosWeb; Twitter (X): @LQSomos;
Facebook: LoQueSomos; Instagram: LoQueSomos;