Cómo funciona una neurona artificial

Cómo funciona una neurona artificial

Un rincón coordinado por Fꓤancisco Javier Яodríguez Amoяín

En una neurona artificial, tanto las entradas como la salida son números reales.

Para cálculos internos y representaciones numéricas, los modelos de inteligencia artificial utilizan números de punto flotante de precisión doble (64 bits), lo que significa que pueden manejar números con aproximadamente 15-17 dígitos decimales significativos.

Cada neurona toma múltiples valores de entrada (x₁, x₂, x₃,…) y los combina de la siguiente manera:

Suma ponderada de las entradas

Cada entrada xᵢ se multiplica por un peso wᵢ y se suma un sesgo b:

z = w₁x₁ + w₂x₂ + … + wₙxₙ + b

  • Pesos (wᵢ): Indican la importancia de cada entrada. Un peso grande significa que la entrada correspondiente tiene una mayor influencia en la salida de la neurona.
  • Sesgo (b): Permite a la neurona tener una salida diferente de cero incluso si todas las entradas son cero.

Aplicación de la función de activación

El valor z se pasa por una función de activación f(z), que introduce no linealidad y define la salida final de la neurona:

y = f(z)

  • Función de activación (f(z)): Introduce no linealidad en el modelo, lo cual es crucial para que las redes neuronales puedan aprender patrones complejos en los datos. Algunas funciones de activación comunes son la sigmoide, la tangente hiperbólica (tanh) y la ReLU (Rectified Linear Unit).

Ejemplo numérico

Supongamos que una neurona tiene dos entradas:

  • x₁ = 0.5
  • x₂ = 0.8

Pesos:

  • w₁ = 0.2
  • w₂ = -0.4

Sesgo:

  • b = 0.1

Función de activación: sigmoide

Cálculo de la suma ponderada

z = (0.5 × 0.2) + (0.8 × -0.4) + 0.1 = 0.1 – 0.32 + 0.1 = -0.12

Aplicamos la función sigmoide

y = f(z) = 1 / (1 + exp(-z)) ≈ 1 / (1 + exp(0.12)) ≈ 0.47

Si la red neuronal se usa para clasificar algo, como imágenes de dígitos, la salida puede interpretarse como una probabilidad de pertenecer a una determinada clase.

Neuronas Artificiales Modernas:

Aunque la idea central de una neurona artificial sigue siendo la misma (suma ponderada + función de activación), las redes neuronales actuales son mucho más avanzadas en términos de optimización, eficiencia y escalabilidad.

Los modelos modernos tienen millones de neuronas interconectadas en arquitecturas complejas, utilizan técnicas de optimización avanzadas y entrenan con terabytes de datos en supercomputadoras.

Arquitecturas de redes neuronales profundas

Los modelos de lenguaje basados en arquitecturas de redes neuronales profundas, específicamente en la familia de Transformers (GPT, DeepSeek y otros) tienen hasta 96 capas y un gran número de neuronas en cada capa (alrededor de 10,000 neuronas por capa en las versiones más grandes) con millones de parámetros, lo que les permite aprender representaciones complejas y hacer tareas como generación de texto, traducción, resumen, etc.

Aprendizaje en una red neuronal

El aprendizaje en una red neuronal implica ajustar los pesos y sesgos para minimizar los errores en las predicciones. Se usa un conjunto de entrenamiento para enseñar a la red, y un conjunto de prueba para evaluar su rendimiento.

El proceso de aprendizaje se basa en:

  1. Propagación hacia adelante: La entrada atraviesa la red capa por capa, produciendo una salida.
  2. Cálculo del error: Se mide la diferencia entre la salida predicha y la salida real.
  3. Retropropagación: Se ajustan los pesos y sesgos usando gradiente descendente, para reducir el error en futuras predicciones.

Ataques adversariales

Las redes neuronales son vulnerables a ataques adversariales porque dependen de patrones en los datos de entrada que pueden ser manipulados de formas que los humanos no perciben.

¿Por qué ocurre esto?

Las redes neuronales dependen de patrones sutiles en los datos de entrada. Los ataques adversariales explotan esto al encontrar pequeñas alteraciones que afectan significativamente la salida de la red. Al trabajar con miles o millones de parámetros, hay muchas maneras de manipular los datos sin que sea obvio para los humanos.

¿Cómo se crean estos ataques?

  • Fast Gradient Sign Method (FGSM): Un método rápido que calcula el gradiente de la pérdida con respecto a la entrada y lo usa para modificar la imagen.
  • Projected Gradient Descent (PGD): Similar al FGSM, pero iterativo, lo que lo hace más efectivo.
  • Ataques con redes generativas adversariales (GANs): Redes diseñadas para generar ejemplos adversariales más sofisticados.

Para terminar un video de Nerea Luis, doctora en IA.

Píldora ¿Roja o Azul?

Comparte este artículo, tus amig@s lo agradecerán…
Mastodon: @LQSomos@nobigtech.es; Bluesky: LQSomos;
Telegram: LoQueSomosWeb; Twitter (X): @LQSomos;
Facebook: LoQueSomos; Instagram: LoQueSomos;

FꓤANCISCO JAVIER ЯODRÍGUEZ AMOЯÍN

https://rodriguezamorin.blogspot.com/

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

Nos obligan a molestarte con las "galletitas informáticas". Si continuas utilizando este sitio aceptas el uso de cookies. más información

Los ajustes de cookies de esta web están configurados para "permitir cookies" y así ofrecerte la mejor experiencia de navegación posible. Si sigues utilizando esta web sin cambiar tus ajustes de cookies o haces clic en "Aceptar" estarás dando tu consentimiento a esto.

Cerrar