import numpy as np
from sklearn.datasets import fetch_openml
from sklearn.model_selection import train_test_split

mnist = fetch_openml("mnist_784")
X, y = mnist.data, mnist.target.astype(int)

# Separar en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

X_train = X_train.values
X_test = X_test.values

# Normalizar datos
X_train = X_train / 255.0
X_test  = X_test  / 255.0

# dimensiones de los conjuntos
print(X_train.shape, y_train.shape)
print(X_test.shape, y_test.shape)

(56000, 784) (56000,)
(14000, 784) (14000,)

def one_hot(a):
    b = np.zeros((a.size, a.max() + 1))
    b[np.arange(a.size), a] = 1
    return b

y_train = one_hot(y_train)

def phi(x):
    return 1 / (1 + np.exp(-x))

def softmax(x):
    return np.exp(x)/np.sum(np.exp(x), axis=1).reshape(-1, 1)

input_size = X_train.shape[1]
hidden_size = 64
output_size = 10

W_1 = np.random.randn(input_size, hidden_size,)
b_1 = np.zeros((1, hidden_size))
W_2 = np.random.randn(hidden_size,output_size,)
b_2 = np.zeros((1,output_size))

learning_rate = 1e-4
epochs = 100
batch_size = 32

adamw = True #habilita la actualización de parámetros con ADAMW

weight_decay = 0.01
beta_1 = 0.9
beta_2 = 0.999
e = 1e-9

def batchify(x, y, batch_size):
    samples = x.shape[0]
    rand_idcs = np.random.shuffle(list(range(samples)))
    rand_x = x[rand_idcs]
    rand_y = y[rand_idcs]
    split_idcs = list(range(batch_size, samples, batch_size))
    return zip(
        np.split(x, split_idcs),
        np.split(y, split_idcs)
    )

#------------------------
#Inicialización de ADAMW. 
mb1 = np.zeros_like(b_1)
vb1 = np.zeros_like(b_1)

mW1 = np.zeros_like(W_1)
vW1 = np.zeros_like(W_1)

mb2 = np.zeros_like(b_2)
vb2 = np.zeros_like(b_2)

mW2 = np.zeros_like(W_2)
vW2 = np.zeros_like(W_2)
#Fin de inicialización de ADAMW
#------------------------

Losses=[]
for epoch in range(1, epochs + 1):
    loss = 0
    for y_0, y in batchify(X_train, y_train, 32):
        # Propagación hacia adelante, Eqs. (1)
        z_1 = y_0 @ W_1 + b_1
        y_1 = phi(z_1)
        z_2 = y_1 @ W_2 + b_2
        y_2 = softmax(z_2)
    
        # Evaluar la pérdida
        loss += -np.sum(y * np.log(y_2))/len(X_train)
    
        # Backpropagation
        delta_2 = y_2-y
        delta_1 = np.dot(delta_2, W_2.T) * (y_1*(1-y_1))
        grad_W2 = np.dot(y_1.T, delta_2)
        grad_b2 = np.sum(delta_2, axis=0)[0]
        grad_W1 = np.dot(y_0.T, delta_1)
        grad_b1 = np.sum(delta_1, axis=0)[0]

        #--------------------------
        # Actualización de momentos de ADAMW.
        beta_1_t = beta_1**epoch
        beta_2_t = beta_2**epoch

        mW2 = beta_1*mW2 + (1 - beta_1)*grad_W2
        vW2 = beta_2*vW2 + (1 - beta_2)*grad_W2**2
        hat_mW2 = mW2/(1 - beta_1_t)
        hat_vW2 = vW2/(1 - beta_2_t)

        mb2 = beta_1*mb2 + (1 - beta_1)*grad_b2
        vb2 = beta_2*vb2 + (1 - beta_2)*grad_b2**2
        hat_mb2 = mb2/(1 - beta_1_t**epoch)
        hat_vb2 = vb2/(1 - beta_2_t**epoch)

        mW1 = beta_1*mW1 + (1 - beta_1)*grad_W1
        vW1 = beta_2*vW1 + (1 - beta_2)*grad_W1**2
        hat_mW1 = mW1/(1 - beta_1_t)
        hat_vW1 = vW1/(1 - beta_2_t)

        mb1 = beta_1*mb1 + (1 - beta_1)*grad_b1
        vb1 = beta_2*vb1 + (1 - beta_2)*grad_b1**2
        hat_mb1 = mb1/(1 - beta_1_t)
        hat_vb1 = vb1/(1 - beta_2_t)
        #--------------------------
    
        # Paso de descenso de gradiente
        if adamw:
            #----------------------------
            #Ajuste de parámetros con ADAMW. Código añadido
            W_2 -= learning_rate*weight_decay*W_2
            W_2 -= learning_rate*hat_mW2/(hat_vW2**0.5 + e)
            
            b_2 -= learning_rate*weight_decay*b_2
            b_2 -= learning_rate*hat_mb2/(hat_vb2**0.5 + e)

            W_1 -= learning_rate*weight_decay*W_1
            W_1 -= learning_rate*hat_mW1/(hat_vW1**0.5 + e)

            b_1 -= learning_rate*weight_decay*b_1
            b_1 -= learning_rate*hat_mb1/(hat_vb1**0.5 + e)
            #Fin de ajuste de parámetros con ADAMW
            #-----------------------------
        else:
            W_2 -= learning_rate * grad_W2
            b_2 -= learning_rate * grad_b2
            W_1 -= learning_rate * grad_W1
            b_1 -= learning_rate * grad_b1
        
    # Reporta avence cada 10 épocas
    if epoch % 10 == 0:
        print(f"Epoch {epoch}, Loss: {loss}")
    Losses.append([epoch,loss])
    
Losses = np.array(Losses)

Epoch 10, Loss: 1.2785014435881914
Epoch 20, Loss: 0.8429631069268259
Epoch 30, Loss: 0.6443507566618546
Epoch 40, Loss: 0.5257638618139021
Epoch 50, Loss: 0.4462716784121067
Epoch 60, Loss: 0.38888704286060727
Epoch 70, Loss: 0.3450194603053407
Epoch 80, Loss: 0.31020563474546536
Epoch 90, Loss: 0.2816816286106931
Epoch 100, Loss: 0.25778044648477133

import matplotlib.pyplot as plt

plt.figure(figsize=(10,3))
plt.loglog(Losses[:,0],Losses[:,1])
plt.title('Evolución de la pérdida durante entrenamiento')
plt.grid(True, which="both")
plt.ylabel("Pérdida o Costo")
plt.xlabel("Época")
plt.show()

z_1 = X_test @ W_1 + b_1
y_1 = phi(z_1)
z_2 = y_1 @ W_2 + b_2
y_2 = softmax(z_2)

# Convierte predicciones a probabilidades 
predictions = np.argmax(y_2, axis=1)
y_test      = np.array(y_test)

# Calcula Exactitud: porcentaje de clasificaciones correctas
accuracy = np.mean(predictions == y_test)
print(f"Exactitud de Prueba (Test accuracy): {accuracy * 100}%")

Exactitud de Prueba (Test accuracy): 91.43571428571428%

Derivación del gradiente para entrenar un perceptrón multicapa

Introducción¶

Red Neuronal poco profunda para la clasificación de dígitos escritos a mano.¶

Descenso de gradiente¶

Cálculo de los gradientes¶

Implementación en código¶

Cargar la base de datos MNIST¶

Codificación One-hot¶

Funciones de activación¶

Inicializar pesos y biases¶

Parámetros de entrenamiento¶

Ciclo de entrenamiento¶

Prueba¶

Conclusiones y trabajo futuro¶

Contact