Conceptes Clau de Deep Learning: De Perceptrons a MLP
Clasificado en Informática
Escrito el en
catalán con un tamaño de 3,69 KB
Miscel·lània
- Embedding: Representació intermèdia nova de dades en un espai més útil. Es recodifiquen per facilitar-ne l'ús.
- Metric learning: Verificació facial; compara la similitud entre cares, no només assigna classes fixes.
- Transfer learning: Reutilitza una representació en una tasca semblant, congelant parts o utilitzant una tasca similar preentrenada.
- Feature extraction: S'utilitza si la tasca nova és similar però es disposa de poques dades.
Introducció a les NN
- Perceptró: Combinació lineal d'entrades, afegeix biaix i funció d'activació. Només resol problemes linealment separables; ho evitem afegint capes ocultes i funcions d'activació no lineals. Pot ser regressió lineal o logística (sigmoide) segons la funció d'activació.
- Hidden layers (Capes ocultes): Aprenen representacions internes útils per resoldre la tasca. Moltes capes sense regularització provoquen overfitting. Amb una sola capa no lineal ja es deixa de tenir un model lineal. Moltes capes aprenen representacions complexes i jeràrquiques.
- Biaix (Bias): Resol la frontera de decisió.
- Funció d'activació: Introdueix no linealitat al model.
- Softmax: Converteix un vector de logits en probabilitats (total = 1), per a classificació multiclasse excloent.
- Sigmoide: Per a classificació binària i multilabel.
- ReLU: Funció d'activació estàndard.
- Teorema d'aproximació universal: Una xarxa neuronal pot aproximar funcions contínues, sense fixar una amplada concreta.
- Feed-forward: No té cicles, totes les connexions van endavant. Si té més d'una capa oculta, és deep.
- Recurrent (RNN): Conté cicles.
MLP i Backpropagation
- Funció d'activació: Aplicada a la sortida lineal d'una neurona, modela relacions no lineals.
- CNN vs. MLP: Les CNN utilitzen convolucions i estructura espacial, mentre que les MLP són FC (Fully Connected): cada neurona d'una capa connecta amb totes les de la següent; cada connexió té un pes propi, no compartit.
- Backward pass: Aplica la regla de la cadena a partir dels valors del forward pass per a diferents operacions.
- Backpropagation: Calcula i guarda el gradient; depèn del forward i de les dependències seqüencials entre capes. L'optimitzador s'encarrega de l'actualització dels paràmetres.
- ReLU: Redueix el problema del vanishing gradient de la sigmoide, ja que amb valors positius la derivada és constant, evitant la saturació.
- Matriu de pesos: Cada pes connecta una neurona de la capa anterior amb una de l'actual.
- Jerarquia: Les primeres capes aprenen característiques simples, mentre que les profundes aprenen característiques més complexes i abstractes.
- Graf computacional: Representació de les operacions i dependències. Per calcular gradients: dins d'una ruta es multipliquen, i en diverses rutes se sumen les contribucions.
- Derivades: La derivada local és d'una operació concreta, mentre que la global representa l'efecte total.
- N paràmetres FC: Es calcula com (inputs * sortides) + biaixos.