Semana 11: Funciones de activación y de pérdida en Pytorch

25 de agosto del 2020

Notas realizadas por Jorge García Flores sobre el curso/cover que Iván Vladimir Meza hizo sobre un tema original de Yann LeCun y Alfredo Canziani en la primavera-verano del 2020

Función no lineal que nos permite transformar una suma de puntajes con pesos en una “neurona”

Fuente: Diapositivas 00 - Logic neurons.pdf de Alfredo Canziani

Función rectificadora (ReLU)
Rectificador aleatorio (RReLU)
Rectificador permeable (Leaky ReLU)

Características:

Poco sensibles a la escala (“puedes multiplicar la señal por 2 y la salida refleja exactamente la multipicación por 2: la escala no cambia el comportamiento de la función”)
Sirven para redes con pocas capas (“skinny networks”)

El valor negativo se multiplica por un parámetro a que se puede aprender

"La a puede variar de acuerdo a cada canal de entrada"

Aproximación derivable de ReLU.

Repaso: sobre derivabilidad (“sin derivabilidad no hay gradiente”)

"la identidad para los valores positivos y asintóticamente cero para los valores negativos"

- Esta función es más sensible a la escala que las funciones quebradas (de la familia ReLU). Aplicar una escala (por ejemplo, a nivel de una capa) puede modific el comportamiento de la salida.

"El algoritmo de gradiente puede converger más rápido con puntajes positivos y negativos con respecto a arquitecturas con puros puntajes positivos"
"Los valores negativos permiten que el promedio sea , lo cual puede hacer que el algoritmo de gradiente converja más rápido"

"Si acumulas las capas de sigmoides en tu red. ésta no va a aprender de manera eficiente [...] en este caso debes poner mucha atención a la normalización"

"Para redes muy profundas, las funciones no lineales quebradas [como el rectificador] son más convenientes"

"Un problema con la tangente hiperbólica o la función sigmoide es que cuando te acercas a la asíntota, el gradiente se va a 0 demasiado rápido y si los pesos de una determinada neurona son muy grandes, la saturan... el valor del gradiente se desploma y la neurona no aprende rápido... Softsign intenta resolver este problema."

Función de umbral en la primera neurona artificial

"No se puede propagar gradiente ahí: por culpa de esta función no se inventó la retropropagación en la década de 1960 o incluso 1970"

Rara vez utilizada, salvo en el marco de sparse coding (aquí una definición y acá un artículo de divulgación) al respecto.

¿Se puede definir sparse coding como la “activación de una cantidad mínima de neuronas”?

¿Qué es el polinomio de Chebyshev?
"funciones no lineales parametrizables con polinomios de Chebyshev para aproximar bien la función"

- En un marco de aprendizaje profundo geométrico, el polinomio de Chebysev, se puede usar para aproximar una función cuya complejidad representa un obstáculo para su cálculo.
¿Qué son los spring parameters?
Funciones monótonas (o isótonas)
Momento lexicográfico: ¿cómo traducimos kink?