25 de agosto del 2020
Notas realizadas por Jorge García Flores sobre el curso/cover que Iván Vladimir Meza hizo sobre un tema original de Yann LeCun y Alfredo Canziani en la primavera-verano del 2020
Función no lineal que nos permite transformar una suma de puntajes con pesos en una “neurona”
Fuente: Diapositivas 00 - Logic neurons.pdf de Alfredo Canziani
Características:
El valor negativo se multiplica por un parámetro a que se puede aprender
"La a puede variar de acuerdo a cada canal de entrada"
Aproximación derivable de ReLU.
Repaso: sobre derivabilidad (“sin derivabilidad no hay gradiente”)
"la identidad para los valores positivos y asintóticamente cero para los valores negativos"
- Esta función es más sensible a la escala que las funciones quebradas (de la familia ReLU). Aplicar una escala (por ejemplo, a nivel de una capa) puede modific el comportamiento de la salida.
"El algoritmo de gradiente puede converger más rápido con puntajes positivos y negativos con respecto a arquitecturas con puros puntajes positivos"
"Los valores negativos permiten que el promedio sea , lo cual puede hacer que el algoritmo de gradiente converja más rápido"
"Si acumulas las capas de sigmoides en tu red. ésta no va a aprender de manera eficiente [...] en este caso debes poner mucha atención a la normalización"
"Para redes muy profundas, las funciones no lineales quebradas [como el rectificador] son más convenientes"
"Un problema con la tangente hiperbólica o la función sigmoide es que cuando te acercas a la asíntota, el gradiente se va a 0 demasiado rápido y si los pesos de una determinada neurona son muy grandes, la saturan... el valor del gradiente se desploma y la neurona no aprende rápido... Softsign intenta resolver este problema."
"No se puede propagar gradiente ahí: por culpa de esta función no se inventó la retropropagación en la década de 1960 o incluso 1970"
Rara vez utilizada, salvo en el marco de sparse coding (aquí una definición y acá un artículo de divulgación) al respecto.
"funciones no lineales parametrizables con polinomios de Chebyshev para aproximar bien la función"
- En un marco de aprendizaje profundo geométrico, el polinomio de Chebysev, se puede usar para aproximar una función cuya complejidad representa un obstáculo para su cálculo.
### Perdida binaria por entropía cruzada