Différences
Ci-dessous, les différences entre deux révisions de la page.
Les deux révisions précédentes Révision précédente Prochaine révision | Révision précédente | ||
equipes:rcln:ancien_wiki:mexique:week11 [2020/08/25 17:32] garciaflores [Repaso: ¿Qué es una función de activación?] |
equipes:rcln:ancien_wiki:mexique:week11 [2020/11/23 18:42] (Version actuelle) garciaflores ↷ Page déplacée de equipes:rcln:mexique:week11 à equipes:rcln:ancien_wiki:mexique:week11 |
||
---|---|---|---|
Ligne 14: | Ligne 14: | ||
{{: | {{: | ||
+ | Fuente: [Diapositivas 00 - Logic neurons.pdf de Alfredo Canziani](https:// | ||
+ | |||
+ | ### Rectificadores | ||
+ | |||
+ | - Función rectificadora (ReLU) | ||
+ | - Rectificador aleatorio (RReLU) | ||
+ | - Rectificador permeable (Leaky ReLU) | ||
+ | |||
+ | Características: | ||
+ | |||
+ | 1. Poco sensibles a la escala (" | ||
+ | 2. Sirven para redes con pocas capas (" | ||
+ | |||
+ | ### PReLU | ||
+ | |||
+ | El valor negativo se multiplica por un parámetro *a* que se puede aprender | ||
+ | |||
+ | > "La a puede variar de acuerdo a cada canal de entrada" | ||
+ | |||
+ | |||
+ | ### Softplus | ||
+ | |||
+ | Aproximación derivable de ReLU. | ||
+ | |||
+ | Repaso: [sobre derivabilidad](https:// | ||
+ | |||
+ | > "la identidad para los valores positivos y asintóticamente cero para los valores negativos" | ||
+ | |||
+ | |||
+ | - Esta función es más sensible a la escala que las funciones quebradas (de la familia ReLU). Aplicar una escala (por ejemplo, a nivel de una capa) puede modific el comportamiento de la salida. | ||
+ | |||
+ | |||
+ | |||
+ | ### ELU | ||
+ | |||
+ | > "El algoritmo de gradiente puede converger más rápido con puntajes positivos y negativos con respecto a arquitecturas con puros puntajes positivos" | ||
+ | > | ||
+ | > "Los valores negativos permiten que el promedio sea , lo cual puede hacer que el algoritmo de gradiente converja más rápido" | ||
+ | |||
+ | |||
+ | ### Función sigmoide | ||
+ | |||
+ | > "Si acumulas las capas de sigmoides en tu red. ésta no va a aprender de manera eficiente [...] en este caso debes poner mucha atención a la normalización" | ||
+ | |||
+ | |||
+ | > "Para redes muy profundas, las funciones no lineales quebradas [como el rectificador] son más convenientes" | ||
+ | |||
+ | |||
+ | ### Softsign | ||
+ | |||
+ | > "Un problema con la tangente hiperbólica o la función sigmoide es que cuando te acercas a la asíntota, el gradiente se va a 0 demasiado rápido y si los pesos de una determinada neurona son muy grandes, la saturan... el valor del gradiente se desploma y la neurona no aprende rápido... Softsign intenta resolver este problema." | ||
+ | |||
+ | |||
+ | ### Función de umbral | ||
+ | |||
+ | - [Función de umbral en la primera neurona artificial](https:// | ||
+ | |||
+ | > "No se puede propagar gradiente ahí: por culpa de esta función no se inventó la retropropagación en la década de 1960 o incluso 1970" | ||
+ | |||
+ | |||
+ | |||
+ | ### Hardshrink | ||
+ | |||
+ | Rara vez utilizada, salvo en el marco de *sparse coding (aquí una [definición](http:// | ||
+ | |||
+ | - ¿Se puede definir *sparse coding* como la " | ||
+ | |||
+ | |||
+ | ### Preguntas y respuestas | ||
+ | |||
+ | - ¿Qué es el [polinomio de Chebyshev](https:// | ||
+ | |||
+ | > " | ||
+ | |||
+ | | ||
+ | - En un marco de [aprendizaje profundo geométrico](https:// | ||
+ | |||
+ | - ¿Qué son los *spring parameters*? | ||
+ | |||
+ | |||
+ | - [Funciones monótonas](http:// | ||
+ | |||
+ | - Momento lexicográfico: | ||
+ | |||
+ | |||
+ | |||
+ | {{: | ||
+ | |||
+ | {{: | ||
+ | |||
+ | - ¿[Es la normalización por lotes incompatible con la función sigmoide](https:// | ||
+ | |||
+ | - [Softmax y temperatura](https:// | ||
+ | |||
+ | |||
+ | |||
+ | ## II. Funciones de pérdida | ||
+ | |||
+ | {{: | ||
+ | |||
+ | Fuente[[https:// | ||
+ | |||
+ | ### Función de pérdida L1 | ||
+ | |||
+ | - Valor absoluto de la diferencia entre el valor obtenido y el valor objetivo (o deseado) | ||
+ | - [No es derivable en x=0](https:// | ||
+ | |||
+ | |||
+ | ### Función de verosimilitud negativa | ||
+ | |||
+ | - [Paráfrasis verbal de la función](https:// | ||
+ | |||
+ | - Balanceando juegos de datos desbalanceados con Yann: | ||
+ | |||
+ | {{: | ||
+ | |||
+ | ### Pérdida por entropía cruzada | ||
+ | |||
+ | - Repaso de la [función de entropía cruzada](https:// | ||
+ | - Sobre [la divergencia Kullback-Leibler](https:// | ||
+ | |||
+ | ### Perdida binaria por entropía cruzada | ||
+ | |||
+ | {{: | ||
+ | |||
+ | {{: | ||
+ | |||
+ | ### Pérdida por divergencia KL | ||
+ | |||
+ | {{: | ||
+ | |||
+ | ### Pérdida por inmersión de coseno (*CosineEmbeddingLoss*) | ||
+ | |||
+ | - Repaso de la [similaridad por coseno](https:// | ||
+ | |||
+ | ### Pérdida por clasificación temporal conexionista (CTC) | ||
+ | |||
+ | {{: | ||
+ | |||
+ | {{: | ||
+ | |||
+ | {{: | ||
+ | |||
+ | {{: | ||
+ | |||
+ | **Vínculo hacia el [artículo](https:// |