Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
equipes:rcln:ancien_wiki:mexique:week11 [2020/08/25 17:32]
garciaflores [Repaso: ¿Qué es una función de activación?]
equipes:rcln:ancien_wiki:mexique:week11 [2020/11/23 18:42] (Version actuelle)
garciaflores ↷ Page déplacée de equipes:rcln:mexique:week11 à equipes:rcln:ancien_wiki:mexique:week11
Ligne 14: Ligne 14:
 {{:equipes:rcln:mexique:image-20200824234214256.png?600|}} {{:equipes:rcln:mexique:image-20200824234214256.png?600|}}
  
 +Fuente: [Diapositivas 00 - Logic neurons.pdf de Alfredo Canziani](https://github.com/Atcold/pytorch-Deep-Learning/blob/master/slides/00%20-%20Logic%20neurons.pdf)
 +
 +### Rectificadores
 +
 +- Función rectificadora (ReLU)
 +- Rectificador aleatorio (RReLU)
 +- Rectificador permeable (Leaky ReLU)
 +
 +Características:
 +
 +1. Poco sensibles a la escala ("puedes multiplicar la señal por 2 y la salida refleja exactamente la multipicación por 2: la escala no cambia el comportamiento de la función")
 +2. Sirven para redes con pocas capas ("*skinny networks*")
 +
 +### PReLU
 +
 +El valor negativo se multiplica por un parámetro *a* que se puede aprender
 +
 +> "La a puede variar de acuerdo a cada canal de entrada"
 +
 +
 +### Softplus
 +
 +Aproximación derivable de ReLU. 
 +
 +Repaso: [sobre derivabilidad](https://en.wikipedia.org/wiki/Differentiable_function) ("sin derivabilidad no hay gradiente"
 +
 +> "la identidad para los valores positivos y asintóticamente cero para los valores negativos"
 +
 +
 +- Esta función es más sensible a la escala que las funciones quebradas (de la familia ReLU). Aplicar una escala (por ejemplo, a nivel de una capa) puede modific el comportamiento de la salida. 
 +
 +
 +
 +### ELU
 +
 +> "El algoritmo de gradiente puede converger más rápido con puntajes positivos y negativos con respecto a arquitecturas con puros puntajes positivos"
 +>
 +> "Los valores negativos permiten que el promedio sea , lo cual puede hacer que el algoritmo de gradiente converja más rápido"
 +
 +
 +### Función sigmoide
 +
 +> "Si acumulas las capas de sigmoides en tu red. ésta no va a aprender de manera eficiente [...] en este caso debes poner mucha atención a la normalización"
 +
 +
 +> "Para redes muy profundas, las funciones no lineales quebradas [como el rectificador] son más convenientes"
 +
 +
 +### Softsign
 +
 +> "Un problema con la tangente hiperbólica o la función sigmoide es que cuando te acercas a la asíntota, el gradiente se va a 0 demasiado rápido y si los pesos de una determinada neurona son muy grandes, la saturan... el valor del gradiente se desploma y la neurona no aprende rápido... Softsign intenta resolver este problema."
 +
 +
 +### Función de umbral 
 +
 +- [Función de umbral en la primera neurona artificial](https://de.wikipedia.org/wiki/K%C3%BCnstliches_Neuron)
 +
 +> "No se puede propagar gradiente ahí: por culpa de esta función no se inventó la retropropagación en la década de 1960 o incluso 1970"
 +
 +
 +
 +### Hardshrink
 +
 +Rara vez utilizada, salvo en el marco de *sparse coding (aquí una [definición](http://www.scholarpedia.org/article/Sparse_coding) y acá un [artículo de divulgación](https://www.sciencedirect.com/topics/engineering/sparse-coding))* al respecto.
 +
 +- ¿Se puede definir *sparse coding* como la "activación de una cantidad mínima de neuronas"?
 +
 +
 +### Preguntas y respuestas
 +
 +- ¿Qué es el [polinomio de Chebyshev](https://en.wikipedia.org/wiki/Chebyshev_polynomials)?
 +
 + > "funciones no lineales parametrizables con polinomios de Chebyshev para aproximar bien la función"
 +
 +  
 +- En un marco de [aprendizaje profundo geométrico](https://medium.com/@flawnsontong1/what-is-geometric-deep-learning-b2adb662d91d), el polinomio de Chebysev, se puede usar para [aproximar una función cuya complejidad representa un obstáculo para su cálculo](https://towardsdatascience.com/geometric-deep-learning-a-quick-tour-12cef72492ca). 
 +
 +- ¿Qué son los *spring parameters*? 
 +
 +
 +- [Funciones monótonas](http://dev.worldpossible.org:81/wikipedia_es_all_2016-02/A/Funci%C3%B3n_mon%C3%B3tona.html) (o isótonas)
 +
 +- Momento lexicográfico: ¿cómo traducimos *kink*?
 +
 +
 +
 +{{:equipes:rcln:mexique:image-20200825075136196.png?400|}}
 +
 +{{:equipes:rcln:mexique:image-20200825075143267.png?400|}}
 +
 +- ¿[Es la normalización por lotes incompatible con la función sigmoide](https://hackerstreak.com/batch-normalization-how-it-really-works/)?
 +
 +- [Softmax y temperatura](https://deepai.org/machine-learning-glossary-and-terms/softmax-layer) (en el marco de aprendizaje reforzado)
 +
 +
 +
 +## II. Funciones de pérdida
 +
 +{{:equipes:rcln:mexique:image-20200825083133405.png?600|}}
 +
 +Fuente[[https://www.youtube.com/watch?v=d9vdh3b787Y|Clase de algoritmo de gradiente y retropropagación, por Yann LeCun (semana 2)]]
 +
 +### Función de pérdida L1
 +
 +- Valor absoluto de la diferencia entre el valor obtenido y el valor objetivo (o deseado)
 +- [No es derivable en x=0](https://stats.stackexchange.com/questions/429720/what-does-it-mean-l1-loss-is-not-differentiable)
 +
 +
 +### Función de verosimilitud negativa
 +
 +- [Paráfrasis verbal de la función](https://medium.com/deeplearningmadeeasy/negative-log-likelihood-6bd79b55d8b6)
 +
 +- Balanceando juegos de datos desbalanceados con Yann:
 +
 +{{:equipes:rcln:mexique:image-20200825085422380.png?600|}}
 +
 +### Pérdida por entropía cruzada
 +
 +- Repaso de la [función de entropía cruzada](https://www.mygreatlearning.com/blog/cross-entropy-explained/)
 +- Sobre [la divergencia Kullback-Leibler](https://fr.wikipedia.org/wiki/Divergence_de_Kullback-Leibler) 
 +
 +### Perdida binaria por entropía cruzada
 +
 +{{:equipes:rcln:mexique:image-20200825091736329.png?600|}}
 +
 +{{:equipes:rcln:mexique:image-20200825091642813.png?600|}}
 +
 +### Pérdida por divergencia KL
 +
 +{{:equipes:rcln:mexique:image-20200825091957439.png?600|}}
 +
 +### Pérdida por inmersión de coseno (*CosineEmbeddingLoss*)
 +
 +- Repaso de la [similaridad por coseno](https://deepai.org/machine-learning-glossary-and-terms/cosine-similarity)
 +
 +### Pérdida por clasificación temporal conexionista (CTC)
 +
 +{{:equipes:rcln:mexique:image-20200825092848209.png?600|}}
 +
 +{{:equipes:rcln:mexique:image-20200825092900969.png?600|}}
 +
 +{{:equipes:rcln:mexique:image-20200825092909993.png?600|}}
 +
 +{{:equipes:rcln:mexique:image-20200825093013892.png?600|}}
 +
 +**Vínculo hacia el [artículo](https://arxiv.org/abs/1512.02595) y el [código fuente](https://github.com/baidu-research/warp-ctc) correspondiente**
  • Dernière modification: il y a 5 ans