Différences

Ci-dessous, les différences entre deux révisions de la page.

--- equipes:rcln:ancien_wiki:mexique:week11 [2020/08/25 17:32]
garciaflores [Repaso: ¿Qué es una función de activación?]
+++ equipes:rcln:ancien_wiki:mexique:week11 [2020/11/23 18:42] (Version actuelle)
garciaflores ↷ Page déplacée de equipes:rcln:mexique:week11 à equipes:rcln:ancien_wiki:mexique:week11
@@ Ligne 14: / Ligne 14: @@
 {{:equipes:rcln:mexique:image-20200824234214256.png?600|}}
+Fuente: [Diapositivas 00 - Logic neurons.pdf de Alfredo Canziani](https://github.com/Atcold/pytorch-Deep-Learning/blob/master/slides/00%20-%20Logic%20neurons.pdf)
+### Rectificadores
+- Función rectificadora (ReLU)
+- Rectificador aleatorio (RReLU)
+- Rectificador permeable (Leaky ReLU)
+Características:
+. Poco sensibles a la escala ("puedes multiplicar la señal por 2 y la salida refleja exactamente la multipicación por 2: la escala no cambia el comportamiento de la función")
+. Sirven para redes con pocas capas ("*skinny networks*")
+### PReLU
+El valor negativo se multiplica por un parámetro *a* que se puede aprender
+> "La a puede variar de acuerdo a cada canal de entrada"
+### Softplus
+Aproximación derivable de ReLU.
+Repaso: [sobre derivabilidad](https://en.wikipedia.org/wiki/Differentiable_function) ("sin derivabilidad no hay gradiente")
+> "la identidad para los valores positivos y asintóticamente cero para los valores negativos"
+- Esta función es más sensible a la escala que las funciones quebradas (de la familia ReLU). Aplicar una escala (por ejemplo, a nivel de una capa) puede modific el comportamiento de la salida.
+### ELU
+> "El algoritmo de gradiente puede converger más rápido con puntajes positivos y negativos con respecto a arquitecturas con puros puntajes positivos"
+>
+> "Los valores negativos permiten que el promedio sea , lo cual puede hacer que el algoritmo de gradiente converja más rápido"
+### Función sigmoide
+> "Si acumulas las capas de sigmoides en tu red. ésta no va a aprender de manera eficiente [...] en este caso debes poner mucha atención a la normalización"
+> "Para redes muy profundas, las funciones no lineales quebradas [como el rectificador] son más convenientes"
+### Softsign
+> "Un problema con la tangente hiperbólica o la función sigmoide es que cuando te acercas a la asíntota, el gradiente se va a 0 demasiado rápido y si los pesos de una determinada neurona son muy grandes, la saturan... el valor del gradiente se desploma y la neurona no aprende rápido... Softsign intenta resolver este problema."
+### Función de umbral
+- [Función de umbral en la primera neurona artificial](https://de.wikipedia.org/wiki/K%C3%BCnstliches_Neuron)
+> "No se puede propagar gradiente ahí: por culpa de esta función no se inventó la retropropagación en la década de 1960 o incluso 1970"
+### Hardshrink
+Rara vez utilizada, salvo en el marco de *sparse coding (aquí una [definición](http://www.scholarpedia.org/article/Sparse_coding) y acá un [artículo de divulgación](https://www.sciencedirect.com/topics/engineering/sparse-coding))* al respecto.
+- ¿Se puede definir *sparse coding* como la "activación de una cantidad mínima de neuronas"?
+### Preguntas y respuestas
+- ¿Qué es el [polinomio de Chebyshev](https://en.wikipedia.org/wiki/Chebyshev_polynomials)?
+ > "funciones no lineales parametrizables con polinomios de Chebyshev para aproximar bien la función"
+- En un marco de [aprendizaje profundo geométrico](https://medium.com/@flawnsontong1/what-is-geometric-deep-learning-b2adb662d91d), el polinomio de Chebysev, se puede usar para [aproximar una función cuya complejidad representa un obstáculo para su cálculo](https://towardsdatascience.com/geometric-deep-learning-a-quick-tour-12cef72492ca).
+- ¿Qué son los *spring parameters*?
+- [Funciones monótonas](http://dev.worldpossible.org:81/wikipedia_es_all_2016-02/A/Funci%C3%B3n_mon%C3%B3tona.html) (o isótonas)
+- Momento lexicográfico: ¿cómo traducimos *kink*?
+{{:equipes:rcln:mexique:image-20200825075136196.png?400|}}
+{{:equipes:rcln:mexique:image-20200825075143267.png?400|}}
+- ¿[Es la normalización por lotes incompatible con la función sigmoide](https://hackerstreak.com/batch-normalization-how-it-really-works/)?
+- [Softmax y temperatura](https://deepai.org/machine-learning-glossary-and-terms/softmax-layer) (en el marco de aprendizaje reforzado)
+## II. Funciones de pérdida
+{{:equipes:rcln:mexique:image-20200825083133405.png?600|}}
+Fuente[[https://www.youtube.com/watch?v=d9vdh3b787Y|Clase de algoritmo de gradiente y retropropagación, por Yann LeCun (semana 2)]]
+### Función de pérdida L1
+- Valor absoluto de la diferencia entre el valor obtenido y el valor objetivo (o deseado)
+- [No es derivable en x=0](https://stats.stackexchange.com/questions/429720/what-does-it-mean-l1-loss-is-not-differentiable)
+### Función de verosimilitud negativa
+- [Paráfrasis verbal de la función](https://medium.com/deeplearningmadeeasy/negative-log-likelihood-6bd79b55d8b6)
+- Balanceando juegos de datos desbalanceados con Yann:
+{{:equipes:rcln:mexique:image-20200825085422380.png?600|}}
+### Pérdida por entropía cruzada
+- Repaso de la [función de entropía cruzada](https://www.mygreatlearning.com/blog/cross-entropy-explained/)
+- Sobre [la divergencia Kullback-Leibler](https://fr.wikipedia.org/wiki/Divergence_de_Kullback-Leibler)
+### Perdida binaria por entropía cruzada
+{{:equipes:rcln:mexique:image-20200825091736329.png?600|}}
+{{:equipes:rcln:mexique:image-20200825091642813.png?600|}}
+### Pérdida por divergencia KL
+{{:equipes:rcln:mexique:image-20200825091957439.png?600|}}
+### Pérdida por inmersión de coseno (*CosineEmbeddingLoss*)
+- Repaso de la [similaridad por coseno](https://deepai.org/machine-learning-glossary-and-terms/cosine-similarity)
+### Pérdida por clasificación temporal conexionista (CTC)
+{{:equipes:rcln:mexique:image-20200825092848209.png?600|}}
+{{:equipes:rcln:mexique:image-20200825092900969.png?600|}}
+{{:equipes:rcln:mexique:image-20200825092909993.png?600|}}
+{{:equipes:rcln:mexique:image-20200825093013892.png?600|}}
+**Vínculo hacia el [artículo](https://arxiv.org/abs/1512.02595) y el [código fuente](https://github.com/baidu-research/warp-ctc) correspondiente**