Différences

Ci-dessous, les différences entre deux révisions de la page.

--- equipes:rcln:ancien_wiki:mexique:week11 [2020/08/25 17:38]
garciaflores
+++ equipes:rcln:ancien_wiki:mexique:week11 [2020/11/23 18:42] (Version actuelle)
garciaflores ↷ Page déplacée de equipes:rcln:mexique:week11 à equipes:rcln:ancien_wiki:mexique:week11
@@ Ligne 52: / Ligne 52: @@
 >
 > "Los valores negativos permiten que el promedio sea , lo cual puede hacer que el algoritmo de gradiente converja más rápido"
 ### Función sigmoide
 > "Si acumulas las capas de sigmoides en tu red. ésta no va a aprender de manera eficiente [...] en este caso debes poner mucha atención a la normalización"
 > "Para redes muy profundas, las funciones no lineales quebradas [como el rectificador] son más convenientes"
 ### Softsign
 > "Un problema con la tangente hiperbólica o la función sigmoide es que cuando te acercas a la asíntota, el gradiente se va a 0 demasiado rápido y si los pesos de una determinada neurona son muy grandes, la saturan... el valor del gradiente se desploma y la neurona no aprende rápido... Softsign intenta resolver este problema."
 ### Función de umbral
+- [Función de umbral en la primera neurona artificial](https://de.wikipedia.org/wiki/K%C3%BCnstliches_Neuron)
 > "No se puede propagar gradiente ahí: por culpa de esta función no se inventó la retropropagación en la década de 1960 o incluso 1970"
-- [Función de umbral en la primera neurona artificial](https://de.wikipedia.org/wiki/K%C3%BCnstliches_Neuron)
-### *Hardshrink*
+### Hardshrink
 Rara vez utilizada, salvo en el marco de *sparse coding (aquí una [definición](http://www.scholarpedia.org/article/Sparse_coding) y acá un [artículo de divulgación](https://www.sciencedirect.com/topics/engineering/sparse-coding))* al respecto.
 - ¿Se puede definir *sparse coding* como la "activación de una cantidad mínima de neuronas"?
 ### Preguntas y respuestas
 - ¿Qué es el [polinomio de Chebyshev](https://en.wikipedia.org/wiki/Chebyshev_polynomials)?
-  > "funciones no lineales parametrizables con polinomios de Chebyshev para aproximar bien la función"
-  - En un marco de [aprendizaje profundo geométrico](https://medium.com/@flawnsontong1/what-is-geometric-deep-learning-b2adb662d91d), el polinomio de Chebysev, se puede usar para [aproximar una función cuya complejidad representa un obstáculo para su cálculo](https://towardsdatascience.com/geometric-deep-learning-a-quick-tour-12cef72492ca).
+ > "funciones no lineales parametrizables con polinomios de Chebyshev para aproximar bien la función"
-  - ¿Qué son los *spring parameters*?
+- En un marco de [aprendizaje profundo geométrico](https://medium.com/@flawnsontong1/what-is-geometric-deep-learning-b2adb662d91d), el polinomio de Chebysev, se puede usar para [aproximar una función cuya complejidad representa un obstáculo para su cálculo](https://towardsdatascience.com/geometric-deep-learning-a-quick-tour-12cef72492ca).
+- ¿Qué son los *spring parameters*?
 - [Funciones monótonas](http://dev.worldpossible.org:81/wikipedia_es_all_2016-02/A/Funci%C3%B3n_mon%C3%B3tona.html) (o isótonas)
 - Momento lexicográfico: ¿cómo traducimos *kink*?
+{{:equipes:rcln:mexique:image-20200825075136196.png?400|}}
+{{:equipes:rcln:mexique:image-20200825075143267.png?400|}}
+- ¿[Es la normalización por lotes incompatible con la función sigmoide](https://hackerstreak.com/batch-normalization-how-it-really-works/)?
+- [Softmax y temperatura](https://deepai.org/machine-learning-glossary-and-terms/softmax-layer) (en el marco de aprendizaje reforzado)
+## II. Funciones de pérdida
+{{:equipes:rcln:mexique:image-20200825083133405.png?600|}}
+Fuente[[https://www.youtube.com/watch?v=d9vdh3b787Y|Clase de algoritmo de gradiente y retropropagación, por Yann LeCun (semana 2)]]
+### Función de pérdida L1
+- Valor absoluto de la diferencia entre el valor obtenido y el valor objetivo (o deseado)
+- [No es derivable en x=0](https://stats.stackexchange.com/questions/429720/what-does-it-mean-l1-loss-is-not-differentiable)
+### Función de verosimilitud negativa
+- [Paráfrasis verbal de la función](https://medium.com/deeplearningmadeeasy/negative-log-likelihood-6bd79b55d8b6)
+- Balanceando juegos de datos desbalanceados con Yann:
+{{:equipes:rcln:mexique:image-20200825085422380.png?600|}}
+### Pérdida por entropía cruzada
+- Repaso de la [función de entropía cruzada](https://www.mygreatlearning.com/blog/cross-entropy-explained/)
+- Sobre [la divergencia Kullback-Leibler](https://fr.wikipedia.org/wiki/Divergence_de_Kullback-Leibler)
+### Perdida binaria por entropía cruzada
+{{:equipes:rcln:mexique:image-20200825091736329.png?600|}}
+{{:equipes:rcln:mexique:image-20200825091642813.png?600|}}
+### Pérdida por divergencia KL
+{{:equipes:rcln:mexique:image-20200825091957439.png?600|}}
+### Pérdida por inmersión de coseno (*CosineEmbeddingLoss*)
+- Repaso de la [similaridad por coseno](https://deepai.org/machine-learning-glossary-and-terms/cosine-similarity)
+### Pérdida por clasificación temporal conexionista (CTC)
+{{:equipes:rcln:mexique:image-20200825092848209.png?600|}}
+{{:equipes:rcln:mexique:image-20200825092900969.png?600|}}
+{{:equipes:rcln:mexique:image-20200825092909993.png?600|}}
+{{:equipes:rcln:mexique:image-20200825093013892.png?600|}}
+**Vínculo hacia el [artículo](https://arxiv.org/abs/1512.02595) y el [código fuente](https://github.com/baidu-research/warp-ctc) correspondiente**