Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
equipes:rcln:ancien_wiki:mexique:week11 [2020/08/25 17:38]
garciaflores
equipes:rcln:ancien_wiki:mexique:week11 [2020/11/23 18:42] (Version actuelle)
garciaflores ↷ Page déplacée de equipes:rcln:mexique:week11 à equipes:rcln:ancien_wiki:mexique:week11
Ligne 52: Ligne 52:
 > >
 > "Los valores negativos permiten que el promedio sea , lo cual puede hacer que el algoritmo de gradiente converja más rápido" > "Los valores negativos permiten que el promedio sea , lo cual puede hacer que el algoritmo de gradiente converja más rápido"
 +
  
 ### Función sigmoide ### Función sigmoide
  
 > "Si acumulas las capas de sigmoides en tu red. ésta no va a aprender de manera eficiente [...] en este caso debes poner mucha atención a la normalización" > "Si acumulas las capas de sigmoides en tu red. ésta no va a aprender de manera eficiente [...] en este caso debes poner mucha atención a la normalización"
 +
  
 > "Para redes muy profundas, las funciones no lineales quebradas [como el rectificador] son más convenientes" > "Para redes muy profundas, las funciones no lineales quebradas [como el rectificador] son más convenientes"
 +
  
 ### Softsign ### Softsign
  
 > "Un problema con la tangente hiperbólica o la función sigmoide es que cuando te acercas a la asíntota, el gradiente se va a 0 demasiado rápido y si los pesos de una determinada neurona son muy grandes, la saturan... el valor del gradiente se desploma y la neurona no aprende rápido... Softsign intenta resolver este problema." > "Un problema con la tangente hiperbólica o la función sigmoide es que cuando te acercas a la asíntota, el gradiente se va a 0 demasiado rápido y si los pesos de una determinada neurona son muy grandes, la saturan... el valor del gradiente se desploma y la neurona no aprende rápido... Softsign intenta resolver este problema."
 +
  
 ### Función de umbral  ### Función de umbral 
 +
 +- [Función de umbral en la primera neurona artificial](https://de.wikipedia.org/wiki/K%C3%BCnstliches_Neuron)
  
 > "No se puede propagar gradiente ahí: por culpa de esta función no se inventó la retropropagación en la década de 1960 o incluso 1970" > "No se puede propagar gradiente ahí: por culpa de esta función no se inventó la retropropagación en la década de 1960 o incluso 1970"
  
-- [Función de umbral en la primera neurona artificial](https://de.wikipedia.org/wiki/K%C3%BCnstliches_Neuron) 
  
-### *Hardshrink*+ 
 +### Hardshrink
  
 Rara vez utilizada, salvo en el marco de *sparse coding (aquí una [definición](http://www.scholarpedia.org/article/Sparse_coding) y acá un [artículo de divulgación](https://www.sciencedirect.com/topics/engineering/sparse-coding))* al respecto. Rara vez utilizada, salvo en el marco de *sparse coding (aquí una [definición](http://www.scholarpedia.org/article/Sparse_coding) y acá un [artículo de divulgación](https://www.sciencedirect.com/topics/engineering/sparse-coding))* al respecto.
  
 - ¿Se puede definir *sparse coding* como la "activación de una cantidad mínima de neuronas"? - ¿Se puede definir *sparse coding* como la "activación de una cantidad mínima de neuronas"?
 +
  
 ### Preguntas y respuestas ### Preguntas y respuestas
  
 - ¿Qué es el [polinomio de Chebyshev](https://en.wikipedia.org/wiki/Chebyshev_polynomials)? - ¿Qué es el [polinomio de Chebyshev](https://en.wikipedia.org/wiki/Chebyshev_polynomials)?
-  > "funciones no lineales parametrizables con polinomios de Chebyshev para aproximar bien la función" 
  
-  - En un marco de [aprendizaje profundo geométrico](https://medium.com/@flawnsontong1/what-is-geometric-deep-learning-b2adb662d91d), el polinomio de Chebysev, se puede usar para [aproximar una función cuya complejidad representa un obstáculo para su cálculo](https://towardsdatascience.com/geometric-deep-learning-a-quick-tour-12cef72492ca).  + > "funciones no lineales parametrizables con polinomios de Chebyshev para aproximar bien la función" 
-  - ¿Qué son los *spring parameters*? + 
 +   
 +- En un marco de [aprendizaje profundo geométrico](https://medium.com/@flawnsontong1/what-is-geometric-deep-learning-b2adb662d91d), el polinomio de Chebysev, se puede usar para [aproximar una función cuya complejidad representa un obstáculo para su cálculo](https://towardsdatascience.com/geometric-deep-learning-a-quick-tour-12cef72492ca).  
 + 
 +- ¿Qué son los *spring parameters*?  
 + 
 - [Funciones monótonas](http://dev.worldpossible.org:81/wikipedia_es_all_2016-02/A/Funci%C3%B3n_mon%C3%B3tona.html) (o isótonas) - [Funciones monótonas](http://dev.worldpossible.org:81/wikipedia_es_all_2016-02/A/Funci%C3%B3n_mon%C3%B3tona.html) (o isótonas)
  
 - Momento lexicográfico: ¿cómo traducimos *kink*? - Momento lexicográfico: ¿cómo traducimos *kink*?
  
 +
 +
 +{{:equipes:rcln:mexique:image-20200825075136196.png?400|}}
 +
 +{{:equipes:rcln:mexique:image-20200825075143267.png?400|}}
 +
 +- ¿[Es la normalización por lotes incompatible con la función sigmoide](https://hackerstreak.com/batch-normalization-how-it-really-works/)?
 +
 +- [Softmax y temperatura](https://deepai.org/machine-learning-glossary-and-terms/softmax-layer) (en el marco de aprendizaje reforzado)
 +
 +
 +
 +## II. Funciones de pérdida
 +
 +{{:equipes:rcln:mexique:image-20200825083133405.png?600|}}
 +
 +Fuente[[https://www.youtube.com/watch?v=d9vdh3b787Y|Clase de algoritmo de gradiente y retropropagación, por Yann LeCun (semana 2)]]
 +
 +### Función de pérdida L1
 +
 +- Valor absoluto de la diferencia entre el valor obtenido y el valor objetivo (o deseado)
 +- [No es derivable en x=0](https://stats.stackexchange.com/questions/429720/what-does-it-mean-l1-loss-is-not-differentiable)
 +
 +
 +### Función de verosimilitud negativa
 +
 +- [Paráfrasis verbal de la función](https://medium.com/deeplearningmadeeasy/negative-log-likelihood-6bd79b55d8b6)
 +
 +- Balanceando juegos de datos desbalanceados con Yann:
 +
 +{{:equipes:rcln:mexique:image-20200825085422380.png?600|}}
 +
 +### Pérdida por entropía cruzada
 +
 +- Repaso de la [función de entropía cruzada](https://www.mygreatlearning.com/blog/cross-entropy-explained/)
 +- Sobre [la divergencia Kullback-Leibler](https://fr.wikipedia.org/wiki/Divergence_de_Kullback-Leibler) 
 +
 +### Perdida binaria por entropía cruzada
 +
 +{{:equipes:rcln:mexique:image-20200825091736329.png?600|}}
 +
 +{{:equipes:rcln:mexique:image-20200825091642813.png?600|}}
 +
 +### Pérdida por divergencia KL
 +
 +{{:equipes:rcln:mexique:image-20200825091957439.png?600|}}
 +
 +### Pérdida por inmersión de coseno (*CosineEmbeddingLoss*)
 +
 +- Repaso de la [similaridad por coseno](https://deepai.org/machine-learning-glossary-and-terms/cosine-similarity)
 +
 +### Pérdida por clasificación temporal conexionista (CTC)
 +
 +{{:equipes:rcln:mexique:image-20200825092848209.png?600|}}
 +
 +{{:equipes:rcln:mexique:image-20200825092900969.png?600|}}
 +
 +{{:equipes:rcln:mexique:image-20200825092909993.png?600|}}
 +
 +{{:equipes:rcln:mexique:image-20200825093013892.png?600|}}
 +
 +**Vínculo hacia el [artículo](https://arxiv.org/abs/1512.02595) y el [código fuente](https://github.com/baidu-research/warp-ctc) correspondiente**
  • Dernière modification: il y a 5 ans