Básicamente se necesitan más clasificadores, uno para la clasificación de edades, uno para la clasificación de género, uno para cada característica de personalidad (si es extrovertido o no, si es estable, simpático, “conscientious” y abierto- no tengo claro de que van estas dos últimas características). No tengo claro si hace falta participar en todos los idiomas, con lo cual haría multiplicar estos clasificadores por el número de idiomas… Dudo que se puedan usar las mismas features para cada clasificador, y dudo que todas las features se puedan extraer del corpus únicamente. Voy a intentar explicarme mejor:
Edad: haría falta ver si hay un léxico más frecuente en cada grupo de edad, por ejemplo los más jóvenes pueden usar más a menudos abreviaciones o emoticonos, y los mayores igual usan términos obsoletos… También tengo una colega que trabajó sobre complejidad de gramáticas en niños, no sé si eso se puede aplicar también en adultos…
Género: en los idiomas latinos debería ser bastante fácil porque las terminaciones son diferentes si al hablar es un hombre o una mujer. En inglés va a ser más complicado porque los adjetivos no se declinan, habrá que detectar patrones característicos cómo “me, as a woman”… O ver si hay diferencias en el léxico. En estos dos casos, igual sí puede bastar el conjunto de entrenamiento.
extroversión: aquí se podría tomar en cuenta el porcentaje de tuits subjetivos o que hablan sobre experiencias vividas sobre el número de tuits objetivos o que simplemente son comentarios sobre eventos. El número total de tuits de un usuario me parece también una feature potencialmente útil. Y si usa muchas exclamaciones o un léxico “extrovertido” (sentiwordnet y el diccionario de Whissell pueden ser algo interesantes para sacar más features).
estabilidad: no tengo claro que se quiere medir con esta característica, probablemente si un usuario cambia de humor fácilmente o no. Aquí como para “abierto” y “conscientious” igual hace falta contactar los organizadores para tener más detalles (y/o mirar dentro del corpus de entrenamiento). Si mi interpretaciones correcta, igual hace falta aplicar un clasificador de opinión para evaluar el flujo de tuits del usuario y detectar los cambios de polaridad.
simpatía (agreeable): aquí miraría no sólo el lenguaje utilizado sino también las reacciones de los followers y los RT.
Pd- acabo de ver que en el artículo “the workshop on computational personality recognition 2014” explican las 5 características: mi interpretación de estabilidad es la correcta, luego “conscientious” quiere decir si es ordenado o caótico, y abierto si es creativo o no. (by @dbuscaldi)