#Mujercitas150: A quien queremos mas Meg, Jo, Beth o Amy?
Leer Mujercitas despierta sentimientos encontrados acerca de quien es la hermana preferida, aquella en quien nos sentimos mas reflejada, o al menos a quien no queremos. O a quien queremos secretamente.
Ahora bien, es posible analizar esto? Si, es posible. Como? De la misma forma que analizamos las reviews de restaurantes o de cualquier otro tipo de negocio, solo que en este caso analizaremos los tweets.
En pocas palabras consideramos el termino que estamos buscando por ejemplo: Jo y las palabras asociadas y si estas son consideradas positivas o negativas utilizando un diccionario de sentimientos.
Quien es la hermana que mas queremos
[Grafico de barras mostrando los nombres de las 4, junto con el ranking de cada una, vertical, mostrando las barras hacia el lado positivo.]Quien es la hermana que menos queremos
[Grafico de barras mostrando los nombres de las 4, junto con el ranking de cada una, vertical, mostrando las barras hacia el lado negativo.]Cuales son los terminos positivos asociados a cada una de las hermanas
[Grafico de las 4 nubes de tags]Cuales son los terminos negativos asociados a cada una de las hermanas
[Grafico de las 4 nubes de tags]Implementacion
El proposito de esta seccion es comentar brevemente, como se implemento el ranking, y como se realiza la captura de los terminos mas populares. No es un nota tecnica detallando paso a paso, las funciones y las librerias utilizadas.
Como implementamos el ranking de las hermanas
Como no podia ser de otra forma, la hermana que es la mas querida por la gran mayoria de los lectores es Jo y la menos querida es Amy. Veamos algunos ejemplos de los tweets de forma de ver como funciona el proceso de considerar si la queremos a Jo o no:
Ejemplo 1: “Yo quisiera comentar que Jo es mas linda, mas maravillosa, independiente pero es irreflexiva #mujercitas150”
Este tweet se descompone de un conjunto de palabras y un hashtag, sin ese hashtag no seria posible detectar que el tweet habla acerca de Mujercitas, y no lo hubieramos guardado. Marco esto porque todos aquellos tweets (que son muchos en algunas cuentas que sigo donde hablamos pestes de Amy, no son guardados y por lo tanto no son analizados.
Con relacion a las palabras que conforman el tweet, primero se procede a la eliminacion de palabras vacias (palabras que no aportan significado: yo, quisiera, pero, es..) y luego se procede al armado de tuplas, que son pares de palabras de forma de darles un contexto a las palabras y de esta forma asignarles un valor positivo o negativo. Este mismo procedimiento se realizo con cada uno de los xx tweets que fueron escritos en esta primer semana.
- Jo + linda = positivo
- Jo + maravillosa = positivo
- Jo + independiente = positivo
- Jo + irreflexiva = negativa
- Total = 3 positivos – 1 negativo = 2 positivos = tweet positivo acerca de Jo.
Como implementamos el ranking de palabras
Implementacion tecnica
Se utilizo el diccionario NRC, que contiene 14.182 terminos y el cual se considera un buen diccionario (se pueden leer algunas opiniones al respecto en 1, 2, 3). Junto con el paquete tidyverse de Julia Silge. El codigo que da como resultado ambas visualizaciones podra consultarse en mi cuenta de Github proximamente.
Adicionalmente se agrego un conjunto de terminos utilizados habitualmente dandoles un valor positivo o negativo, los terminos fueron agregados al diccionario de datos, al momento de realizar el analisis. Algunos ejemplos de terminos habitualmente utilizados que no se encuentran en nuestro diccionario, ya que son de uso y costumbre local (lease, son palabras argentinas y no se encuentran en un diccionario general del idioma espanol).
- bagayera
- inbancable
- infumable
- me torra
- copadisima
- le banco los trapos
Una de las cosas mas divertidas de hacer este trabajo fueron la parte de consultas, y la traduccion de estos terminos en este mismo post pero en ingles).
Imagen
- La imagen de este post corresponde a la portada del libro “Little Woman” illustrated by Anna Bond, editorial Penguin Random House. Algo mas acerca de esta ilustradora puede consultarse tanto en la pagina web de su compania Rifle Paper Co., como en su cuenta de Instagram.