ISBN-13: 9783639732047 / Hiszpański / Miękka / 2015 / 140 str.
En este trabajo de investigacion se experimenta con un conjunto de conversaciones (chats) en ingles, con el objetivo de detectar si en una conversacion participa o no un depredador sexual. Para lograr esto se utilizan tecnicas de mineria de datos que permitan la creacion modelos que separen a los depredadores sexuales del resto de los usuarios. Se trabaja principalmente con el algoritmo de bosque aleatorio y la herramienta WEKA, asi como la extraccion de diversos conjuntos de caracteristicas para su analisis. Tambien se implementa un sistema de busqueda como clasificador y etiquetado automatico con tecnicas de bootstrapping. Entre las aportaciones de esta investigacion estan la creacion de un corpus etiquetado que permite clasificar a los depredadores sexuales segun el objetivo que persigan (material obsceno o un encuentro con la victima) y un metodo de preprocesamiento y expansion de terminos para trabajar con textos de redes sociales, los cuales se caracterizan por tener exceso de palabras mal escritas, truncadas o uso de emoticones. De manera adicional, se aplica la metodologia propuesta en un conjunto de textos a fin de determinar el genero y la edad del autor."
En este trabajo de investigación se experimenta con un conjunto de conversaciones (chats) en inglés, con el objetivo de detectar si en una conversación participa o no un depredador sexual. Para lograr esto se utilizan técnicas de minería de datos que permitan la creación modelos que separen a los depredadores sexuales del resto de los usuarios. Se trabaja principalmente con el algoritmo de bosque aleatorio y la herramienta WEKA, así como la extracción de diversos conjuntos de características para su análisis. También se implementa un sistema de búsqueda como clasificador y etiquetado automático con técnicas de bootstrapping. Entre las aportaciones de esta investigación están la creación de un corpus etiquetado que permite clasificar a los depredadores sexuales según el objetivo que persigan (material obsceno o un encuentro con la víctima) y un método de preprocesamiento y expansión de términos para trabajar con textos de redes sociales, los cuales se caracterizan por tener exceso de palabras mal escritas, truncadas o uso de emoticones. De manera adicional, se aplica la metodología propuesta en un conjunto de textos a fin de determinar el género y la edad del autor.