Moódulo 1. Clasificación
  logo DESCARGA TWEETS rdfLECTURA RDF  
 

Los tweet son obtenidos mediante la versión gratuita del api de Twitter, esto hace que solo se proporcione una muestra aleatoria de todos los tweets que hacen mención a la cuenta del ayuntamiento de valencia (@AjuntamentVLC).

El número de datasets publicados son obtenidos del rdf de catálogo contenido en la página de datos abiertos del ayuntamiento de valencia   
   
  logoENTRENAMIENTO  
 

Categorías: La categorización ha sido elaborada con base en la taxonomía de sectores primarios recogida en la Guía de aplicación de la Norma Técnica de Interoperabilidad relativa a la Reutilización de recursos de información con el objetivo de actuar en un marco común y comparable con los valores que pueden tomar los catálogos de recursos de información pública y sus registros ANEXO IV .

 
# Img Sector Ejemplo Identificador
1 Ciencia y tecnología: Innovación, Investigación, I+D+i, Telecomunicaciones, Internet y Sociedad de la Información. ciencia-tecnologia
2 Comercio: Consumo. comercio
3 Cultura y ocio: Tiempo libre. cultura-ocio
4

Demografía:

Inmigración y Emigración, Familia, Mujeres, Infancia, Mayores, Padrón. demografia
5

Deporte:

Instalaciones deportivas, Federaciones, Competiciones. deporte
6

Economía:

Deuda, Moneda y Banca y finanzas. economia
7

Educación:

Formación. educacion
8

Empleo:

Trabajo, Mercado laboral. empleo
9

Energía:

Fuentes renovables energia
10

Hacienda:

Impuestos. hacienda
11

Industria:

Minería. industria
   

 

   
# Img Sector Ejemplo Identificador
12

Legislación y justicia:

Registros. legislacion-justicia
13

Medio ambiente:

Meteorología, Geografía, Conservación fauna y flora. medio-ambiente
14

Medio Rural:

Agricultura, Ganadería, Pesca y Silvicultura. medio-rural-pesca
15

Salud:

Sanidad. salud
16

Sector público:

Presupuestos, Organigrama institucional, Legislación interna, Función pública. sector-publico
17

Seguridad:

Protección civil, Defensa. seguridad
18

Sociedad y bienestar:

Participación ciudadana, Marginación, Envejecimiento Activo... sociedad-bienestar
19

Transporte:

Comunicaciones y Tráfico. transporte
20

Turismo:

Alojamientos, Hostelería, Gastronomía. turismo
21

Urbanismo e infraestructuras:

Saneamiento público, Construcción. urbanismo-infraestructuras
22

Vivienda:

Mercado inmobiliario, Construcción (viviendas). vivienda
   

 

   
 
  Corpus: La creación del corpus de entrenamiento fue elaborado realizando una clasificación manual por ciudadanos que nos colaboraron en esta tarea, el objetivo era no “viciar” a la máquina con una sola forma de pensar.  
   
  logoCLASIFICACIÓN  
 

Una vez entrenado el modelo se realiza el proceso de clasificación de tweets, para esto desarrollamos un algoritmo de clasificación lineal utilizando la librería sklearn. Los tweets clasificados fueron almacenados en una base de datos.