INFOTEC
GitHub: https://github.com/INGEOTEC
WebPage: https://ingeotec.github.io/

INFOTEC
Centro de Investigación del Gobierno Federal, que contribuye a la Transformación Digital de México, a través de la investigación, la innovación, la formación académica y el desarrollo de productos y servicios TIC. Sus alcances abarcan al sector público y privado, habilitando caminos que conduzcan hacia un México moderno y de inclusión digital.
Inteligencia Artificial (IA)
Conjunto de teorías, métodos y algoritmos para el desarrollo y estudio de sistemas que presentan un comportamiento que sería identificado como inteligente.
Aprendizaje Computacional
Subárea de IA que estudia el desarrollo e implementación de algoritmos capaces de aprender de datos de manera autónoma sin haber sido explícitamente programados.
Procesamiento de Lenguaje Natural
Conjunto de teorías, métodos y algoritmos para el desarrollo y estudio de sistemas que permitan el entendimiento, generación y manipulación del lenguaje humano.
Ciencia de Datos
Campo interdisciplinario que combina matemáticas, estadística, IA, ciencias computacionales, entre otras para obtener conocimiento atraves de los datos.
Así la vemos

Así está

Tipos de aprendizaje computacional
Aprendizaje no supervisado

Aprendizaje por refuerzo
Clasificador lineal

Aplicaciones
Aplicaciones

Retos

Definición
El objetivo es la clasificación de documentos en un número fijo de categorías predefinidas.
Polaridad
El día de mañana no podré ir con ustedes a la librería
Negativa
Polaridad
Positiva, Negativa, Neutral
Emoción (Multiclase)
Evento (Binaria)

Género
Hombre, Mujer, No binario, …
Edad
Niño, Adolescente, Adulto
Variedad de Lenguaje

Bolsa de palabras
buenos días
\((216, 101)\)
La bolsa no tiene orden
\((101, 216)\)
Modelo lineal
\(y = \sigma( \sum_{i \in (100, 215)} w_i x_i + w_0)\)
Parámetros
\(x_i\) TFIDF / \(w_i\) valor estimado
Bolsa de Palabras / Limitantes
Embeddings estáticos
Embeddings estáticos / limitantes
Datos georeferenciados en español

¿Qué se puede hacer con los datos?
Problema
¿Qué es?
DialectId es un clasificador de texto basado en una representación de Bolsa de Palabras (BoW, por sus siglas en inglés, Bag of Words), utilizando SVM lineal como clasificador.
Procesamiento de normalización
Conjunto entrenamiento
Los tokens y sus pesos fueron estimados usando un conjunto de entrenamiento de cada idioma (medio millón por pais).
Modelado por bolsa de palabras
Dendograma

Mapa

Técnicas
Tareas