Ray Wang, del Grupo Altimeter, “el software insider", se puede contar con que proporcione interesantes elementos de reflexión. La semana pasada trató de los cambios en el mercado de la gestión de datos maestros (MDM): "Centrarse en los resultados impulsa la búsqueda de valor." Según Wikipedia, MDM incluye el "conjunto de procesos y herramientas que definen y gestionan de forma coherente las entidades de datos no transaccionales de un organización (también llamados datos de referencia)".
Racionalizar las definiciones de datos en las grandes organizaciones ha sido un problema difícil durante muchos años. Un problema en expansión gracias a que cada vez hay más datos. De ahí la necesidad de métodos más eficaces para gestionar los metadatos: la descripción y la lógica que hay detrás de los datos que se utilizan. La MDM es necesaria para garantizar que todos informan sobre los mismos conceptos.
El núcleo de los "datos maestros" financieros de la Administración en la Planificación de Recursos Gubernamentales (GRP) se encuentra en el Plan Contable (COA). El COA contiene información sobre la organización, códigos presupuestarios, códigos contables, programas, proyectos, actividades, objetivos y estadísticas. La MDM en la administración pública se vuelve más difícil con la información sobre adquisiciones (proveedores), ingresos (clientes), impuestos (contribuyentes) y función pública (empleados). La llegada de gestión del rendimiento destaca la necesidad de racionalizar los datos en múltiples sistemas: los gobiernos necesitan definiciones de datos coherentes para los informes y cuadros de mando.
Acababa de volver de una reunión en el Conferencia Internacional sobre la Web Semántica cuando leí el artículo de Ray sobre MDM. Web semántica se denomina a veces "Web 3.0". (No voy a entrar en el debate sobre lo "semántica" que es la web semántica, o si se trata de la "Web 3.0"). La tecnología semántica ha pasado del mundo académico al empresarial. Puede utilizarse para clasificar datos estructurados y no estructurados. (E integrarse con la "web profunda" a través de bases de datos.) Se me ocurre que esta tecnología representa el futuro de MDM.
Para ampliar mis comentarios en el blog de Ray:
1. Vertical: La tecnología semántica es ideal para crear taxonomías verticales. El aprendizaje automático ha sido más eficaz cuando se ha aplicado a dominios únicos. (Esto está cambiando a medida que la tecnología mejora para manejar múltiples dominios).
2. Estructurado y no estructurado: diseñadas para aprovechar tanto los contenidos estructurados como los no estructurados. Las tecnologías semánticas pueden extraer conceptos e identificadores directamente de datos no estructurados. También pueden mostrar patrones inesperados con datos estructurados porque no se limitan a la estructura explícita de una base de datos relacional.
3. Datos en la nube: Puede utilizar web y "datos enlazados" de sistemas externos. La tecnología de búsqueda actual indexa páginas web. Las tecnologías de web semántica pueden extraer datos de bases de datos. Además, no es necesario que haya una única fuente de datos: ésta es la ventaja de los "datos enlazados", que permiten que varios servidores expongan información.
4. Estilos: La tecnología semántica tiende a centrarse en los conceptos empresariales más que en la capa física. (Al mismo tiempo, apoya la racionalización de datos en la capa física.) Los usuarios necesitan que la información se presente como conceptos para descubrir hechos importantes. De lo contrario, los usuarios necesitan ser expertos en bases de datos.
5. Gobernanza: Podría ser posible aprovechar las tecnologías de la web semántica para la gobernanza: atrapar usos indebidos de las clasificaciones, hechos de identidad que podrían cambiar las clasificaciones. Además, puede reducir la carga que supone garantizar que los datos se clasifican de una determinada manera.
6. Redes sociales: La tecnología semántica se utiliza hoy en día para analizar la reacción de los clientes en las redes sociales y conocer sus opiniones. Las tecnologías semánticas pueden ayudar a determinar si una entrada de blog o una serie de Tweets se refieren directamente a su organización o no.
7. Todos los tipos de datos: La tecnología semántica se extiende bien a todos los contenidos relacionados con el texto. También se está trabajando en la integración con todos los medios de comunicación. Esta tecnología está ayudando a liberarse de los contenedores arbitrarios de datos (documentos, vídeos, bases de datos, etc.).