Ray Wang do Grupo Altímetro, “o software insider", pode ser contado para fornecer alimentos interessantes para reflexão. Na semana passada, tratou-se de mudanças no mercado de Gestão de Dados Mestres (MDM): “Foco em resultados impulsiona para valor.” De acordo com Wikipédia, O MDM inclui o "conjunto de processos e ferramentas que definem e gerem consistentemente as entidades de dados não transaccionais de um organização (também chamados dados de referência)".
A racionalização das definições de dados nas grandes organizações tem sido um problema difícil durante muitos anos. Um problema em expansão graças a mais e mais dados. Daí a necessidade de métodos mais eficazes para gerir os metadados - a descrição e lógica por detrás dos dados que estão a ser utilizados. O MDM é necessário para assegurar que todos informem sobre os mesmos conceitos.
Os "dados principais" financeiros do governo em Planeamento de Recursos Governamentais (GRP) estão localizados no Plano de Contas (COA). O COA contém informações sobre a organização, códigos orçamentais, códigos contabilísticos, programas, projectos, actividades, objectivos e estatísticas. O MDM no governo torna-se mais desafiante com a informação sobre aquisições (fornecedores), receitas (clientes), impostos (contribuintes) e funcionários públicos (empregados). O advento de gestão do desempenho salienta a necessidade de racionalizar os dados em múltiplos sistemas: os governos precisam de definições de dados consistentes para relatórios e painéis de controlo.
Tinha acabado de regressar de uma reunião no Conferência Internacional da Web Semântica quando li a peça de Ray sobre o MDM. Web semântica é por vezes referida como "Web 3.0". (Não vou entrar no debate sobre como a "Web semântica" é - ou se esta é "Web 3.0"). A tecnologia semântica passou do mundo académico para o mundo empresarial. Pode ser utilizada para classificar tanto dados estruturados como não estruturados. (E, integrar com a "teia profunda" através de bases de dados.) Ocorreu-me que esta tecnologia representa o futuro do MDM.
Para expandir os meus comentários no blogue do Ray:
1. Vertical: A tecnologia semântica é ideal na construção de taxonomias verticais. A aprendizagem de máquinas tem sido mais eficaz quando aplicada a domínios únicos. (Isto está a mudar à medida que a tecnologia melhora para lidar com múltiplos domínios).
2. Estruturado e Não Estruturado: Concebido para alavancar conteúdos estruturados e não estruturados. As tecnologias semânticas podem extrair conceitos e identificadores directamente de dados não estruturados. Pode também mostrar padrões inesperados com dados estruturados, porque não se limita à estrutura explicitamente relacional da base de dados.
3. Dados na nuvem: Pode utilizar a web e "dados ligados" de sistemas externos. A tecnologia de pesquisa actual indexa as páginas web. As tecnologias da web semântica podem extrair dados de bases de dados. E, não precisa de haver uma única fonte de dados - esta é a vantagem dos "dados ligados" que permite que múltiplos servidores exponham informação.
4. Estilos: A tecnologia semântica tende a concentrar-se em conceitos empresariais e não na camada física. (Ao mesmo tempo, suporta a racionalização de dados na camada física.) Os utilizadores precisam de ter a informação apresentada como conceitos para descobrir factos importantes. Caso contrário, os utilizadores precisam de ser especialistas em bases de dados.
5. Governação: Pode ser possível tirar partido das tecnologias semânticas da Web para a governação - armadilha de usos indevidos de classificações, factos de identidade que podem alterar as classificações. E, pode reduzir o ónus de assegurar que os dados sejam classificados de uma determinada forma.
6. Redes sociais: A tecnologia semântica está hoje a ser utilizada para analisar a reacção dos clientes em sites de redes sociais para avaliar opiniões. As tecnologias semânticas podem ajudar a determinar se um post de blog ou uma série de Tweets se refere directamente à sua organização ou não.
7. Todos os tipos de dados: A tecnologia semântica estende-se bem a todos os conteúdos relacionados com o texto. Há também algum trabalho de integração com todos os meios de comunicação. Esta tecnologia está a ajudar a libertar-se dos recipientes arbitrários de dados (documentos, vídeos, bases de dados, etc.).