Ray Wang do Grupo Altímetro, “o software de informação privilegiada", pode ser contado para fornecer alimentos interessantes para reflexão. Na semana passada, tratou-se de mudanças no mercado de Gerenciamento de Dados Mestres (MDM): “Foco nos resultados impulsiona para o valor.” De acordo com Wikipédia, MDM inclui o "conjunto de processos e ferramentas que definem e gerenciam consistentemente as entidades de dados não transacionais de um organização (também chamados dados de referência)".
A racionalização das definições de dados em grandes organizações tem sido um problema difícil por muitos anos. Um problema em expansão graças a mais e mais dados. Daí a necessidade de métodos mais eficazes para gerenciar meta dados - a descrição e a lógica por trás dos dados que estão sendo utilizados. O MDM é necessário para garantir que todos estejam relatando os mesmos conceitos.
Os "dados mestre" financeiros centrais do governo em Planejamento de Recursos do Governo (GRP) estão localizados no Plano de Contas (COA). O COA contém informações sobre a organização, códigos de orçamento, códigos contábeis, programas, projetos, atividades, objetivos e estatísticas. O MDM no governo torna-se mais desafiador com as informações sobre aquisições (fornecedores), receita (clientes), impostos (contribuintes) e serviço público (funcionários). O advento do gestão de desempenho destaca a necessidade de racionalizar os dados em múltiplos sistemas: os governos precisam de definições de dados consistentes para relatórios e painéis de controle.
Eu tinha acabado de voltar de uma reunião no Conferência Internacional da Web Semântica quando li a peça de Ray sobre o MDM. Web semântica é às vezes referido como "Web 3.0". (Não vou entrar no debate sobre como a web semântica é "semântica" - ou se esta é "Web 3.0"). A tecnologia semântica passou do mundo acadêmico para o mundo dos negócios. Ela pode ser usada para classificar dados estruturados e não estruturados. (E, integrar com a "teia profunda" através de bancos de dados.) Ocorreu-me que esta tecnologia representa o futuro do MDM.
Para ampliar meus comentários no blog do Ray:
1. Vertical: A tecnologia semântica é ideal na construção de taxonomias verticais. A aprendizagem de máquinas tem sido mais eficaz quando aplicada a domínios únicos. (Isto está mudando à medida que a tecnologia melhora para lidar com múltiplos domínios).
2. Estruturado e Não Estruturado: projetado para alavancar tanto o conteúdo estruturado quanto o não estruturado. As tecnologias semânticas podem extrair conceitos e identificadores diretamente de dados não estruturados. Também pode mostrar padrões inesperados com dados estruturados porque não está limitado à estrutura explicitamente relacional do banco de dados.
3. Dados na nuvem: Pode usar web e "dados vinculados" de sistemas externos. A tecnologia de busca atual indexa páginas web. As tecnologias da web semântica podem extrair dados de bancos de dados. E, não precisa haver uma única fonte de dados - esta é a vantagem dos "dados vinculados" que permite que múltiplos servidores exponham informações.
4. Estilos: A tecnologia semântica tende a se concentrar em conceitos comerciais em vez da camada física. (Ao mesmo tempo, suporta a racionalização de dados na camada física.) Os usuários precisam ter informações apresentadas como conceitos para descobrir fatos importantes. Caso contrário, os usuários precisam ser especialistas em banco de dados.
5. Governança: Talvez seja possível aproveitar as tecnologias semânticas da web para a governança - armadilha de usos indevidos de classificações, fatos de identidade que poderiam mudar as classificações. E pode reduzir a carga para garantir que os dados sejam classificados de uma determinada maneira.
6. Redes sociais: A tecnologia semântica está sendo usada hoje para analisar a reação dos clientes em sites de redes sociais para avaliar opiniões. As tecnologias semânticas podem ajudar a determinar se um post de blog ou uma série de Tweets se refere diretamente à sua organização ou não.
7. Todos os tipos de dados: A tecnologia semântica se estende bem a todo o conteúdo relacionado ao texto. Há também algum trabalho de integração com todos os meios de comunicação. Esta tecnologia está ajudando a se libertar dos recipientes arbitrários de dados (documentos, vídeos, bancos de dados, etc.).