DataCleaner é uma fonte aberta e solução totalmente gratuito para as organizações e empresas que desejam aumentar e medir a qualidade dos seus dados.
Com DataCleaner, os usuários serão capazes de perfil, compare, validar dados contra regras de negócio, e monitorar a progressão destas medidas ao longo do tempo.
Entre as suas características, podemos citar o monitoramento de dados, profiling e análise de dados DQ, limpeza de dados e enriquecimento, detectar e mesclar duplicatas, a qualidade dos dados do cliente, bem como ETLightweight super-rápido (Extract Transform-Load-).
Para saber mais sobre funções e capacidades do DataCleaner, bem como a forma de trabalhar com ele, consulte http://eobjects.dk/docs
What é novo nesta versão :
- As melhorias e novos recursos:
- Nós fizemos tudo possível para criar e soltar tabelas, através do ambiente de trabalho UI de DataCleaner. Note-se que o termo? Tabela & quot; aqui, na verdade abrange mais de tabelas do banco apenas relacionais. Ele também inclui Sheets em armazenamentos de dados do MS Excel, coleções no MongoDB, tipos de documento no CouchDB e ElasticSearch e assim por diante ... Basicamente todos os tipos de armazenamento de dados que suportam-operações de gravação, exceto datastores de mesa única, como armazenamentos de dados CSV, suporta esta funcionalidade! A funcionalidade é exposta através de:
- & quot; Criar tabela & quot; ativada através do menu do botão direito de esquemas na árvore, no lado esquerdo do aplicativo.
- & quot; Criar tabela & quot; permitiu também através das entradas de seleção de tabela em componentes, tais como inserir na tabela, lookup tabela ea tabela Update.
- & quot; mesa Gota & quot; ativada através do menu do botão direito do mesas na árvore, no lado esquerdo do aplicativo.
- Nós adicionamos o (opcional) capacidade de especificar o seu serviço web Salesforce.com Endpoint URL. Isso permite que você use DataCleaner se conectar a ambientes sandbox de Salesforce.com, assim como para seus próprios parâmetros personalizados.
- O apoio ElasticSearch foi melhorado, permitindo mapeamentos personalizados, bem como reutilizar as definições de armazenamento de dados ElasticSearch agora também para a pesquisa e indexação.
- A amostragem dos registros e seleção de potenciais duplicatas na função de detecção Duplicate foi melhorado, levando à configuração mais rápido porque as decisões tomadas durante a sessão de treinamento são mais representativos.
- O formato de arquivo modelo de detecção Duplicate foi atualizado que removeu a necessidade de um arquivo separado "referência", a fim de salvar as decisões de formação passados. A compatibilidade com o formato antigo foi mantido, mas utilizando o novo formato adiciona muitos benefícios para a experiência do usuário.
- Bugfixes:
- A questão da fome segmento foi fixado em monitor de DataCleaner. O impacto desta questão foi ótimo, mas aconteceu somente em casos raros e muito personalizados. Se ouvinte objetos personalizados no monitor DataCleaner iria lançar um erro, isso resultaria em um recurso não sendo liberado e ocupando um thread do pool de quartzo-agendamento no servidor. Se isso acontecer muitas vezes o servidor pode eventualmente ficar fora de segmentos em que piscina.
- O menu vertical na tela do resultado está agora a fazer um bom trabalho de exibir os rótulos dos componentes que têm resultados. Isto torna mais fácil de reconhecer quais os pontos item de menu para o item de resultado.
O que é novo na versão 3.5.7:
- A transformação de 'Sinônimo de pesquisa "tem agora uma opção a olhar para cima a cada sinal de entrada. Isso é útil se você estiver fazendo a substituição de sinônimos dentro dos valores de um campo de texto longo.
- Bloqueio de execução de trabalhos DataCleaner através do serviço do monitor web para este poderia, por vezes, falhar com um erro causado pelo segmento de bloqueio. Esse problema foi corrigido.
- Uma melhoria foi feita no modo como os postos de trabalho ea sequência de componentes estão fechadas / limpos após a execução.
- A versão do DataCleaner / Java WebStart JNLP foi exposta por um bug no runtime Java causando certos arquivos JAR para não ser reconhecidos pelo lançador WebStart, sob certas circunstâncias. Este problema foi corrigido, fazendo pequenas modificações a esses arquivos JAR.
- Alguns links mortos na documentação foi corrigido.
O que é novo na versão 3.5.4:
- Agora é possível ocultar colunas de transformações de saída . Esconderijo não afetará o fluxo de processamento em tudo, mas simplesmente escondê-los a partir da interface do usuário e, portanto, potencialmente tornando a experiência mais limpa, ao interagir com outros componentes.
- Um novo serviço web foi adicionada ao aplicativo de monitoramento web, que fornece uma maneira de monitorar o status da execução de um determinado trabalho.
- Um bug foi corrigido, fazendo com que o relatório HTML para falhar para certos tipos de análise quando não há registros foram processados.
- e 6 outras pequeno bug foi dirigida.
O que é novo na versão 3.5.1:
- Captura mudou registros:
- Um novo filtro foi adicionado para permitir o processamento incremental de registros que não foram processados antes, por exemplo, para criação de perfis ou copiar somente os registros modificados. O nome do novo filtro de captura é alterado registros, referindo-se ao conceito de Change Data Capture.
- Na fila execução de trabalhos:
- O monitor DataCleaner vai agora a fila a execução do mesmo trabalho, se ele é acionado várias vezes. Isso garante que você não possa executar o mesmo trabalho ao mesmo tempo que pode levar a todos os tipos de questões, dependendo do que o trabalho faz.
- pequenas correções de bugs:
- Várias correções de bugs foi implementado.
O que é novo na versão 3.5:
- Vários assistentes estão agora disponíveis para registrar datastores; incluindo file-upload para o servidor para arquivos CSV, entrada de conexão de banco de dados, o registo guiada credenciais Salesforce.com e muito mais.
- O edifício trabalho assistentes também foram estendidos com diversos recursos avançados; Seleção de distribuição de valor e padrão encontrar campos no assistente de análise rápida, um completamente novo assistente para a criação de postos de trabalho de limpeza EasyDQ cliente com base e um novo assistente de emprego para disparar empregos Pentaho Data Integration (leia mais abaixo).
- Você pode agora ad-hoc consultar qualquer armazenamento de dados diretamente na interface do usuário da web. Isto torna mais fácil para obter insights rápidos ou esporádica para os dados sem a criação de postos de trabalho ou outras abordagens gestão de tratamento de dados.
- Uma vez que trabalhos ou armazenamentos de dados são criados, o usuário é orientado a tomar medidas com o objeto recém-construído. Por exemplo, você pode rapidamente executar um trabalho logo após ele é construído, ou consultar um armazenamento de dados depois de ter sido registada.
- Os administradores podem agora fazer o upload diretamente postos de trabalho no repositório, o que é especialmente útil se você quer entregar-editar o conteúdo XML dos arquivos de trabalho.
- Um monte de o cruft técnico é agora escondido em favor de mostrar diálogos simples. Por exemplo, quando um trabalho é acionado um grande indicador de carregamento é mostrada e, quando concluído, o resultado será mostrado. A tela de registro avançado que foi anteriormente não pode ainda ser exibida ao clicar um link para detalhes adicionais.
O que é novo na versão 3.1.2:
- Nós adicionamos um serviço web no monitoramento pedido de obtenção de um (de) lista os valores de métrica. Isso faz com que o monitoramento ainda mais útil como um componente-chave da infra-estrutura, como uma forma de controlar os dados (de qualidade) e expor os resultados para aplicativos de terceiros.
- O componente 'lookup Table' foi melhorado pela adição de juntar semântica como uma propriedade configurável. Usando a juntar-se a semântica você pode ajustar, se desejar a pesquisa para trabalhar semanticamente como um LEFT JOIN ou um INNER JOIN.
- Os componentes EasyDQ foram atualizados, adicionando novas opções de configuração e uma interface resultado desduplicação mais rico.
- Melhorias de desempenho têm sido um foco específico deste release. Foram feitas melhorias no motor de DataCleaner para utilizar ainda mais uma abordagem de processamento de streaming em certos casos de canto que não foi coberta anteriormente.
O que é novo na versão 3.1.1:
- A data e opções de análise de tempo relatadas foram ampliados , acrescentando analisadores de distribuição para os números da semana, meses e anos. Todos os analisadores relacionados a data ea hora são agora agrupados dentro de um submenu chamado & quot; Data e hora & quot; em & quot; Analisar & quot;.
- Um opcional & quot; & quot estatísticas descritiva; opção foi adicionada ao analisador Número e o analisador de data / hora. Esta opção adiciona métricas adicionais para os resultados destes analisadores, tais como mediana, assimetria, percentis e curtose. Estas métricas são opcionais, desde a sua pegada de memória é um pouco maior do que as métricas existentes.
- As linhas nos gráficos de linha do tempo da aplicação web de monitoração agora têm pequenos pontos neles. Isto é especialmente útil para os gráficos com poucas (ou mesmo apenas uma) observações neles -. Apontar exatamente onde os pontos de observação são
- O analisador de consulta quando consultas ad-hoc que invocam também foram substancialmente melhoradas. Agora consultas podem conter cláusulas distintas, * -wildcards, subconsultas e são para as questões de texto de caso de tolerância a falhas.
- Dois novos transformadores foram adicionados para gerar UUIDs e para a geração de data e hora.
O que é novo na versão 3.1:
- fórmulas métricas - elaborado Data Quality KPIs:
- Agora é possível construir muito mais elaborado Data Quality KPIs na aplicação web de monitoramento de DataCleaner. A interface do usuário permite que você construa fórmulas complexas em um estilo fórmula de planilha; utilizando variáveis coletadas por empregos DataCleaner.
- fórmulas métrica pode combinar qualquer número de métricas, constantes e operações, enquanto que pode ser expressa de uma equação matemática.
- Por exemplo - medir a taxa de registros duplicados em percentagem do número total de registros. Ou medir a quantidade de códigos de produtos que estão em conformidade com um conjunto de múltiplos padrões de cadeia.
- Ad-hoc de consulta - de qualquer armazenamento de dados:
- Com DataCleaner 3.1 agora você pode executar consultas ad-hoc para qualquer armazenamento de dados! As consultas podem ser expressos em SQL simples e será aplicada às bases de dados, bem como arquivos, bancos de dados NoSQL e muito mais, proporcionando um mecanismo de consulta verdadeiramente útil para estender em sua experiência de descoberta e criação de perfil de dados.
- A opção de consulta também está disponível através de um serviço web para monitorar os usuários com a função admin. A consulta é fornecido como um parâmetro HTTP POST ou corpo, eo resultado é fornecida como uma tabela XHTML.
- Valor de correspondência - uma nova opção de análise:
- Muitas vezes você ter uma ideia sólida sobre a qual valores devem ser autorizados e esperado para um campo particular. Em DataCleaner sempre houve a opção de análise de Distribuição do Valor que iria ajudá-lo valer os seus pressupostos. Em DataCleaner 3,1 porém, você tem uma oferta mais preciso - o matcher Value. Esta opção de análise permite que você especifique um conjunto de valores esperados e, em seguida, realizar uma distribuição de valor como análise, especificamente para validar e identificar valores inesperados.
- Copiar, excluir e gestão de postos de trabalho:
- Gestão de postos de trabalho e os resultados na aplicação do monitor DataCleaner foi melhorado muito. Você pode clicar agora um trabalho na página Programação do monitor, e encontrar opções de gestão disponíveis para operações como renomear, copiar, excluir e muito mais. Cada operação respeita os vínculos com outros artefatos no monitor, tais como resultados de análises, horários e mais. Isto significa que a gestão do repositório acompanhamento tornou-se muito mais fácil e madura.
- Gerenciar histórico de qualidade de dados:
- Às vezes você está enfrentando situações onde você realmente quer fazer acompanhamento com os dados históricos! Pode ser que você tem lixeiras históricos ou backups de bancos de dados, o que você deseja mostrar e contar a história de. Agora você pode fazer a análise desses dados históricos, enviá-lo para o monitor DataCleaner, e usando um novo serviço web, definir um conjunto de dados históricos de que o resultado da análise particular. Isso significa que seus cronogramas irá traçar corretamente os resultados usando a sua data prevista, mas com os resultados que você coletou talvez em um momento posterior.
- Suporte programador Agrupadas (somente EE):
- O planejador de monitor de DataCleaner foi exteriorizada, de modo que ele pode ser substituído por meio de configuração simples. No Enterprise Edition (EE) de DataCleaner, nós fornecemos um agendador de cluster, fornecendo a capacidade de balanceamento de carga e distribuir suas execuções em um cluster de máquinas.
- Single-signon (SSO) usando CAS (EE somente):
- Na Enterprise Edition (EE) de DataCleaner nós agora fornecer uma opção única de início de sessão para o aplicativo monitor. Agora DataCleaner pode ser uma parte integrante da sua infra-estrutura de TI, também em termos de segurança.
- ... E muito mais:
- A descrição acima é apenas um resumo. Mais de trinta problemas foram resolvidos nesta versão. Nós resolvemos vários pedidos provenientes dos fóruns e comunidade, e nós encorajamos todos a usar este meio como um veículo para a mudança. Estamos muito felizes de fazer o desenvolvimento de DataCleaner ser fortemente influenciado pelas correntes na comunidade.
O que é novo na versão 3.0.3:
- Adiciona um serviço para renomear postos de trabalho no repositório de monitoramento .
- Você pode acessar este como um serviço Web RESTful ou interativamente na interface do usuário.
- Um serviço Web foi adicionado para alterar a data histórica de um resultado de análise no repositório de monitoramento.
- A aplicação Web foi feito compatível com recipientes legado JSF.
- O cache de configuração do aplicativo Web foi melhorado muito, levando a carregamento da página e inicialização trabalho vezes mais rápido.
O que é novo na versão 3.0.2:
- Ao ativar uma tarefa na aplicação web de monitoramento, o painel de auto-atualiza a cada segundo para obter o último estado da execução.
- datastores baseados em arquivo (como CSV ou Excel planilhas) com caminhos absolutos estão agora resolvido corretamente no aplicativo de monitoramento web.
- O & quot; Selecione a partir de chave / valor do mapa & quot; transformador agora suporta expressões SELECT aninhada como & quot; Address.Street & quot; ou & quot; OrderLines [0] .product.name & quot;.
- O mecanismo de consulta à tabela foram otimizados para performance, usando declarações preparadas ao executar em bancos de dados JDBC.
- Os administradores podem agora baixar datastores baseados em arquivos diretamente do & quot; Datastores & quot; página.
- A manipulação de exceção no aplicativo de monitoramento web foi melhorado um pouco, fazendo com que as mensagens de erro mais precisa e intuitiva.
Comentários não encontrado