按 ‘ Data Warehousing ’ 分类归档

最近三天IDQ培训的一点意外收获

最近三天参加Informatica的一个Workshop,关于Data Quality的。说是培训,其实上也就是一个简略的介绍,好在发下来的资料文档挺详尽,对于掌握一件工具的简单使用足矣。在Matching Theory部分提到了几种算法,倒是让我有点意外,虽然不是很深入地介绍了下,而且只是算法的使用,可也是一点收获。

在Grouping时Create Key的Strategy使用了Soundex和NYSIIS两个算法,其中Soundex在Kunth的书中有详细介绍。在Matching的Strategy中也提到5中经典的匹配算法策略,分别是Jaro Distance,Bigram Distance,Hamming Distance,Edit Distance和Reverse Hamming Distance,都是比较简单的算法。

Pentaho Kettle 4.1 requires JDK 1.6

最近升级了开发环境的kettle为4.1.0,虽然从3.2.0版本一直升级到4.0版本都没遇到过什么问题,可是4.1.0版突然间给了咱一点惊喜,bug不少啊。 猛击阅读全文