最近三天IDQ培训的一点意外收获
- 2011年3月9日
- 由naroah
最近三天参加Informatica的一个Workshop,关于Data Quality的。说是培训,其实上也就是一个简略的介绍,好在发下来的资料文档挺详尽,对于掌握一件工具的简单使用足矣。在Matching Theory部分提到了几种算法,倒是让我有点意外,虽然不是很深入地介绍了下,而且只是算法的使用,可也是一点收获。
在Grouping时Create Key的Strategy使用了Soundex和NYSIIS两个算法,其中Soundex在Kunth的书中有详细介绍。在Matching的Strategy中也提到5中经典的匹配算法策略,分别是Jaro Distance,Bigram Distance,Hamming Distance,Edit Distance和Reverse Hamming Distance,都是比较简单的算法。