A.
基于散列的两趟算法的第一趟是散列子表。用某一个散列函数,将具有相同散列值的元组散列到相同的子表中并存回磁盘。
B.
基于散列的两趟算法的第二趟是用与第一趟相同的散列函数,将子表再散列到内存的不同内存块中,在具有相同散列值的所有内存块中去重复,即是在整个关系上去重复。所有子表处理完成,去重复操作即告完成。
C.
基于散列的两趟算法的第二趟是用与第一趟不同的散列函数,将子表再散列到内存的不同内存块中,在具有相同散列值的所有内存块中去重复,即是在整个关系上去重复。所有子表处理完成,去重复操作即告完成。
D.
两次散列函数的选择是不同的,第一趟是在大范围上进行散列,将一个大数据集散列成若干个具有相同散列值的散列子表,第二趟是在小范围上进行散列,将具有某相同散列值的散列子表 ( 大范围上散列值相等 ) 散列到内存的某一块或几块 ( 小范围上散列值相等 ) 。