数据挖掘面试

面试百度数据挖掘实习

百度数据挖掘实习生面试(2016年)

  • 给你一个千万级的数据(title),每一行为一组数据,大概有一千万条,每行数据为一串文字(如:张子帆今天去游泳了,真tm开心)。此外还给出一组屏蔽词(如:tm),需要在title中进行处理,将title中出现的屏蔽词进行屏蔽。(上述例子得到的结果是:张子帆今天去游泳了,真开心)。需要给出一种高效的算法,实现上述功能。
  • 假如通过某种方法可以得到title中每行屏蔽词的index(起始位置)以及length(长度)如得到一组数据:4 2;4 3;9 4;等等,如何将title中的屏蔽词删去,给出一种高效的算法。
  • c++中的虚函数是什么?
  • python中内存是怎么分配的?
  • java中的HashMap容器中键值是以什么数据结构存储的?