百度数据挖掘实习生面试(2016年)
- 给你一个千万级的数据(title),每一行为一组数据,大概有一千万条,每行数据为一串文字(如:张子帆今天去游泳了,真tm开心)。此外还给出一组屏蔽词(如:tm),需要在title中进行处理,将title中出现的屏蔽词进行屏蔽。(上述例子得到的结果是:张子帆今天去游泳了,真开心)。需要给出一种高效的算法,实现上述功能。
- 假如通过某种方法可以得到title中每行屏蔽词的index(起始位置)以及length(长度)如得到一组数据:4 2;4 3;9 4;等等,如何将title中的屏蔽词删去,给出一种高效的算法。
- c++中的虚函数是什么?
- python中内存是怎么分配的?
- java中的HashMap容器中键值是以什么数据结构存储的?