用户建模,指确定提取的用户特征为度,和需要使用到的数据源
数据收集,通过数据收集工具,如Flume或自己写的脚本程序,把需要使用的数据统一存放到Hadoop集群
数据清理,数据清理的过程通常位于Hadoop集群,也有可能与数据收集同时进行,这一步的主要工作是把收集到各种来源杂乱无章的数据进行字段提取,得到关注的目标特征
模型训练,有些特征可能无法直接从数据清理得到,比如用户感兴趣的内容或用户的消费水平,那么可以通过收集到的已知特征进行学习和预测
属性预测,利用训练得到的模型和用户的已知特征,预测用户的未知特征
数据合并,把用户通过各种数据源提取的特征进行合并,并给出一定的可信度
数据分发,对于合并后的结果数据,分发到精准营销、个性化推荐、CRM等各个平台,提供数据支持
以用户性别为例:提取用户自己填写的资料——提取用户的称谓——根据用户姓名预测用户性别——利用其他特征如用户访问过的网站