基于spark streaming实时流的特征工程推荐方法及装置、视频网站
Abstract:
本发明公开了一种基于spark streaming实时流的特征工程推荐方法,包括,获取客户端的展开日志和点击日志,清洗后打入分布式消息队列;使用spark streaming订阅展开日志和点击日志的日志流,在工程中合并两个日志流中的流数据;操作流数据生成标签以标识出展开点击和展开未点击流数据;根据基础特征为展开日志和点击日志构造多维特征,同时组合基础时间特征;将具有新的特征的流数据分别进行离线训练和在线训练以生成推荐流数据。本发明提供了一种广泛适用大多数领域的特征提取方式,解决了特征工程适用范围小的问题,并采用以在线为主、离线纠正的方式,解决了特征工程时效性的问题,并经过一些列的特征组合变换来实现特征的有效性和准确性。
Patent Agency Ranking
0/0