2.1 阅读行为分类模型介绍


阅读行为分类模型介绍

任务概述

  • 用户浏览投资相关内容(新闻,feed, 报告 等) 并产生入金行为
  • 基于用户浏览内容构建文本分类模型判断是否有入金行为

数据形式

已有数据包含用户和浏览内容的相关信息

数据的基本概况

  • 数据包含4479 个用户, 20180 条数据
  • 其中 1806 个用户具有入金行为 占比 40.6%
  • 其中 4968 条数据包含入金行为 占比 24.6%
  • 其中 2399 个用户 只有1条记录,占比 53%, 超过5 条数据的用户占比 13%

数据准备

  • 数据清洗: 除去标点和数字
  • 缺失值填充: 空格代替缺失值
  • 异常值处理: 个别用户浏览超过800+条内容

文本分类模型搭建

基于BERT 与训练模型 创建文本分类模型。 基本架构如下

  • 基于单条文本预测模型(a.k.a. BERT)
  • 基于最近三条浏览文本的预测模型 (a.k.a, BERT+CNN, BERT+LSTM)

动手实验

https://github.com/jackie930/financial-Forecast-RCA/tree/main/code/textcls_rca/code