基于Amazon SageMaker训练一个关键词抽取模型以及部署

什么是关键词抽取

在自然语言处理领域,处理海量的文本文件最关键的是要把用户最关心的问题提取出来。而无论是对于长文本还是短文本,往往可以通过一些关键词窥探整个文本的主题思想。与此同时,不管是基于文本的推荐还是基于文本的搜索,对于文本关键词的依赖也很大,关键词提取的准确程度直接关系到推荐系统或者搜索系统的最终效果。因此,关键词提取在文本挖掘领域是一个很重要的部分。

方法对比

  • KeyBert
    • 无监督(自监督)
    • 基于语意信息非统计频次
    • 用于无标注场景下的使用,替换传统的textrank
  • T5-prompt
    • 需要训练
    • 基于prompt-learning
    • 可扩展
  • UIE
    • 小样本
    • 实体抽取预训练模型强大
    • 专业领域表现优秀