代码之家  ›  专栏  ›  技术社区  ›  Ahmed Essam

如何建立监督机器学习项目的目标变量

  •  1
  • Ahmed Essam  · 技术社区  · 7 年前

    我对机器学习很陌生,经验很少,我做过一些项目。

    现在我有一个与保险有关的项目。因此,我有关于客户的数据库,我将合并这些数据库,以获取有关客户的所有可能信息,我有一个用于索赔的数据库。我需要建立一个模型,根据等级确定客户的风险。

    我的问题是:我需要建立我的目标变量,根据客户的风险程度对他们进行排序,并计算索赔。我可以有不同的策略来做到这一点,但我对如何处理以下问题感到困惑: -如果我使用索赔数据库中的一些变量来建立秩,我以后将如何处理它们。换句话说,我应该将它们从最终数据集中删除以进行训练,以避免与目标变量相关,还是可以以不同的方式处理它们并保留它们。

    2 回复  |  直到 7 年前
        1
  •  0
  •   ahmet hamza emra    7 年前

    每个机器学习项目的起点都是EDA。首先创建一些特性,比如他们多久收到一次错误声明,或者收到多少次。然后进行一些EDA以找出哪些功能更有用。其次,问题看起来像分类。聚类通常更难评估。

        2
  •  0
  •   V SAI MAHIDHAR    6 年前

    在数据科学中,当您建立业务模型时,EDA探索性数据分析扮演着主要角色,其中包括数据清理、特征工程和过滤数据。如前所述,如何构建目标变量,这完全取决于您拥有的属性,以及您想要应用什么模型,例如线性回归或逻辑回归,或者建立决策树。你需要使用这些算法。但最重要的是,你需要找出影响变量。这可能是输出和给定输入之间的核心关系,必须相应地给予优先级。此外,必须删除没有增加值的属性,因为这会导致过度拟合。