kaggle比赛 || ICR疾病预测大赛

发表时间:2023-06-15 17:29作者:沃恩智慧


图片


赛题名称:ICR - Identifying Age-Related Conditions(ICR疾病预测大赛)

赛题链接:https://www.kaggle.com/competitions/icr-identify-age-related-conditions

赛题背景

年龄虽然只是一个数字,但随着年龄的增长身体可能随之会带来一系列健康问题,衰老是许多疾病的诱因。不断发展的生物信息学领域包括对有助于减缓和逆转生物衰老以及预防与年龄相关的主要疾病的干预措施的研究。数据科学可以在开发新方法来解决各种数据问题方面发挥作用,即使样本数量很少。目前,XGBoost 和随机森林等模型用于预测医疗状况,但模型的性能还不够好。在处理生命垂危的关键问题时,模型需要在不同案例之间做出可靠且一致的正确预测。

赛题方向

数据挖掘

赛题任务

本次比赛的目标是预测一个人是否患有三种疾病中的任何一种,参赛者将使用健康特征数据的测量来解决生物信息学中的关键问题,创建一个针对健康特征测量值进行训练的模型。

评价指标

使用对数损失评估提交。总体效果是每个班级对最终分数的重要性大致相同。

每个观察值要么是类的0,要么是类的1。对于每次观察,您必须提交每个类别的概率。图片

数据描述

比赛数据包含与三种与年龄相关的状况相关联的五十多个匿名健康特征。您的目标是预测受试者是否被诊断出患有这些病症之一——二元分类问题。

请注意,这是一个代码竞赛,其中隐藏了实际的测试集。在此版本中,我们以正确的格式提供了一些示例数据,以帮助您编写解决方案。当您提交的内容被评分时,此示例测试数据将被替换为完整的测试集。完整测试集中大约有 400 行。

  • train.csv训练集
  • test.csv - 测试集。您的目标是预测该集合中的受试者属于两个类别中的每个类别的概率。
  • greeks.csv:补充元数据,仅适用于训练集。
  • sample_submission.csv - 格式正确的示例提交文件。

时间安排

  • 2023 年 5 月 11 日- 开始日期。

  • 2023 年 8 月 3 日- 报名截止日期。
  • 2023 年 8 月 3 日- 团队合并截止日期。
  • 2023 年 8 月 10 日- 最终提交截止日期。

竞赛奖金

  • 第一名 - $18,000
  • 第二名 - $15,000
  • 第三名 - $10,000
  • 第四名 - $7,000
  • 第五名 - $5,000
  • 第六名 - $5,000

赛题解析

赛题是一个典型的数据挖掘的比赛,但难点在于数据量比较少,且数据是匿名。

比赛的关键点是能挖掘稳定的特征,并对特征进行解释和筛选,然后构建稳定的模型。

https://www.kaggle.com/code/keitashimizu21/en-ja-first-firsteda-baseline-icr

https://www.kaggle.com/code/samuelabatnehendalie/icr-identifying-age-related-conditions


分享到: