Kaggle赛题解析:UBC 卵巢癌分类

发表时间:2024-02-04 18:57

Ø赛题名称:UBC Ovarian Cancer Subtype Classification and Outlier Detection (UBC-OCEAN)

Ø赛题任务:UBC 卵巢癌亚型分类和异常值检测

Ø赛题类型:计算机视觉、图像分类

Ø赛题链接

https://www.kaggle.com/competitions/UBC-OCEAN/overview

比赛介绍

卵巢癌,女性健康的一大威胁,分为五大主要亚型:高级别浆液性、透明细胞、子宫内膜样、低级别浆液性和黏液性。每一种亚型都有其独特的细胞结构、成因、分子和遗传特点以及临床表现。随着对这些亚型特定治疗策略的研究不断深入,精确的亚型识别变得尤为重要。亚型特定的治疗方法逐渐崭露头角,但首先需要进行亚型鉴定,这个过程可以通过数据科学进行改进。


当前,卵巢癌的确诊主要依赖于病理专家对亚型的评估,这一过程存在诸多挑战,如不同专家之间的判断差异以及诊断结果的一致性问题。在一些资源不足的地区,专业病理专家的匮乏尤为突出。即使在医疗资源相对丰富的社区,专门从事妇科恶性肿瘤病理诊断的专家也相对稀缺。

深度学习技术在解析组织病理学图像方面展现出了显著的优势。尽管如此,它仍面临诸多挑战,例如对大量单一来源训练数据的需求。此外,技术、伦理、财务以及数据保密等问题也为模型的训练带来了额外的难度。在即将到来的竞赛中,参与者将有机会接触到一个涵盖四大洲、超过20个研究中心的广泛且多样化的卵巢癌组织病理学图像数据库,这将为深度学习模型的训练提供宝贵的资源。

评估指标

比赛的提交将使用"平衡准确度"进行评估,对于测试集中的每个image_id,您需要预测一个

label变量的类别。提交文件应包含一个标题行,并具有以下格式:

image_id,label
2,CC
5,EC
6,HGSC
等等。

数据集介绍

在这个竞赛中,采用了一种特殊的测试数据设置。当你提交你的评分笔记本时,你将能够访问实际的测试数据集,包括一个完整的示例提交。请注意,由于数据集的庞大规模,训练用图像并不会包含在你的提交笔记本中。

[train/test]_images:包含相关图像的文件夹。有两种类型的图像:全切片图像(WSI)和组织微阵列(TMA)。全切片图像是以20倍放大,可以相当大。TMAs较小(大约4000x4000像素),但以40倍放大。测试集包含来自不同来源医院的图像,其中最大的图像尺寸几乎为100,000 x 50,000像素。

[train/test].csv:训练集的标签。

Øimage_id

- 每个图像的唯一ID代码。

Ølabel- 目标类别。是卵巢癌的亚型之一,其中包括CC, EC, HGSC, LGSC, MC, Other"Other"类别在训练集中不存在;识别离群值是这个竞赛的挑战之一。仅适用于训练集。

Øimage_width- 图像的宽度(像素)。

Øimage_height- 图像的高度(像素)。

Øis_tma- 如果幻灯片是组织微阵列,则为True。仅适用于训练集。

[train/test]_thumbnails:包含全切片图像的较小.png

副本的文件夹。不提供TMAs的缩略图。

sample_submission.csv:一个有效的示例提交文件。只能下载第一行。

赛题赛程

Ø2023 12 27 - 报名截止日期。

Ø2024 1 3 - 最终提交截止日期。



分享到: