Classificação de Dados de Câncer de Mama

Citation:

If you want to cite this pipeline, please use this reference:

Valentin, A.B.M., Bressan, G.M., da Silva Lizzi, E.A., Lopes, F.M. (2024). Learning Algorithms for Breast Cancer Classification and Diagnosis. In: Pereira, A.I., et al. Optimization, Learning Algorithms and Applications. OL2A 2024. Communications in Computer and Information Science, vol 2280. Springer, Cham. https://doi.org/10.1007/978-3-031-77426-3_6

Classificação de Dados de Câncer de Mama

Este repositório contém todas as implementações de código de classificação para os conjuntos de dados sobre câncer de mama retirados dos seguintes repositórios: TCGA, GEO, e Wisconsin. Os projetos incluem pré-processamento de dados, treinamento de modelos de classificação e avaliação, com foco em reprodutibilidade e análise robusta.

Bibliotecas e Dependências

Você encontrará um arquivo (requirements.txt para Python ou DESCRIPTION/renv.lock para R) que especifica todas as versões das bibliotecas utilizadas. Isso garante que as análises possam ser reproduzidas com as mesmas versões das dependências.

Estrutura e Descrição do Repositório

Cada pasta no repositório corresponde a um conjunto de dados específico e contém todos os códigos e arquivos necessários para a reprodução das análises:

TCGA Repository

Neste projeto, realizamos uma série de etapas para a análise dos dados do TCGA. Primeiro, aplicamos a normalização usando o Z-score para padronizar os dados. Em seguida, empregamos a Análise de Componentes Principais (PCA) para reduzir a dimensionalidade dos dados. Utilizamos diversos modelos de classificação, incluindo Random Forest (RF), Regressão Logística (RL), Multilayer Perceptron (MLP), Convolutional Neural Networks (CNN) e Support Vector Machine (SVM). O repositório contém códigos tanto com a otimização de hiperparâmetros usando Optuna quanto versões sem o uso do Optuna, permitindo comparações entre diferentes abordagens.

GEO Repository

Para os dados do GEO, seguimos uma abordagem semelhante. Inicialmente, aplicamos a normalização com o Z-score para padronizar os dados. Em seguida, utilizamos a PCA para reduzir a dimensionalidade, facilitando a análise dos dados. Implementamos vários modelos de classificação, como Random Forest (RF), Regressão Logística (RL), Multilayer Perceptron (MLP), Convolutional Neural Networks (CNN) e Support Vector Machine (SVM). O repositório inclui códigos que utilizam Optuna para otimização de hiperparâmetros, bem como versões dos códigos sem essa otimização, permitindo uma análise mais completa das técnicas empregadas.

Wisconsin Repository

A análise dos dados do Wisconsin seguiu uma abordagem um pouco diferente, devido à natureza binária dos dados.

Name		Name	Last commit message	Last commit date
Latest commit History 16 Commits
ERMAC		ERMAC
GEO Repository		GEO Repository
TCGA Repository		TCGA Repository
Wisconsin Repository		Wisconsin Repository
README.md		README.md
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Citation:

Classificação de Dados de Câncer de Mama

Bibliotecas e Dependências

Estrutura e Descrição do Repositório

TCGA Repository

GEO Repository

Wisconsin Repository

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Citation:

Classificação de Dados de Câncer de Mama

Bibliotecas e Dependências

Estrutura e Descrição do Repositório

TCGA Repository

GEO Repository

Wisconsin Repository

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages