Inteligência Artificial para predição de sobrevida em pacientes com câncer de boca e de orofaringe
Abstract
O ramo da epidemiologia é a divisão das ciências médicas que estuda a distribuição e os fatores determinantes de doenças. Por meio da utilização de diversos mecanismos estatísticos e médicos, torna-se possível estimar a evolução do quadro clínico de um
indivíduo ou de um grupo acometido por determinada enfermidade. A partir disso, a análise de sobrevivência se tornou um dos tópicos mais importantes da esfera médica. O objetivo deste trabalho foi construir um modelo preditor, baseado em Inteligência Artificial (IA), capaz de realizar o cálculo da probabilidade de um paciente com câncer de boca ou de orofaringe sobreviver a períodos de tempo pré-determinados. Para tanto, foram utilizados dados públicos do Registro Hospitalar de Câncer (RHC), que são geridos pela Fundação Oncocentro de São Paulo (FOSP). Por meio deles, foi possível desenvolver análises sobre o câncer de boca e o câncer de orofaringe - que têm o potencial de contribuir com o Sistema Único de Saúde (SUS) - e também construir dez modelos preditores baseados em Aprendizado de Máquina (AM) supervisionados, a fim de inferir a probabilidade de determinado paciente sobreviver a períodos pré-determinados de tratamento. A base de dados do RHC disponibiliza bancos de dados desde o ano 2000. A estratégia tomada para o projeto foi utilizar os dados de câncer de boca e de orofaringe até o ano de 2015 para treinamento. Enquanto para o teste e a prova de campo foram utilizadas as bases de dados dos anos 2016 e 2017. Os resultados de desempenho dos modelos têm por embasamento as métricas reconhecidas na área da Ciência de Dados, sendo elas: acurácia, precisão, sensibilidade, Matriz de Confusão e Curva ROC ou AUC. A partir dessas métricas, foram
feitas as comparações de desempenho dos modelos de regressão multivariada, utilizados atualmente pelos epidemiologistas da FOSP, com os modelos classificadores baseados em AM. Os resultados evidenciaram a superioridade dos modelos de AM quando colocados a prova de campo contra os modelos bioestatísticos. O estudo também mostra que, devido a uma baixa quantidade de amostras, os resultados de sensibilidade dos modelos poderiam avançar ainda mais. Mas, ao mesmo tempo, percebe-se que a taxa de atualização anual da fonte de dados já será capaz de melhorar os resultados. Dessa forma, a criação de uma aplicação baseada nos modelos de AM já se torna, comprovadamente, uma ferramenta que permitirá aos profissionais da saúde, que precisam dessas métricas, realizar inferências mais assertivas sobre a evolução da doença em seus pacientes.