Las enfermedades autoinmunes sistémicas (EAS) constituyen un reto diagnóstico debido a la heterogeneidad de sus manifestaciones y a la frecuente superposición de síntomas. La integración de modelos de lenguaje de gran escala (LLM), como GPT-4, podría complementar el juicio clínico mediante el análisis sistemático de datos clínicos estandarizados.
ObjetivoEvaluar la capacidad diagnóstica de GPT-4 en los pacientes con EAS en un centro de tercer nivel, comparando sus resultados con el diagnóstico definitivo de consenso emitido por especialistas.
MétodosSe realizó un estudio retrospectivo sobre una cohorte de 101 pacientes atendidos de forma consecutiva entre el 1 de enero y el 31 de marzo de 2024 en la Unidad de EAS del Hospital Universitario La Paz. La recolección de datos se efectuó aplicando el protocolo de anamnesis estandarizado de la unidad. El modelo «my GPT», basado en GPT-4 y entrenado conforme a criterios diagnósticos internacionales, fue evaluado siguiendo las directrices TRIPOD-AI.
ResultadosLa tasa global de aciertos diagnósticos fue del 97,03%. El análisis basado exclusivamente en los datos de la anamnesis alcanzó una precisión del 82,18%, la cual se incrementó en un 14,85% al incorporar los resultados inmunológicos. Se obtuvo una precisión del 100% en el diagnóstico de lupus eritematoso sistémico, enfermedad de Sjögren, miopatías inflamatorias, enfermedad de Behçet y esclerodermia. En contraste, para sarcoidosis y vasculitis, entidades que frecuentemente requieren confirmación histológica, la precisión fue del 91,67 y 80%, respectivamente.
ConclusiónEl uso de GPT-4, fundamentado en una recopilación de datos clínicos sistemática y evaluado conforme a las guías TRIPOD-AI, demuestra un alto potencial como herramienta auxiliar en el diagnóstico de las EAS. La integración de este enfoque en la práctica clínica podría contribuir a reducir la variabilidad interobservador y a optimizar la toma de decisiones.
Systemic autoimmune diseases (SADs) pose a diagnostic challenge due to the heterogeneity of their manifestations and the frequent overlap of symptoms. The integration of large language models (LLMs), such as GPT-4, could complement clinical judgment through the systematic analysis of standardized clinical data.
ObjectiveTo evaluate the diagnostic capability of GPT-4 in patients with SADs at a tertiary care center, comparing its results with the final consensus diagnosis issued by specialists.
MethodsA retrospective study was conducted on a cohort of 101 consecutively treated patients between January 1 and March 31, 2024, at the SAD Unit of La Paz University Hospital. Data collection was carried out using the unit's standardized anamnesis protocol. The “my GPT” model, based on GPT-4 and trained according to international diagnostic criteria, was evaluated following TRIPOD-AI guidelines.
ResultsThe overall diagnostic accuracy rate was 97.03%. Analysis based solely on anamnesis data achieved an accuracy of 82.18%, which increased by 14.85% when immunological results were included. A 100% accuracy was achieved in diagnosing systemic lupus erythematosus, Sjögren's syndrome, inflammatory myopathies, Behçet's disease, and scleroderma. In contrast, for sarcoidosis and vasculitis —conditions that often require histological confirmation— accuracy was 91.67% and 80%, respectively.
ConclusionThe use of GPT-4, grounded in systematic clinical data collection and evaluated in accordance with TRIPOD-AI guidelines, demonstrates strong potential as an auxiliary tool in the diagnosis of SADs. Integrating this approach into clinical practice could help reduce interobserver variability and optimize decision-making.
Artículo
Diríjase desde aquí a la web de la >>>FESEMI<<< e inicie sesión mediante el formulario que se encuentra en la barra superior, pulsando sobre el candado.

Una vez autentificado, en la misma web de FESEMI, en el menú superior, elija la opción deseada.

>>>FESEMI<<<








