Introduction
Que se passera-t-il lorsque les grands modèles de langage encoderont les connaissances cliniques ? Dans cet article, nous discuterons des applications théoriques des LLM dans le domaine médical, des contraintes qui empêchent leur utilisation, des conséquences de l’encodage des connaissances cliniques par les LLM, des LLM médicaux open source actuels et de la manière d’entraîner votre propre LLM médical. Continuez à lire pour libérer le potentiel des LLM dans le domaine médical !
Comment les LLM peuvent-ils potentiellement aider dans les tâches cliniques ?

Interprétation améliorée des données
Les grands modèles de langage (LLM) peuvent considérablement améliorer les tâches cliniques en offrant des capacités avancées de compréhension du langage naturel. Ils peuvent interpréter des textes médicaux complexes, tels que les dossiers de santé électroniques (EHR) et les rapports de radiologie, pour extraire des informations cruciales qui facilitent le diagnostic et la planification du traitement.
Codage médical automatisé
Les LLM peuvent rationaliser le processus de codage médical en identifiant et en catégorisant avec précision les conditions et les procédures des patients à partir de récits cliniques, réduisant ainsi la charge administrative des professionnels de santé.
Aide à la décision clinique
En analysant les modèles et les tendances au sein de grands ensembles de données, les LLM peuvent offrir des recommandations fondées sur des preuves, aidant les cliniciens à prendre des décisions éclairées. Ils peuvent également se tenir à jour avec les dernières recherches médicales et fournir des mises à jour en temps réel aux directives cliniques.
Vérification des interactions médicamenteuses
Les LLM peuvent être entraînés à comprendre et à prédire les potentiels interactions médicamenteuses et contre-indications en analysant les listes de médicaments des patients et la littérature médicale, améliorant ainsi la sécurité des patients.
Tri et vérificateur de symptômes
Dans les environnements de télémédecine et de soins de santé à distance, les LLM peuvent agir comme des évaluateurs initiaux des symptômes des patients, fournissant des diagnostics préliminaires et dirigeant les patients vers le niveau de soins approprié.
Quelles sont les raisons qui restreignent les applications des LLM généraux dans le domaine médical ?

Besoin de connaissances spécialisées
Le langage médical est hautement technique et dépendant du contexte. Les LLM généraux peuvent manquer de la compréhension nuancée de la terminologie médicale et des concepts cliniques, ce qui entraîne des inexactitudes dans l’interprétation.
Problèmes de confidentialité et de sécurité des données
Les données cliniques sont sensibles et soumises à des protections réglementaires strictes. L’utilisation des LLM dans les soins de santé doit garantir un chiffrement robuste des données et se conformer aux réglementations spécifiques aux soins de santé telles que la HIPAA.
Risque de désinformation
Les LLM entraînés sur des ensembles de données diversifiés peuvent involontairement générer des informations erronées ou des conseils médicaux obsolètes, ce qui peut avoir des conséquences graves dans un cadre clinique.
Manque d’explicabilité
Dans les applications médicales, il est crucial de comprendre le raisonnement derrière la décision d’un modèle. Les LLM généraux fonctionnent souvent comme des « boîtes noires », rendant difficile l’explication et la confiance dans leurs résultats dans des situations critiques.
Considérations éthiques
L’utilisation des LLM en médecine soulève des questions éthiques concernant les biais dans les données, l’équité algorithmique et le potentiel de conséquences imprévues sur les soins aux patients.
Intensité des ressources informatiques
L’entraînement et le déploiement de LLM à grande échelle nécessitent des ressources informatiques importantes, ce qui peut ne pas être réalisable pour tous les prestataires de soins de santé, en particulier dans des environnements aux ressources limitées.
Surveillance et mise à jour continues
Les connaissances médicales évoluent rapidement, nécessitant une surveillance et une mise à jour continues des LLM pour garantir que leur base de connaissances reste actuelle. Cela nécessite une équipe dédiée d’experts et un processus durable pour les mises à jour du modèle.
Approbation réglementaire et validation
Les LLM utilisés dans les soins de santé doivent subir une validation rigoureuse et recevoir l’approbation des organismes de réglementation pour garantir qu’ils répondent aux normes requises de sécurité et d’efficacité dans la pratique médicale.
Est-il possible d’entraîner les LLM à devenir de bons médecins ?
Les auteurs de l’article « Large Language Models Encode Clinical Knowledge » répondront probablement : « C’est prometteur, mais c’est compliqué. » Comme toujours, si vous n’êtes pas intéressé par la discussion académique technique ci-dessous, prenez simplement cette conclusion et passez à la section suivante : L’article souligne la promesse des LLM pour encoder les connaissances médicales et les défis importants qui doivent être surmontés pour garantir leur utilisation sûre et efficace dans les contextes cliniques.

Contexte
- Les grands modèles de langage (LLM) ont montré des performances impressionnantes dans diverses tâches, mais leur efficacité dans les contextes cliniques, où la sécurité est critique, n’est pas bien établie.
- Les auteurs soulignent la nécessité d’un benchmark complet pour évaluer les performances de ces modèles à répondre aux questions médicales de manière précise et sécurisée.
Benchmark MultiMedQA
- Les chercheurs introduisent MultiMedQA, un benchmark qui combine six ensembles de données existants de questions-réponses médicales et un nouvel ensemble de données appelé HealthSearchQA, qui comprend des questions médicales couramment recherchées en ligne.
- Ce benchmark est conçu pour évaluer les modèles sur plusieurs aspects, notamment la factualité, la compréhension, le raisonnement, le préjudice potentiel et le biais.
Évaluation du modèle
- Les auteurs évaluent un LLM de 540 milliards de paramètres appelé PaLM et sa variante ajustée par instructions, Flan-PaLM, sur le benchmark MultiMedQA.
- En utilisant diverses stratégies d’incitation, Flan-PaLM atteint une précision de pointe sur les ensembles de données de questions médicales à choix multiples, y compris une amélioration significative de 17 % sur MedQA, qui contient des questions de type examen de licence médicale américaine.

Cadre d’évaluation humaine
- Les chercheurs proposent un cadre d’évaluation humaine pour évaluer les réponses du modèle selon plusieurs dimensions, notamment l’alignement avec le consensus scientifique, le potentiel de préjudice et la présence de biais.
- Un panel de cliniciens a évalué les performances des modèles, révélant des lacunes clés même dans les modèles performants.
Ajustement par instructions (Instruction Prompt Tuning)
- Pour combler les lacunes identifiées, les auteurs introduisent l’« ajustement par instructions », une méthode pour aligner plus étroitement les LLM avec le domaine médical en utilisant quelques exemples.
- Le modèle résultant, Med-PaLM, montre une amélioration des performances et de la sécurité mais reste en deçà des normes cliniques.
Principales conclusions
- L’étude constate que l’échelle du modèle et l’ajustement par instructions améliorent la compréhension, le rappel des connaissances et le raisonnement.
- Alors que les LLM montrent un potentiel d’utilisation en médecine, les évaluations humaines révèlent des limites, soulignant la nécessité de cadres d’évaluation robustes et de développement de méthodes pour créer des LLM sûrs et utiles pour les applications cliniques.
Limites et travaux futurs
- Les auteurs reconnaissent que MultiMedQA, bien que diversifié, n’est pas exhaustif et prévoient de l’étendre pour inclure davantage de domaines médicaux et scientifiques ainsi que des évaluations multilingues.
- Ils soulignent également la nécessité pour les LLM de fonder leurs réponses sur des sources médicales faisant autorité, de détecter et de communiquer l’incertitude, de répondre dans plusieurs langues et de mieux s’aligner sur les exigences de sécurité médicale.
- L’amélioration des méthodes d’évaluation humaine et la prise en compte de l’équité et de l’équité dans l’utilisation des LLM dans les soins de santé sont mises en avant comme d’importantes orientations de recherche future.
Existe-t-il des LLM médicaux open source que je peux utiliser ?
- Med_Gemini-[2D,3D,Polygenic] : Amélioration des fonctions médicales multimodales de Gemini
- BioBERT : Un modèle de représentation du langage biomédical conçu pour les tâches de fouille de textes biomédicaux
- BioMistral : Un LLM open source adapté au domaine biomédical, utilisant Mistral comme modèle de base et pré-entraîné sur PubMed Central
- MEDITRON-70B : Une suite de LLM open source avec 7B et 70B de paramètres adaptés au domaine médical
- PMC-LLaMA : Un modèle de langage open source puissant spécialement conçu pour les applications médicales
- MEDALPACA : Une collection open source de modèles d’IA conversationnelle médicale et de données d’entraînement
- BioMedLM-PubMedGPT : Un modèle autorégressif de style GPT de 2,7 milliards de paramètres, entraîné exclusivement sur des résumés PubMed et des articles complets
- Med-PaLM : Un grand modèle de langage de Google Research, conçu pour le domaine médical
- PubMedBERT : Un modèle de langage pré-entraîné spécialement conçu pour les tâches de traitement du langage naturel biomédical
Comment puis-je entraîner mon propre LLM médical ?
Entraîner un LLM médical compétent nécessite une approche synergique qui combine les atouts fondamentaux des API LLM avec des connaissances spécialisées du domaine et des pratiques rigoureuses en science des données. En termes simples, il faut permettre aux grands modèles de langage d’encoder les connaissances cliniques. Après avoir lu ces directives, vous pouvez avoir une idée générale des étapes à suivre si vous souhaitez entraîner votre propre LLM médical.
Étape 1 Tirer parti des API LLM existantes pour le prototypage
Commencez par utiliser des API LLM établies pour prototyper et évaluer vos tâches de traitement du langage médical. Les API LLM telles que celles fournies par Novita AI offrent un accès à des modèles qui ont été pré-entraînés sur de vastes corpus et peuvent être adaptés à des domaines spécialisés par un réglage fin ultérieur.

Avant d’intégrer des API, Novita AI vous permet également de voir les performances des LLM disponibles afin que vous puissiez décider lesquels répondent à vos attentes pour votre propre LLM médical.

Étape 2 Compréhension approfondie du domaine
Acquérez une compréhension exhaustive du domaine médical, y compris la maîtrise des terminologies cliniques, des procédures de diagnostic et du paysage réglementaire régissant les données médicales. Cette expertise est indispensable pour organiser un ensemble de données pertinent et suffisamment riche pour entraîner un LLM médical compétent.
Étape 3 Curation et annotation rigoureuses des données
Rassemblez un ensemble de données diversifié et représentatif de la littérature médicale, des dossiers de santé électroniques (EHR) désidentifiés et des récits cliniques. Mettez en œuvre des étapes rigoureuses de prétraitement des données, y compris la tokenisation, l’étiquetage grammatical et la reconnaissance d’entités, pour structurer les données pour l’entraînement du modèle. L’annotation doit être effectuée par des experts du domaine pour garantir que l’ensemble de données est correctement étiqueté pour les tâches d’apprentissage supervisé.
Étape 4 Pré-entraînement personnalisé sur des ensembles de données médicaux
Utilisez l’architecture fondamentale fournie par une API LLM comme point de départ. Ensuite, effectuez une phase de pré-entraînement spécifique au domaine en conditionnant davantage le modèle sur votre ensemble de données médical organisé. Ce processus, connu sous le nom de pré-entraînement adaptatif au domaine (DAPT), facilite l’acquisition par le modèle du jargon médical et des compétences de raisonnement clinique.
Étape 5 Réglage fin avec des données spécialisées
Utilisez les capacités de réglage fin de l’API LLM pour adapter le modèle à des tâches médicales spécifiques telles que la prédiction de diagnostic, la recommandation de traitement ou l’extraction d’informations à partir de rapports de radiologie. Le réglage fin avec un ensemble de données spécifique à la tâche améliore la capacité du modèle à fournir des réponses précises et contextuellement pertinentes.
Étape 6 Évaluation du modèle et optimisation des hyperparamètres
Mettez en œuvre une série d’évaluations quantitatives, y compris la précision, le rappel, le score F1 et l’analyse de la courbe ROC (Receiver Operating Characteristic), pour évaluer les performances du modèle. Engagez-vous dans l’optimisation des hyperparamètres en utilisant des techniques comme la recherche par grille ou l’optimisation bayésienne pour améliorer la précision prédictive et la généralisabilité du modèle.
Étape 7 Amélioration continue du modèle et mise à jour des connaissances
Établissez un protocole d’apprentissage continu et de mise à jour du modèle pour intégrer les dernières découvertes médicales et résultats de recherche. Cela garantit que la base de connaissances du modèle reste actuelle et pertinente, s’adaptant au paysage médical en évolution.
Étape 8 Traiter les problèmes éthiques et de conformité
Assurez-vous que le processus d’entraînement respecte les normes éthiques et se conforme aux réglementations en matière de soins de santé telles que la Health Insurance Portability and Accountability Act (HIPAA). Mettez en œuvre des mesures robustes de protection des données et maintenez la transparence dans la prise de décision du modèle pour préserver la confidentialité et la confiance des patients.
Conclusion
Alors que nous concluons notre exploration des LLM dans les tâches cliniques, il est clair que si cette technologie est extrêmement prometteuse, elle n’est pas sans défis. Ce blog a mis en lumière les façons innovantes dont les LLM peuvent assister dans diverses tâches médicales, du codage médical automatisé au tri et à la vérification des symptômes. Cependant, le chemin vers l’intégration de ces modèles dans la pratique clinique est semé d’obstacles tels que les exigences de connaissances spécialisées, les préoccupations de confidentialité des données et la nécessité d’une surveillance continue et d’une approbation réglementaire.
Exploiter tout le potentiel des grands modèles de langage (LLM) dans le domaine médical est un effort collaboratif qui nécessite une sagesse et une expertise partagées. Que vous choisissiez de vous plonger dans les cadres existants de LLM médicaux ou de vous lancer dans la création d’un modèle sur mesure adapté à vos besoins, le voyage est à la fois excitant et gratifiant. Adoptez la synergie de l’intelligence collective tout en débloquant les capacités transformatrices des LLM dans les soins de santé.
Novita AI, la plateforme tout-en-un pour une créativité illimitée qui vous donne accès à plus de 100 API. De la génération d’images et du traitement du langage à l’amélioration audio et à la manipulation vidéo, avec un paiement à l’utilisation économique, elle vous libère des soucis de maintenance GPU tout en construisant vos propres produits. Essayez-le gratuitement.
