banderolë_page

lajme

Modeli i Gjuhës së Madhe (LLM) mund të shkruajë artikuj bindës bazuar në fjalë të shpejta, të kalojë provimet e aftësisë profesionale dhe të shkruajë informacione miqësore me pacientin dhe empatike. Megjithatë, përveç rreziqeve të njohura të trillimit, brishtësisë dhe fakteve të pasakta në LLM, çështje të tjera të pazgjidhura po bëhen gradualisht në fokus, siç janë modelet e IA-së që përmbajnë "vlera njerëzore" potencialisht diskriminuese në krijimin dhe përdorimin e tyre, dhe edhe nëse LLM nuk fabrikon më përmbajtje dhe eliminon rezultatet e dukshme të dëmshme të daljes, "vlerat e LLM" mund të devijojnë ende nga vlerat njerëzore.

 

Shembuj të panumërt ilustrojnë se si të dhënat e përdorura për të trajnuar modelet e IA-së kodojnë vlerat individuale dhe shoqërore, të cilat mund të konsolidohen brenda modelit. Këta shembuj përfshijnë një gamë aplikimesh, duke përfshirë interpretimin automatik të rrezeve X të kraharorit, klasifikimin e sëmundjeve të lëkurës dhe vendimmarrjen algoritmike në lidhje me ndarjen e burimeve mjekësore. Siç u tha në një artikull të kohëve të fundit në revistën tonë, të dhënat e trajnimit të paragjykuar mund të amplifikojnë dhe zbulojnë vlerat dhe paragjykimet e pranishme në shoqëri. Përkundrazi, hulumtimet kanë treguar gjithashtu se IA mund të përdoret për të zvogëluar paragjykimet. Për shembull, studiuesit aplikuan modele të të mësuarit të thellë në filmat me rreze X të gjurit dhe zbuluan faktorë që nuk u vunë re nga treguesit standardë të ashpërsisë (të vlerësuar nga radiologët) brenda nyjes së gjurit, duke zvogëluar kështu ndryshimet e pashpjegueshme të dhimbjes midis pacientëve me ngjyrë dhe të bardhë.

Edhe pse gjithnjë e më shumë njerëz po e kuptojnë paragjykimin në modelet e IA-së, veçanërisht në aspektin e të dhënave të trajnimit, shumë pikave të tjera hyrëse të vlerave njerëzore nuk u kushtohet vëmendje e mjaftueshme në procesin e zhvillimit dhe vendosjes së modeleve të IA-së. IA mjekësore kohët e fundit ka arritur rezultate mbresëlënëse, por në një masë të madhe, ajo nuk i ka marrë në konsideratë në mënyrë të qartë vlerat njerëzore dhe ndërveprimin e tyre me vlerësimin e rrezikut dhe arsyetimin probabilistik, dhe as nuk është modeluar.

 

Për të konkretizuar këto koncepte abstrakte, imagjinoni sikur jeni një endokrinolog i cili duhet të përshkruajë hormon të rritjes njerëzore rekombinante për një djalë 8-vjeçar që është nën percentilin e 3-të të moshës së tij. Niveli i hormonit të rritjes njerëzore të stimuluar të djalit është nën 2 ng/mL (vlera referuese, >10 ng/mL, vlera referuese për shumë vende jashtë Shteteve të Bashkuara është >7 ng/mL), dhe gjeni i tij që kodon hormonin e rritjes njerëzore ka zbuluar mutacione të rralla të inaktivizimit. Ne besojmë se zbatimi i terapisë me hormon të rritjes njerëzore është i dukshëm dhe i padiskutueshëm në këtë mjedis klinik.

Zbatimi i terapisë me hormon rritjeje njerëzore në skenarët e mëposhtëm mund të shkaktojë polemika: gjatësia e një djali 14-vjeçar ka qenë gjithmonë në percentilin e 10-të të bashkëmoshatarëve të tij, dhe kulmi i hormonit të rritjes njerëzore pas stimulimit është 8 ng/mL. Nuk ka mutacione funksionale të njohura që mund të ndikojnë në gjatësi, as shkaqe të tjera të njohura të shtatit të shkurtër, dhe mosha e tij kockore është 15 vjeç (domethënë, nuk ka vonesë zhvillimore). Vetëm një pjesë e polemikave është për shkak të ndryshimeve në vlerat prag të përcaktuara nga ekspertët bazuar në dhjetëra studime në lidhje me nivelet e hormonit të rritjes njerëzore të përdorura për diagnostikimin e mungesës së izoluar të hormonit të rritjes. Të paktën po aq polemika rrjedh nga balanca e rrezikut dhe përfitimit të përdorimit të terapisë me hormon rritjeje njerëzore nga perspektivat e pacientëve, prindërve të pacientëve, profesionistëve të kujdesit shëndetësor, kompanive farmaceutike dhe paguesve. Endokrinologët pediatrikë mund të peshojnë efektet e rralla anësore të injeksioneve ditore të hormonit të rritjes për 2 vjet me probabilitetin e rritjes pa ose vetëm minimale në madhësinë e trupit të të rriturve krahasuar me të tashmen. Djemtë mund të besojnë se edhe nëse gjatësia e tyre mund të rritet vetëm me 2 cm, ia vlen të injektohet hormoni i rritjes, por paguesi dhe kompania farmaceutike mund të kenë pikëpamje të ndryshme.

 

Si shembull marrim eGFR-në e bazuar në kreatininë, e cila është një tregues i funksionit renal i përdorur gjerësisht për diagnostikimin dhe stadifikimin e sëmundjes kronike të veshkave, përcaktimin e kushteve të transplantimit ose dhurimit të veshkave dhe përcaktimin e kritereve të reduktimit dhe kundërindikacioneve për shumë ilaçe me recetë. EGFR është një ekuacion i thjeshtë regresioni që përdoret për të vlerësuar shkallën e matur të filtrimit glomerular (mGFR), e cila është një standard referimi, por metoda e vlerësimit është relativisht e vështirë. Ky ekuacion regresioni nuk mund të konsiderohet një model i IA-së, por ilustron shumë parime rreth vlerave njerëzore dhe arsyetimit probabilistik.

Pika e parë e hyrjes për vlerat njerëzore për të hyrë në eGFR është kur përzgjidhen të dhëna për ekuacionet e përshtatjes. Radha origjinale e përdorur për të hartuar formulën eGFR përbëhet kryesisht nga pjesëmarrës të zinj dhe të bardhë, dhe zbatueshmëria e saj për shumë grupe të tjera etnike nuk është e qartë. Pikat e mëvonshme të hyrjes për vlerat njerëzore në këtë formulë përfshijnë: zgjedhjen e saktësisë së mGFR si objektivin kryesor për vlerësimin e funksionit të veshkave, cili është një nivel i pranueshëm i saktësisë, si të matet saktësia dhe përdorimi i eGFR si një prag për të shkaktuar vendimmarrje klinike (siç është përcaktimi i kushteve për transplantimin e veshkave ose përshkrimi i ilaçeve). Së fundmi, kur përzgjidhet përmbajtja e modelit të hyrjes, vlerat njerëzore do të hyjnë gjithashtu në këtë formulë.

Për shembull, para vitit 2021, udhëzimet sugjerojnë rregullimin e niveleve të kreatininës në formulën eGFR bazuar në moshën, gjininë dhe racën e pacientit (të klasifikuar vetëm si individë me ngjyrë ose jo me ngjyrë). Rregullimi bazuar në racë synon përmirësimin e saktësisë së formulës mGFR, por në vitin 2020, spitalet kryesore filluan të vinin në pikëpyetje përdorimin e eGFR bazuar në racë, duke përmendur arsye të tilla si vonesa e përshtatshmërisë së pacientit për transplantim dhe konkretizimi i racës si një koncept biologjik. Hulumtimet kanë treguar se hartimi i modeleve eGFR në terma të racës mund të ketë ndikime të thella dhe të ndryshme në saktësinë dhe rezultatet klinike; Prandaj, përqendrimi selektiv në saktësi ose përqendrimi në një pjesë të rezultateve pasqyron gjykime vlerash dhe mund të maskojë vendimmarrjen transparente. Së fundmi, grupi kombëtar i punës propozoi një formulë të re që u ripërshtat pa marrë parasysh racën për të balancuar çështjet e performancës dhe drejtësisë. Ky shembull ilustron se edhe një formulë e thjeshtë klinike ka shumë pika hyrëse në vlerat njerëzore.

Mjek me realitet virtual në sallën e operacionit në spital. Kirurg që analizon rezultatin e testimit të zemrës së pacientit dhe anatominë njerëzore në ndërfaqen virtuale dixhitale futuriste teknologjike, holografike dixhitale, inovative në konceptin e shkencës dhe mjekësisë.

Krahasuar me formulat klinike me vetëm një numër të vogël treguesish parashikues, LLM mund të përbëhet nga miliarda deri në qindra miliarda parametra (pesha modeli) ose më shumë, duke e bërë të vështirë për t'u kuptuar. Arsyeja pse themi "e vështirë për t'u kuptuar" është se në shumicën e LLM-ve, mënyra e saktë e nxjerrjes së përgjigjeve përmes pyetjeve nuk mund të përcaktohet. Numri i parametrave për GPT-4 nuk është njoftuar ende; Paraardhësi i tij GPT-3 kishte 175 miliardë parametra. Më shumë parametra nuk nënkuptojnë domosdoshmërisht aftësi më të forta, pasi modelet më të vogla që përfshijnë më shumë cikle llogaritëse (siç është seria e modeleve LLaMA [Large Language Model Meta AI]) ose modelet që janë të akorduara imët bazuar në reagimet njerëzore do të performojnë më mirë se modelet më të mëdha. Për shembull, sipas vlerësuesve njerëzorë, modeli InstrumentGPT (një model me 1.3 miliardë parametra) tejkalon GPT-3 në optimizimin e rezultateve të daljes së modelit.

Detajet specifike të trajnimit të GPT-4 nuk janë zbuluar ende, por detajet e modeleve të gjeneratës së mëparshme, duke përfshirë GPT-3, InstrumentGPT dhe shumë LLM të tjera me burim të hapur, janë zbuluar. Në ditët e sotme, shumë modele të IA-së vijnë me karta modeli; Të dhënat e vlerësimit dhe sigurisë së GPT-4 janë publikuar në një kartë sistemi të ngjashme të ofruar nga kompania e krijimit të modeleve OpenAI. Krijimi i LLM mund të ndahet përafërsisht në dy faza: faza fillestare e para-trajnimit dhe faza e rregullimit të imët që synon optimizimin e rezultateve të daljes së modelit. Në fazën e para-trajnimit, modelit i ofrohet një korpus i madh që përfshin tekstin origjinal të internetit për ta trajnuar atë të parashikojë fjalën tjetër. Ky proces "përfundimi automatik" në dukje i thjeshtë prodhon një model themelor të fuqishëm, por gjithashtu mund të çojë në sjellje të dëmshme. Vlerat njerëzore do të hyjnë në fazën e para-trajnimit, duke përfshirë përzgjedhjen e të dhënave të para-trajnimit për GPT-4 dhe vendimin për të hequr përmbajtjen e papërshtatshme, siç është përmbajtja pornografike, nga të dhënat e para-trajnimit. Pavarësisht këtyre përpjekjeve, modeli bazë mund të mos jetë ende as i dobishëm dhe as i aftë të përmbajë rezultate të dëmshme të daljes. Në fazën tjetër të rregullimit të imët, do të shfaqen shumë sjellje të dobishme dhe të padëmshme.

Në fazën e rregullimit të imët, sjellja e modeleve gjuhësore shpesh ndryshohet thellësisht përmes rregullimit të imët të mbikëqyrur dhe të mësuarit përforcues bazuar në reagimet njerëzore. Në fazën e rregullimit të imët të mbikëqyrur, personeli i kontraktorit të punësuar do të shkruajë shembuj përgjigjesh për fjalët e shpejta dhe do ta trajnojë drejtpërdrejt modelin. Në fazën e të mësuarit përforcues bazuar në reagimet njerëzore, vlerësuesit njerëzorë do të rendisin rezultatet e daljes së modelit si shembuj të përmbajtjes hyrëse. Pastaj zbatoni rezultatet e krahasimit të mësipërm për të mësuar "modelin e shpërblimit" dhe për të përmirësuar më tej modelin përmes të mësuarit përforcues. Përfshirja mahnitëse e nivelit të ulët të njeriut mund t'i rregullojë këto modele të mëdha. Për shembull, modeli InstrumentGPT përdori një ekip prej afërsisht 40 personeli kontraktori të rekrutuar nga faqet e internetit të crowdsourcing dhe kaloi një test shqyrtimi që synonte zgjedhjen e një grupi shënuesish që janë të ndjeshëm ndaj preferencave të grupeve të ndryshme të popullsisë.

Siç demonstrojnë këto dy shembuj ekstremë, përkatësisht formula e thjeshtë klinike [eGFR] dhe LLM-ja e fuqishme [GPT-4], vendimmarrja njerëzore dhe vlerat njerëzore luajnë një rol të domosdoshëm në formësimin e rezultateve të modelit. A mund t'i kapin këto modele të IA-së vlerat e tyre të ndryshme të pacientit dhe mjekut? Si ta udhëzojmë publikisht zbatimin e IA-së në mjekësi? Siç u përmend më poshtë, një rishqyrtim i analizës së vendimeve mjekësore mund të ofrojë një zgjidhje parimore për këto çështje.

 

Analiza e vendimeve mjekësore nuk është e njohur për shumë klinicistë, por ajo mund të dallojë midis arsyetimit probabilistik (për rezultate të pasigurta që lidhen me vendimmarrjen, siç është nëse duhet të administrohet hormoni i rritjes njerëzore në skenarin klinik kontrovers të treguar në Figurën 1) dhe faktorëve të konsiderimit (për vlerat subjektive të bashkangjitura këtyre rezultateve, vlera e të cilave përcaktohet si "dobi", siç është vlera e një rritjeje prej 2 cm në gjatësinë mashkullore), duke ofruar zgjidhje sistematike për vendime komplekse mjekësore. Në analizën e vendimeve, klinicistët duhet së pari të përcaktojnë të gjitha vendimet dhe probabilitetet e mundshme që lidhen me secilin rezultat, dhe më pas të përfshijnë dobinë e pacientit (ose palës tjetër) që lidhet me secilin rezultat për të zgjedhur opsionin më të përshtatshëm. Prandaj, vlefshmëria e analizës së vendimeve varet nëse përcaktimi i rezultatit është gjithëpërfshirës, ​​si dhe nëse matja e dobisë dhe vlerësimi i probabilitetit janë të sakta. Idealisht, kjo qasje ndihmon në sigurimin që vendimet të jenë të bazuara në prova dhe të përafruara me preferencat e pacientit, duke ngushtuar kështu hendekun midis të dhënave objektive dhe vlerave personale. Kjo metodë u prezantua në fushën mjekësore disa dekada më parë dhe u aplikua në vendimmarrjen individuale të pacientit dhe vlerësimin e shëndetit të popullatës, siç është dhënia e rekomandimeve për shqyrtimin e kancerit kolorektal për popullatën e përgjithshme.

 

Në analizën e vendimeve mjekësore, janë zhvilluar metoda të ndryshme për të marrë dobinë. Shumica e metodave tradicionale nxjerrin vlerën drejtpërdrejt nga pacientët individualë. Metoda më e thjeshtë është përdorimi i një shkalle vlerësimi, ku pacientët vlerësojnë nivelin e tyre të preferencës për një rezultat të caktuar në një shkallë dixhitale (siç është një shkallë lineare që varion nga 1 në 10), me rezultatet më ekstreme shëndetësore (siç është shëndeti i plotë dhe vdekja) të vendosura në të dy skajet. Metoda e shkëmbimit të kohës është një tjetër metodë e përdorur zakonisht. Në këtë metodë, pacientët duhet të marrin një vendim se sa kohë të shëndetshme janë të gatshëm të shpenzojnë në këmbim të një periudhe shëndetësore të dobët. Metoda standarde e lojërave të fatit është një tjetër metodë e përdorur zakonisht për përcaktimin e dobisë. Në këtë metodë, pacientëve u pyetet se cilën nga dy opsionet preferojnë: ose të jetojnë një numër të caktuar vitesh në shëndet normal me një probabilitet specifik (p) (t), dhe të mbajnë rrezikun e vdekjes me një probabilitet 1-p; ose të sigurohen që të jetojnë për t vjet në kushte shëndetësore të kryqëzuara. Pyetini pacientët disa herë në vlera të ndryshme p derisa të mos tregojnë preferencë për asnjë opsion, në mënyrë që dobia të mund të llogaritet bazuar në përgjigjet e pacientëve.
Përveç metodave të përdorura për të nxjerrë në pah preferencat individuale të pacientëve, janë zhvilluar edhe metoda për të përftuar dobi për popullatën e pacientëve. Sidomos diskutimet në grupe fokusi (që bashkojnë pacientët për të diskutuar përvoja specifike) mund të ndihmojnë në kuptimin e perspektivave të tyre. Për të përmbledhur në mënyrë efektive dobinë e grupit, janë propozuar teknika të ndryshme të diskutimit të strukturuar në grup.
Në praktikë, futja e drejtpërdrejtë e dobisë në procesin e diagnozës dhe trajtimit klinik kërkon shumë kohë. Si zgjidhje, pyetësorët e anketës zakonisht shpërndahen në popullata të zgjedhura rastësisht për të marrë rezultate të dobisë në nivel popullate. Disa shembuj përfshijnë pyetësorin 5-dimensional të EuroQol, formularin e shkurtër të peshës së dobisë 6-dimensionale, Indeksin e Dobisë Shëndetësore dhe mjetin Core 30 të Questionnaire-it të Cilësisë së Jetës të Organizatës Evropiane për Kërkimin dhe Trajtimin e Kancerit.


Koha e postimit: 01 qershor 2024