დიდი ენის მოდელს (LLM) შეუძლია დაწეროს დამაჯერებელი სტატიები, რომლებიც დაფუძნებულია სწრაფ სიტყვებზე, ჩააბაროს პროფესიული კვალიფიკაციის გამოცდები და დაწეროს პაციენტისთვის მეგობრული და თანაგრძნობის გამომხატველი ინფორმაცია. თუმცა, LLM-ში ფიქციის, მყიფეობისა და არაზუსტი ფაქტების ცნობილი რისკების გარდა, თანდათან ყურადღების ცენტრში სხვა გადაუჭრელი საკითხებიც დგება, როგორიცაა ხელოვნური ინტელექტის მოდელები, რომლებიც შექმნისა და გამოყენებისას პოტენციურად დისკრიმინაციულ „ადამიანურ ღირებულებებს“ შეიცავს და მაშინაც კი, თუ LLM აღარ აყალბებს შინაარსს და აღარ გამორიცხავს აშკარად მავნე შედეგებს, „LLM ღირებულებები“ შეიძლება მაინც გადაუხვიოს ადამიანურ ღირებულებებს.
უამრავი მაგალითი ასახავს, თუ როგორ კოდირებს ხელოვნური ინტელექტის მოდელების წვრთნისთვის გამოყენებული მონაცემები ინდივიდუალურ და სოციალურ ღირებულებებს, რაც შეიძლება მოდელში გამყარდეს. ეს მაგალითები მოიცავს გამოყენების ფართო სპექტრს, მათ შორის გულმკერდის რენტგენის ავტომატური ინტერპრეტაციას, კანის დაავადებების კლასიფიკაციას და სამედიცინო რესურსების განაწილებასთან დაკავშირებით ალგორითმულ გადაწყვეტილებებს. როგორც ჩვენს ჟურნალში გამოქვეყნებულ ბოლო სტატიაშია ნათქვამი, მიკერძოებული ტრენინგის მონაცემებმა შეიძლება გააძლიეროს და გამოავლინოს საზოგადოებაში არსებული ღირებულებები და მიკერძოებები. პირიქით, კვლევამ ასევე აჩვენა, რომ ხელოვნური ინტელექტის გამოყენება შესაძლებელია მიკერძოების შესამცირებლად. მაგალითად, მკვლევარებმა მუხლის რენტგენის ფირებზე გამოიყენეს ღრმა სწავლების მოდელები და აღმოაჩინეს ფაქტორები, რომლებიც გამორჩათ მუხლის სახსარში სტანდარტული სიმძიმის ინდიკატორებით (რადიოლოგების მიერ შეფასებული), რითაც შემცირდა აუხსნელი ტკივილის განსხვავებები შავკანიან და თეთრკანიან პაციენტებს შორის.
მიუხედავად იმისა, რომ სულ უფრო მეტი ადამიანი აცნობიერებს ხელოვნური ინტელექტის მოდელებში არსებულ მიკერძოებას, განსაკუთრებით ტრენინგის მონაცემების თვალსაზრისით, ხელოვნური ინტელექტის მოდელების შემუშავებისა და დანერგვის პროცესში ადამიანური ღირებულებების სხვა მრავალ საწყის წერტილს საკმარისი ყურადღება არ ექცევა. სამედიცინო ხელოვნურმა ინტელექტმა ბოლო დროს შთამბეჭდავ შედეგებს მიაღწია, მაგრამ დიდწილად, ის არ ითვალისწინებს ადამიანურ ღირებულებებს და მათ ურთიერთქმედებას რისკის შეფასებასთან და ალბათურ მსჯელობასთან და არც მოდელირებულია.
ამ აბსტრაქტული ცნებების კონკრეტიკისთვის წარმოიდგინეთ, რომ თქვენ ხართ ენდოკრინოლოგი, რომელსაც 8 წლის ბიჭისთვის, რომლის ასაკიც მე-3 პროცენტილზე ნაკლებია, რეკომბინანტული ადამიანის ზრდის ჰორმონის დანიშვნა მოეთხოვება. ბიჭის სტიმულირებული ადამიანის ზრდის ჰორმონის დონე 2 ნგ/მლ-ზე ნაკლებია (საცნობარო მნიშვნელობა >10 ნგ/მლ, აშშ-ს გარეთ მრავალი ქვეყნისთვის საცნობარო მნიშვნელობა >7 ნგ/მლ) და მის ადამიანის ზრდის ჰორმონის კოდირების გენში იშვიათი ინაქტივაციის მუტაციებია აღმოჩენილი. ჩვენ გვჯერა, რომ ადამიანის ზრდის ჰორმონის თერაპიის გამოყენება ამ კლინიკურ გარემოში აშკარა და უდავოა.
ადამიანის ზრდის ჰორმონის თერაპიის გამოყენებამ შემდეგ სცენარებში შეიძლება გამოიწვიოს დავა: 14 წლის ბიჭის სიმაღლე ყოველთვის მისი თანატოლების მე-10 პროცენტილში იყო და სტიმულაციის შემდეგ ადამიანის ზრდის ჰორმონის პიკი 8 ნგ/მლ-ია. არ არსებობს ცნობილი ფუნქციური მუტაციები, რომლებმაც შეიძლება გავლენა მოახდინონ სიმაღლეზე, არც დაბალი სიმაღლის სხვა ცნობილი მიზეზები და მისი ძვლის ასაკი 15 წელია (ანუ განვითარების შეფერხება არ არის). დავის მხოლოდ ნაწილია გამოწვეული ექსპერტების მიერ განსაზღვრული ზღურბლოვანი მნიშვნელობების განსხვავებებით, რომლებიც დაფუძნებულია ადამიანის ზრდის ჰორმონის იზოლირებული დეფიციტის დიაგნოსტიკისთვის გამოყენებული ადამიანის ზრდის ჰორმონის დონის შესახებ ათობით კვლევაზე. სულ მცირე, ამდენივე დავა გამომდინარეობს ადამიანის ზრდის ჰორმონის თერაპიის გამოყენების რისკისა და სარგებლის ბალანსზე პაციენტების, პაციენტის მშობლების, ჯანდაცვის სპეციალისტების, ფარმაცევტული კომპანიების და გადამხდელების პერსპექტივიდან. პედიატრიულმა ენდოკრინოლოგებმა შეიძლება შეაფასონ ზრდის ჰორმონის ყოველდღიური ინექციების იშვიათი გვერდითი მოვლენები 2 წლის განმავლობაში ზრდასრული სხეულის ზომის არარსებობის ან მხოლოდ მინიმალური ზრდის ალბათობით ამჟამინდელთან შედარებით. ბიჭებმა შეიძლება იფიქრონ, რომ მაშინაც კი, თუ მათი სიმაღლე შეიძლება მხოლოდ 2 სმ-ით გაიზარდოს, ზრდის ჰორმონის ინექცია ღირს, მაგრამ გადამხდელს და ფარმაცევტულ კომპანიას შეიძლება განსხვავებული შეხედულებები ჰქონდეთ.
მაგალითად, კრეატინინზე დაფუძნებულ eGFR-ს ვიღებთ, რომელიც ფართოდ გამოიყენება თირკმლის ფუნქციის ინდიკატორად ქრონიკული თირკმლის დაავადების დიაგნოსტიკისა და სტადირებისთვის, თირკმლის გადანერგვის ან დონაციის პირობების დასადგენად, ასევე მრავალი რეცეპტით გაცემული პრეპარატის შემცირების კრიტერიუმებისა და უკუჩვენებების დასადგენად. EGFR არის მარტივი რეგრესიული განტოლება, რომელიც გამოიყენება გაზომილი გლომერულური ფილტრაციის სიჩქარის (mGFR) შესაფასებლად, რომელიც წარმოადგენს საცნობარო სტანდარტს, მაგრამ შეფასების მეთოდი შედარებით რთულია. ეს რეგრესიული განტოლება არ შეიძლება ჩაითვალოს ხელოვნური ინტელექტის მოდელად, მაგრამ ის ასახავს ადამიანის ღირებულებებისა და ალბათური მსჯელობის მრავალ პრინციპს.
eGFR-ში ადამიანის მნიშვნელობების შეყვანის პირველი საწყისი წერტილი არის მონაცემების შერჩევა მორგების განტოლებებისთვის. eGFR ფორმულის შესაქმნელად გამოყენებული თავდაპირველი რიგი ძირითადად შედგება შავკანიანი და თეთრკანიანი მონაწილეებისგან და მისი გამოყენებადობა სხვა ეთნიკურ ჯგუფებზე არ არის ნათელი. ამ ფორმულაში ადამიანის მნიშვნელობების შემდგომი საწყისი წერტილებია: mGFR სიზუსტის შერჩევა, როგორც თირკმლის ფუნქციის შეფასების მთავარი მიზანი, რა არის სიზუსტის მისაღები დონე, როგორ გავზომოთ სიზუსტე და eGFR-ის გამოყენება, როგორც ზღურბლი კლინიკური გადაწყვეტილების მიღების დაწყებისთვის (მაგალითად, თირკმლის ტრანსპლანტაციის პირობების დადგენა ან მედიკამენტების დანიშვნა). და ბოლოს, შეყვანის მოდელის შინაარსის არჩევისას, ადამიანის მნიშვნელობებიც შევა ამ ფორმულაში.
მაგალითად, 2021 წლამდე, სახელმძღვანელო პრინციპები გვთავაზობდა eGFR ფორმულაში კრეატინინის დონის კორექტირებას პაციენტის ასაკის, სქესისა და რასის მიხედვით (კლასიფიცირებულია მხოლოდ შავკანიან ან არაშავკანიან პირებად). რასაზე დაფუძნებული კორექტირება მიზნად ისახავს mGFR ფორმულის სიზუსტის გაუმჯობესებას, მაგრამ 2020 წელს მსხვილმა საავადმყოფოებმა დაიწყეს რასაზე დაფუძნებული eGFR-ის გამოყენების კითხვის ნიშნის ქვეშ დაყენება, რის მიზეზებადაც მოჰყავდათ პაციენტის ტრანსპლანტაციისთვის ვარგისიანობის დადგენის გადადება და რასის, როგორც ბიოლოგიური კონცეფციის, კონკრეტიზაცია. კვლევამ აჩვენა, რომ eGFR მოდელების რასის მიხედვით შემუშავებას შეიძლება ჰქონდეს ღრმა და ცვალებადი გავლენა სიზუსტესა და კლინიკურ შედეგებზე; ამიტომ, სიზუსტეზე შერჩევით ფოკუსირება ან შედეგების ნაწილზე ფოკუსირება ასახავს ღირებულებით განსჯას და შეიძლება შენიღბოს გამჭვირვალე გადაწყვეტილების მიღება. დაბოლოს, ეროვნულმა სამუშაო ჯგუფმა შემოგვთავაზა ახალი ფორმულა, რომელიც ხელახლა მორგებული იქნა რასის გათვალისწინების გარეშე, რათა დაბალანსებულიყო შესრულება და სამართლიანობის საკითხები. ეს მაგალითი აჩვენებს, რომ მარტივ კლინიკურ ფორმულასაც კი აქვს მრავალი საწყისი წერტილი ადამიანურ ღირებულებებში.
კლინიკურ ფორმულებთან შედარებით, რომლებსაც მხოლოდ მცირე რაოდენობის პროგნოზირებადი ინდიკატორები აქვთ, LLM შეიძლება შედგებოდეს მილიარდობით ან ასობით მილიარდი პარამეტრისგან (მოდელის წონა) ან მეტისგან, რაც მის გაგებას ართულებს. მიზეზი, რის გამოც ვამბობთ „გასაგებია“, არის ის, რომ LLM-ების უმეტესობაში კითხვების საშუალებით პასუხების მიღების ზუსტი გზის დადგენა შეუძლებელია. GPT-4-ის პარამეტრების რაოდენობა ჯერ არ გამოცხადებულა; მის წინამორბედ GPT-3-ს 175 მილიარდი პარამეტრი ჰქონდა. მეტი პარამეტრი სულაც არ ნიშნავს უფრო ძლიერ შესაძლებლობებს, რადგან უფრო მცირე მოდელები, რომლებიც მოიცავს მეტ გამოთვლით ციკლს (მაგალითად, LLaMA [Large Language Model Meta AI] მოდელების სერია) ან მოდელები, რომლებიც ადამიანის უკუკავშირის საფუძველზე ზუსტად არის მორგებული, უკეთესად იმუშავებენ, ვიდრე უფრო დიდი მოდელები. მაგალითად, ადამიანი შემფასებლების აზრით, InstrumentGPT მოდელი (მოდელი 1.3 მილიარდი პარამეტრით) აღემატება GPT-3-ს მოდელის გამომავალი შედეგების ოპტიმიზაციის თვალსაზრისით.
GPT-4-ის ტრენინგის სპეციფიკური დეტალები ჯერ არ გამჟღავნებულა, თუმცა წინა თაობის მოდელების, მათ შორის GPT-3-ის, InstrumentGPT-ის და სხვა მრავალი ღია კოდის LLM-ის დეტალები გამჟღავნდა. დღესდღეობით, ხელოვნური ინტელექტის ბევრ მოდელს მოყვება მოდელის ბარათები; GPT-4-ის შეფასებისა და უსაფრთხოების მონაცემები გამოქვეყნებულია მოდელების შემქმნელი კომპანიის OpenAI-ის მიერ მოწოდებულ მსგავს სისტემურ ბარათში. LLM-ის შექმნა დაახლოებით შეიძლება დაიყოს ორ ეტაპად: საწყისი წინასწარი ტრენინგის ეტაპი და დახვეწის ეტაპი, რომელიც მიზნად ისახავს მოდელის გამომავალი შედეგების ოპტიმიზაციას. წინასწარი ტრენინგის ეტაპზე მოდელს ეძლევა დიდი კორპუსი, რომელიც მოიცავს ორიგინალ ინტერნეტ ტექსტს, რათა ის შემდეგი სიტყვის პროგნოზირებაში გაწვრთნას შეძლებს. ეს, ერთი შეხედვით, მარტივი „ავტომატური დასრულების“ პროცესი ქმნის ძლიერ საფუძვლო მოდელს, მაგრამ მას ასევე შეუძლია მავნე ქცევამდე მიგვიყვანოს. წინასწარი ტრენინგის ეტაპზე შევა ადამიანური ღირებულებები, მათ შორის GPT-4-ისთვის წინასწარი ტრენინგის მონაცემების შერჩევა და წინასწარი ტრენინგის მონაცემებიდან შეუსაბამო შინაარსის, როგორიცაა პორნოგრაფიული შინაარსი, ამოღების გადაწყვეტილება. ამ ძალისხმევის მიუხედავად, საბაზისო მოდელი შეიძლება მაინც არც სასარგებლო იყოს და არც მავნე გამომავალი შედეგების შემცველი. დახვეწის შემდეგ ეტაპზე გამოჩნდება მრავალი სასარგებლო და უვნებელი ქცევა.
დახვეწის ეტაპზე, ენობრივი მოდელების ქცევა ხშირად ღრმად იცვლება ზედამხედველობის ქვეშ მყოფი დახვეწის და ადამიანური უკუკავშირის საფუძველზე განმტკიცებული სწავლების გზით. ზედამხედველობის ქვეშ მყოფი დახვეწის ეტაპზე, დაქირავებული კონტრაქტორის პერსონალი დაწერს პასუხების მაგალითებს სწრაფი სიტყვებისთვის და პირდაპირ გაწვრთნის მოდელს. ადამიანური უკუკავშირის საფუძველზე განმტკიცების სწავლების ეტაპზე, ადამიანი შემფასებლები დაალაგებენ მოდელის გამომავალ შედეგებს შეყვანის შინაარსის მაგალითებად. შემდეგ იყენებენ ზემოთ მოცემულ შედარების შედეგებს „ჯილდოს მოდელის“ შესასწავლად და მოდელის შემდგომი გაუმჯობესებისთვის განმტკიცებული სწავლების გზით. ადამიანის გასაოცარი დაბალი დონის ჩართულობა შეიძლება ამ დიდი მოდელების დახვეწაში დაეხმაროს. მაგალითად, InstrumentGPT მოდელმა გამოიყენა დაახლოებით 40 კონტრაქტორის პერსონალისგან შემდგარი გუნდი, რომლებიც დაკომპლექტდნენ კრაუდსორსინგის ვებსაიტებიდან და ჩააბარეს სკრინინგის ტესტი, რომელიც მიზნად ისახავდა ანოტატორების ჯგუფის შერჩევას, რომლებიც მგრძნობიარენი არიან სხვადასხვა მოსახლეობის ჯგუფების პრეფერენციების მიმართ.
როგორც ეს ორი უკიდურესი მაგალითი, კერძოდ, მარტივი კლინიკური ფორმულა [eGFR] და ძლიერი LLM [GPT-4] აჩვენებს, ადამიანის მიერ გადაწყვეტილების მიღება და ადამიანური ღირებულებები შეუცვლელ როლს თამაშობენ მოდელის გამომავალი შედეგების ჩამოყალიბებაში. შეუძლიათ თუ არა ამ ხელოვნური ინტელექტის მოდელებს პაციენტისა და ექიმის მრავალფეროვანი ღირებულებების ასახვა? როგორ უნდა წარვმართოთ საჯაროდ ხელოვნური ინტელექტის გამოყენება მედიცინაში? როგორც ქვემოთ არის აღნიშნული, სამედიცინო გადაწყვეტილებების ანალიზის ხელახალი შესწავლა შესაძლოა ამ საკითხების პრინციპულ გადაწყვეტას უზრუნველყოფდეს.
სამედიცინო გადაწყვეტილების ანალიზი ბევრი კლინიცისტისთვის ნაცნობი არ არის, მაგრამ მას შეუძლია განასხვავოს ალბათური მსჯელობა (გადაწყვეტილების მიღებასთან დაკავშირებული გაურკვეველი შედეგებისთვის, როგორიცაა, მაგალითად, ადამიანის ზრდის ჰორმონის დანიშვნა ნახაზ 1-ზე ნაჩვენებ საკამათო კლინიკურ სცენარში) და განხილვის ფაქტორები (ამ შედეგებთან დაკავშირებული სუბიექტური მნიშვნელობებისთვის, რომელთა მნიშვნელობა რაოდენობრივად განისაზღვრება, როგორც „სასარგებლო“, მაგალითად, მამაკაცის სიმაღლის 2 სმ-ით ზრდის მნიშვნელობა), რაც უზრუნველყოფს სისტემურ გადაწყვეტილებებს რთული სამედიცინო გადაწყვეტილებებისთვის. გადაწყვეტილების ანალიზის დროს, კლინიცისტებმა ჯერ უნდა განსაზღვრონ თითოეულ შედეგთან დაკავშირებული ყველა შესაძლო გადაწყვეტილება და ალბათობა, შემდეგ კი გაითვალისწინონ პაციენტის (ან მეორე მხარის) სარგებლიანობა, რომელიც დაკავშირებულია თითოეულ შედეგთან, რათა შეარჩიონ ყველაზე შესაფერისი ვარიანტი. ამიტომ, გადაწყვეტილების ანალიზის ვალიდურობა დამოკიდებულია იმაზე, არის თუ არა შედეგის გარემო ყოვლისმომცველი, ასევე იმაზე, ზუსტია თუ არა სარგებლიანობის გაზომვა და ალბათობის შეფასება. იდეალურ შემთხვევაში, ეს მიდგომა ხელს უწყობს იმის უზრუნველყოფას, რომ გადაწყვეტილებები დაფუძნებული იყოს მტკიცებულებებზე და შეესაბამებოდეს პაციენტის პრეფერენციებს, რითაც მცირდება უფსკრული ობიექტურ მონაცემებსა და პირად ღირებულებებს შორის. ეს მეთოდი სამედიცინო სფეროში რამდენიმე ათწლეულის წინ დაინერგა და გამოყენებული იქნა ინდივიდუალური პაციენტის გადაწყვეტილების მიღებისა და მოსახლეობის ჯანმრთელობის შეფასებისთვის, როგორიცაა ზოგადი მოსახლეობისთვის კოლორექტალური კიბოს სკრინინგის რეკომენდაციების მიწოდება.
სამედიცინო გადაწყვეტილებების ანალიზში, სარგებლიანობის დასადგენად სხვადასხვა მეთოდი შემუშავდა. ტრადიციული მეთოდების უმეტესობა პირდაპირ იღებს ღირებულებას ინდივიდუალური პაციენტებიდან. უმარტივესი მეთოდია შეფასების შკალის გამოყენება, სადაც პაციენტები აფასებენ გარკვეული შედეგისადმი მათი უპირატესობის დონეს ციფრული შკალის გამოყენებით (მაგალითად, 1-დან 10-მდე დიაპაზონის წრფივი შკალა), სადაც ჯანმრთელობის ყველაზე ექსტრემალური შედეგები (მაგალითად, სრული ჯანმრთელობა და სიკვდილი) ორივე ბოლოშია განთავსებული. დროის გაცვლის მეთოდი კიდევ ერთი ხშირად გამოყენებული მეთოდია. ამ მეთოდის დროს პაციენტებმა უნდა მიიღონ გადაწყვეტილება, თუ რამდენი ჯანსაღი დრო სურთ დახარჯონ ცუდი ჯანმრთელობის პერიოდის სანაცვლოდ. სტანდარტული აზარტული თამაშების მეთოდი სარგებლიანობის დასადგენად კიდევ ერთი ხშირად გამოყენებული მეთოდია. ამ მეთოდის დროს პაციენტებს ეკითხებიან, რომელი ორი ვარიანტიდან ურჩევნიათ: ან იცხოვრონ გარკვეული რაოდენობის წლები ნორმალური ჯანმრთელობის პირობებში კონკრეტული ალბათობით (p) (t) და აიღონ სიკვდილის რისკი 1-p ალბათობით; ან დარწმუნდნენ, რომ იცოცხლებენ t წლის განმავლობაში ჯანმრთელობის ჯვარედინი პირობების პირობებში. პაციენტებს რამდენჯერმე ჰკითხეთ სხვადასხვა p-მნიშვნელობებზე, სანამ ისინი არ გამოხატავენ უპირატესობას არცერთ ვარიანტზე, რათა სარგებლიანობა გამოითვალოს პაციენტის პასუხების საფუძველზე.
ინდივიდუალური პაციენტის პრეფერენციების გამოსავლენად გამოყენებული მეთოდების გარდა, შემუშავებულია მეთოდები პაციენტებისთვის სარგებლიანობის მისაღწევად. განსაკუთრებით ფოკუს ჯგუფების დისკუსიები (პაციენტების ერთად შეკრება კონკრეტული გამოცდილების განსახილველად) ხელს უწყობს მათი პერსპექტივების გაგებას. ჯგუფის სარგებლიანობის ეფექტურად შესაჯამებლად, შემოთავაზებულია სტრუქტურირებული ჯგუფური დისკუსიის სხვადასხვა ტექნიკა.
პრაქტიკაში, კლინიკური დიაგნოსტიკისა და მკურნალობის პროცესში სარგებლიანობის პირდაპირი დანერგვა ძალიან დიდ დროს მოითხოვს. გამოსავლის სახით, გამოკითხვის კითხვარები, როგორც წესი, შემთხვევით შერჩეულ პოპულაციებს ურიგდებათ, რათა პოპულაციის დონეზე სარგებლიანობის ქულები მიიღონ. ზოგიერთი მაგალითია EuroQol-ის 5-განზომილებიანი კითხვარი, 6-განზომილებიანი სარგებლიანობის წონის მოკლე ფორმა, ჯანმრთელობის სარგებლიანობის ინდექსი და კიბოს სპეციფიკური ევროპული კიბოს კვლევისა და მკურნალობის ორგანიზაციის ცხოვრების ხარისხის კითხვარი Core 30 ინსტრუმენტი.
გამოქვეყნების დრო: 2024 წლის 1 ივნისი




