ავტორიზაცია
სამედიცინო ტექსტების საწყისი დამუშავება კლასიფიკაციის ამოცანისათვის
ავტორი: მანანა ხაჩიძეთანაავტორები: მაგდა ცინცაძე მაია არჩუაძე პაპუნა ქარჩავა
საკვანძო სიტყვები: ტექსტის დამუშავება
ანოტაცია:
კლასიფიკაციის ამოცანას ერთერთი მნიშვნელოვანი ადგილი უკავია ინფორმაციის ძებნაში. ტექსტური ტიპის ინფორმაცია მედიცინაში გადამწყვეტ როლს თამაშობს. ტექსტების კლასიფიკაციის პროცესის განხორცილება აუცილებლად მოითხოვს მათ საწყის დამუშავებას. რაც გულისხმობს: ტექსტიდან ეგრეთწოდებული „სტოპ“ სიტყვების ამოგდებას; ტექსტში დარჩენილ სიტყვებზე სტემინგის და ლემატიზაციის პროცედურის ჩატარებას; ყოველი ტექსტისათვის ტერმინების სიხშირის დათვლას. სტემინგისა და ლემატიზაციის პროცედურა ხორციელდება ცნობილი ლოვინსის და პორტერის ალგორითმებით, მაგრამ არაეფექტურია მათი გამოყენება ქართულენოვანი ტექსტებისათვის, ენის სირთულის გამო. შემუშავებულია ქართული ენისათვის სიტყვის ფუძის ამოღების ალგორითმი (რომელის შეესაბამება სტემინგისა და ლემატიზაციის პროცედურას). ეს ალგორითმი იყენებს ქართული ენის სიტყვების ბაზას. სამედიცინო ტექსტების თავისებურებიდან გამომდინარე აუცილებელია ამ ბაზის გამდიდრება შესაბამისი ქართულენოვანი სამედიცინო ტერმინებით. კვლევის ფარგლებში შემუშავებული ბაზა წარმოადგენს ქართული სიტყვების ბაზის გაფართოებას სამედიცინო დაავადებათა ტერმინოლოგით, რომელიც შექმნილია ICD10-ის საფუძველზე.