Towards a Treebank of Abkhaz The AbNC, Analysing Abkhaz, and the Importance of Good Tools
Main Article Content
Abstract
სტატიაში წარმოდგენილია აფხაზური სინტაქსური ბანკის შექმნის მცდელობა უნივერსალური დამოკიდებულებების (UD) ჩარჩოს ფარგლებში.
UD არის თეორიული ჩარჩო, რომელიც გამოიყენება გრამატიკის – მეტყველების ნაწილების, მორფოლოგიური მახასიათებლებისა და სინტაქსური დამოკიდებულებების თანმიმდევრული ანოტირებისთვის. დღეისათვის შექმნილი და ხელმისაწვდომია სხვადასხვა მოცულობის UD ხეთა ბანკები 141 ენისთვის, რომელთა შორის აფხაზური არ არის. წარმოდგენილი პროექტი მიზნად ისახავს ამ ხარვეზის შევსებას.
აფხაზური ენისათვის ხეთა ბანკის შემუშავება ეფუძნება აფხაზური ენის ეროვნულ კორპუსს (AbNC), რომელიც წარმოადგენს აფხაზური წერილობითი ტექსტების გრამატიკულად ანოტირებულ კრებულს. ის შეიცავს ათ მილიონზე მეტ სიტყვას. გარდა იმისა, რომ კორპუსი ლინგვისტური კვლევის რესურსი და ინსტრუმენტია, კორპუსი ასევე წარმოადგენს ციფრულ ბიბლიოთეკას და პედაგოგიურ ინსტრუმენტს ენის შესწავლისთვის. აფხაზური ენის კორპუსში შესაძლებელია ტექსტების წაკითხვა, რომელიც ბუნებრივი, გადანომრილი ფორმით არის მოცემული და გვერდების მითითების საშუალებას იძლევა შემდგომი რეფერენციისათვის. კორპუსის ერთ-ერთ მთავარ ღირსებას წარმოადგენს მორფოლოგიური ანალიზატორი – მომხმარებელს შეუძლია დააწკაპოს ტექსტში მოცემულ ნებისმიერ სიტყვას, რის შედეგადაც ეკრანზე გამოჩნდება გრამატიკული ინფორმაცია შერჩეული სიტყვის შესახებ. გარდა ამისა, მომხმარებელს დამატებით შეუძლია გამოიძახოს შერჩეული ერთეულის შესაბამისი სიტყვა-სტატია კორპუსში ინტეგრირებული აფხაზურ-რუ-სული ლექსიკონიდან (კასლანძია, 2005 წ.).
აფხაზურის მორფოსინტაქსური ანალიზი: ანალიზატორის ლექსიკური მოდული აგებულია როგორც სასრული ავტომატი (Meurer 2011), ხოლო დისამბიგვირება (ორაზროვნების მოხსნის მექანიზმი) ჩაშენებულია შემზღუდველების გრამატიკის (CG) ფორმალურ მოდელში. ანალიზატორის აგების დროს მთავარი გამოწვევა იყო სიტყვაფორმების უჩვეულოდ მაღალი დონის ომონიმიასთან გამკლავება, რომელიც განპირობებულია აფხაზური ზმნის პოლისინთეზური ბუნებით და წერილობით ტექსტში მახვილის არარსებობით. CG-ის წესები, რომლებიც ითვალისწინებენ სინტაქსურ კონტექსტს, გარკვეულწილად შეიძლება გამოყენებულ იქნეს ომონიმიის მოსახსნელად, მაგრამ ომონიმიის სრული მოხსნისთვის ხშირად სემანტიკური ინფორმაციაც არის საჭირო. სემანტიკური ინფორმაცია შეიძლება ნაწილობრივ ინტეგრირებული იყოს (და არის კიდეც) CG-ის პარსერში, მაგრამ პრინციპული მიდგომა დაფუძნებული უნდა იყოს სიტყვათა ქსელზე, ან ოქროს სტანდარტის კორ-პუსიდან მიღებულ სტატისტიკურ ინფორმაციაზე (მაგ. სიტყვების ვექტორებზე).
ხეთა ბანკების აგება: დამოკიდებულებების ხეთა ბანკები შეიძლება აიგოს სხვა-დასხვა გზით: მანუალურად (ხელით აშენების მეთოდის გამოყენებით), სტატისტიკური ან წესებზე დაფუძნებული პარსერის გამოყენებით, ან ამ მეთოდების კომბინაციით. ჩემს პროექტში ვიყენებ წესებზე დაფუძნებულ პარსერს, რასაც მოჰყვება მიღებული შედეგის ხელით კორექტირება. დამოკიდებულების წესები დაწერილია შემზღუდველების გრამატიკის ფორმალურ მოდელზე დაყრდნობით და წარმოადგენს მორფოლოგიური ანალიზის მოდულის დამატებას. წესები დიდწილად ეყრდნობა მორფოსინტაქსურ მახასიათებლებს. საუკეთესო შედეგების მისაღებად, გადამწყვეტი მნიშვნელობა ენიჭება სიტყვების ომონიმიის სრულ (და სწორ) მოხსნას. მანქანური ანალიზის შემდეგ, მიღებული სინტაქსური ხე ხშირად ხელით უნდა შესწორდეს, ან წესები უნდა დაიხვეწოს ან დამატებითი წესები უნდა დაიწეროს რთული შემთხვევების გასაანალიზებლად. ამ მიზნით მე შევქმენი რამდენიმე ინსტრუმენტი, რომელიც ხელს უწყობს ამ პროცესის გამარტივებას: თითოეული (არასწორად გაანალიზებული, ან ორაზროვანი) სიტყვის ანალიზი ადვილად შეიძლება შეიცვალოს და შედეგად მიღებული ხეები შეიძლება რეორგანიზებულ იქნეს გრაფიკულ ვებინსტრუმენტში.
მიღებული აფხაზური ხეთა ბანკი განთავსდა INESS-ში. INESS (ინფრასტრუქტურა სინტაქსისა და სემანტიკის შესასწავლად) არის ნორვეგიული ინფრასტრუქტურა და ვებგვერდი, რომელიც სხვადასხვა ტიპის ხეთა ბანკების დათვალიერებისა და ძიების ეფექტურ შესაძლებლობებს იძლევა. გარდა ამისა, ჩემ მიერ აფხაზური ენისათვის შემქნილი ხეთა ბანკი უნივერსალურ დამოკიდებულებათა ბანკების შემდეგი ოფიციალური გამოშვების ნაწილი იქნება.