vchilka.in.ua 1

1.1.Теоретичні аспекти видобування знань

Під час формування поля знань ключовим питанням є сам процес отримання знань, коли відбувається перенесення компетентності експертів на інженерів зі знань. Для назви цього процесу в літературі по ЕС набуло поширено кілька термінів: придбання, здобування, витягання, одержання, виявлення, формування знань. У англомовній спеціальній літературі в основному використовуються два: acquisition (придбання) і elicitation (виявлення, витягання, встановлення).

Термін «придбання» трактується або дуже широко — тоді він включає весь процес передавання знань від експерта до бази знань ЕС, або вже як спосіб автоматизованої побудови бази знань за допомогою діалогу експерта і спеціальної програми (при цьому структура поля знань заздалегідь закладається в програму). В обох випадках термін «придбання» не стосується самого таїнства екстрагування структури знань з потоку інформації про предметну область. Цей процес описується поняттям «видобування».

Автори схильні використовувати цей термін як більш ємний і такий, що точніше виражає зміст процедури перенесення компетентності експерта через інженера зі знаннь у базу знань ЕС.

Видобування знань (knowledge elicitation) це процедура взаємодії експерта із джерелом знань, у результаті якої стають явними процес міркувань фахівців при ухваленні рішення і структура їх уявлень про предметну область.

На сьогодні більшість розробників ЕС відзначають, що процес видобування знань залишається «найвужчим» місцем при побудові промислових ЕС. При цьому їм доводиться практично самостійно розробляти методи витягання, зіштовхуючись із наступними труднощами [Gaines, 1989]:


  • організаційні непогодженості;

  • невдалий метод витягання, що не співпадає зі структурою знань у певній області;

  • неадекватна модель (мова) для подання знань.

Можна додати до цього [Error: Reference source not found]:


  • невміння налагодити контакт із експертом;

  • термінологічний різнобій;

  • відсутність цілісної системи знань в результаті витягання тільки «фраґментів»;

  • спрощення «картини світу» експерта та ін.

Процес видобування - це тривала і трудомістка процедура, у якій інженерові зі знань, озброєному спеціальними знаннями з когнітивної психології, системного аналізу, математичній логіці та ін., необхідно відтворити модель предметної області, якою користуються експерти для прийняття рішення. Часто розроблювачі-початківці ЕС, бажаючи спростити цю процедуру, намагаються підмінити інженера зі знань самим експертом. З багатьох причин це небажано.

Отже, можна виділити три основні стратегії проведення стадії одержання знань під час розроблення інтелектуальних систем (рис. 5 .1).

  1. З використанням ЕОМ при наявності відповідного програмного інструментарію, інакше придбання знань.

  2. З використанням програм навчання при наявності репрезентативної (тобто досить представницької) вибірки прикладів прийняття рішень у предметній області і відповідних пакетів прикладних програм, інакше формування знань.

  3. Без використання обчислювальної техніки шляхом безпосереднього контакту інженера зі знань і джерела знань (чи експерт, спеціальна література або інші джерела), інакше видобування знань.



Рис. 5.1. Стратегії одержання знань.
Оскільки основною проблемою інженерії знань є процес видобування знань, інженерові по знаннях необхідно чітко розуміти природу й особливості цих процесів. Щоб розібратися в природі видобування знань, виділимо три основних аспекти цієї процедури.

1.1.1.Психологічний аспект

Із трьох аспектів видобування знань психологічний - А1 - є ведучим, оскільки він визначає успішність і ефективність взаємодії інженера зі знань (аналітика) з основним джерелом знань - експертом-професіоналом. Психологічний аспект виділяється ще й тому, що видобування знань відбувається найчастіше в процесі безпосереднього спілкування розроблювачів системи. А в спілкуванні психологія є домінантною.




Можна виділити такі структурні компоненти моделі спілкування під час видобування знань:


  • учасники спілкування (партнери);

  • засоби спілкування (процедура);

  • предмет спілкування (знання).

Відповідно до цієї структури виділимо три «шари» психологічних проблем, які виникають під час видобування знань (рис. 5 .2):

А1 - {Sll, S12, S13 } - {контактний, процедурний, когнітивний}.



Рис. 5.2. Психологічний аспект видобування знань.

Контактний шар (S11)

Практично всі психологи відзначають, що на будь-який колективний процес впливає атмосфера, що виникає в групі учасників. Існують експерименти, результати яких незаперечно показують, що часто дружня атмосфера в колективі більше впливає на результат, ніж індивідуальні здібності окремих членів групи [Error: Reference source not found]. Особливо важливо, щоб у колективі розроблювачів складалися кооперативні, а не конкурентні відносини. Для кооперації характерна атмосфера співробітництва, взаємодопомоги, зацікавленості в успіхах один одного, тобто рівень морального спілкування, а для відносин конкурентного типу - атмосфера індивідуалізму й міжособистісного суперництва (нижчий рівень спілкування).

Розроблення проблематики контактного шару дозволило виявити наступні параметри партнерів, що впливають на результати процедури видобування знань:

S11={s11_i} = (стать, вік, особистість, темперамент, мотивація та ін.}, частина з яких згодом увійшли у формування моделі користувача.

Процедурний шар (S12)

Параметри процедурного шару S12 описують безпосередньо процес здійснення процедури видобування знань. Фактично це професійні параметри:


S12={s12_i} = {ситуація спілкування (місце, час, тривалість); устаткування (допоміжні засоби, освітленість, меблі); професійні прийоми (темп, стиль, методи й ін.)}.

Інженер зі знань, що успішно опанував науку встановлення атмосфери довіри й взаєморозуміння з експертом (контактний шар - S11), повинен ще зуміти скористатися сприятливим впливом цієї атмосфери. Проблема процедурного шару стосується здійснення самої процедури видобування знань. Тут мало проникливості й чарівності, корисних для рішення проблеми контакту, тут необхідні професійні знання.

Когнітивний шар (S13)

Когнітивні (від англ. cognition - пізнання) науки досліджують пізнавальні процеси людини з позицій можливості їхнього моделювання (психологія, нейрофізіологія, ергономіка, інженерія знань). Найменш досліджені на сьогодні проблеми когнітивного шару S13, пов'язані з вивченням семантичного простору пам'яті експерта й реконструкцією його понятійної структури і моделі міркувань.

Основними факторами, що впливають на когнітивну адекватність, будуть:

S13={s13_i} = {когнітивний стиль, семантична репрезентативність поля знань і концептуальної моделі}.

Під когнітивним стилем (s13_l) людини розуміється сукупність критеріїв переваги при рішенні завдань і пізнанні світу, специфічна для кожної людини. Когнітивний стиль визначає не стільки ефективність діяльності, скільки спосіб досягнення результату [Error: Reference source not found]. Це спосіб пізнання, що дозволяє людям з різними здібностями добиватися однакових результатів у діяльності. Це система засобів та індивідуальних прийомів, до яких звертається людина для організації своєї діяльності. Інженерові зі знань корисно вивчити і прогнозувати свій когнітивний стиль, а також стиль експерта.

1.1.2.Лінґвістичний аспект

Лінґвістичний (А2) аспект стосується досліджень мовних проблем, тому що мова - це основний засіб спілкування в процесі видобування знань. Область розроблення природно-мовних інтерфейсів і весь спектр проблем, пов'язаних з нею - лексичних, синтаксичних, семантичних, прагматичних і т.ін. [Error: Reference source not found], [Error: Reference source not found], [Error: Reference source not found], у цій книзі не розглядається.


В інженерії знань можна виділити три шари лінґвістичних проблем (рис. 5 .3):



Рис. 5.3. Лінґвістичний аспект видобування знань.

«Загальний код» (S21)

«Загальний код» вирішує проблему мовних ножиць між професійною термінологією експерта і повсякденною літературною мовою інженера зі знань і включає наступні компоненти:

S21 = {s21_i} = {загальнонаукова термінологія; спеціальні поняття із професійної літератури; елементи побутової мови; неологізми, сформовані за час спільної роботи; професійний жаргон і ін.}.

Деталізація схеми спілкування (див. рис. Error: Reference source not found) дозволяє зобразити засоби спілкування як два потоки [Error: Reference source not found], у яких нас цікавлять компоненти V1 і V2 — мови, якими говорять аналітик і експерт (V11, V21 — невербальні компоненти). Розходження мов V1 і V2 обумовлює «мовний бар'єр» або «мовні ножиці» у спілкуванні інженера зі знань і експерта.

Ці дві мови є відображенням «внутрішньої мови» експерта й аналітика, оскільки більшість психологів і лінґвістів вважають, що мова — це основний засіб мислення поряд з іншими знаковими системами «внутрішнього користування» (універсальний семантичний код – УСК [Error: Reference source not found], мови «змісту» [Error: Reference source not found], концептуальні мови [Error: Reference source not found] і ін.). Мова аналітика V1 складається із трьох компонентів:


  • s21_l – загальнонаукової термінології з її «теоретичним багаже»;

  • s21_2 – термінів предметної області, які аналітик почерпнув зі спеціальної літератури в період підготовки;

  • s21_3 – побутової розмовної мови, якою користується аналітик.

Мова експерта V2 включає:
  • s21_l – загальнонаукову термінологію;


  • s21_2 – спеціальну термінологію, прийняту в предметній області;

  • s21_3 – побутову мову;

  • s21_4 – неологізми, створені експертом за час роботи, тобто його про­фесіональний жаргон.

Якщо вважати, що побутова й загальнонаукова мови у двох учасників спілкування приблизно збігаються (хоча реально обсяг другого компонента в експерта істотно більший), то деяка загальна мова або код, який необхідно виробити партнерам для успішної взаємодії, буде складатися з потоків, зображених на рис. 5 .4.

Надалі цей загальний код перетвориться в деяку понятійну (семантичну) мережу, що є прообразом поля знань предметної області. Вироблення загального коду починається з виписуванням аналітиком всіх термінів, уживаних експертом, і уточнення їхнього змісту. Фактично це є складання словника предметної області. Потім випливає групування термінів і вибір синонімів (слів, що означають те саме). Розробка загального коду закінчується складанням словника термінів предметної області з попереднім угрупованням їх за змістом, тобто за понятійною близькістю (це вже перший крок структурування знань).

На цьому етапі аналітик повинен уважно віднестись до всіх спеціальних термінів, намагаючись максимально вникнути в суть розв'язуваних проблем і термінологію. Освоєння аналітиком мови предметної області - перший рубіж на підступах до створення адекватної бази знань.



Рис. 5.4. Структура загального коду.

Рис. 5 .4 дає уявлення про процес неоднозначності інтерпретації термінів двома фахівцями. У семіотиці, науці про знакові системи, проблема інтерпретації є однією із центральних. Інтерпретація зв’язує «знак» і «означуваний предмет». Тільки в інтерпретації знак одержує зміст.

1.1.3.Гносеологічний аспект видобування знань

Гносеологія — це розділ філософії, пов'язаний з теорією пізнання, або теорією відображення дійсності у свідомості людини. Гносеологічний аспект (A3) видобування знань поєднує методологічні проблеми одержання нового наукового знання, оскільки при створенні БЗ експерт часто вперше формулює деякі закономірності, які до цього моменту складали його особистий досвід. Інженерія знань як наука, якщо можна так виразитися, двічі гносеологічна — спочатку дійсність відбивається у свідомості експерта (M1), а потім діяльність і досвід експерта інтерпретуються свідомістю інженера зі знань (М2), що служить вже основою для побудови третьої інтерпретації (Р) — поля знань інтелектуальної системи. Процес пізнання, за суттю, скерований на створення внутрішньої репрезентації навколишнього світу у свідомості людини.


Якщо описати процеси 12 і 13 в термінології, введеній на початку розділу, то ми маємо справу з перетворенням експертного знання і теоретичного (книжного) досвіду Z1 в полі знань Z2, яке є матеріалізацією моделі світу М2 інженера зі знань.

У процесі видобування знань аналітика, в основному, цікавить компонент Z1, пов'язаний з неканонічними індивідуальними знаннями експертів, оскільки предметні області, що вимагають саме такого типу знань, вважаються найбільш сприйнятливими до впровадження інтелектуальних систем. Ці області зазвичай називають емпіричними, оскільки у них накопичений великий обсяг окремих емпіричних фактів і спостережень, тоді як їх теоретичне узагальнення — питання майбутнього.

Якщо вважати, що інженер зі знань витягає тільки фраґмент Z1', тобто частину із системи знань експерта Z1, то його завдання, по-перше, старатися, щоб структура Z1' відповідала Z1, і, по-друге, щоб Z1' якомога повніше відображала Z1.

Пізнання часто супроводжується створенням нових понять і теорій. Іноді експерт породжує нові знання прямо в ході бесіди з аналітиком. Така ґенерація знань корисна і самому експертові, який до того моменту міг не усвідомлювати ряд співвідношень і закономірностей предметної області. Аналітикові може допомогти тут і інструментарій системної методології, що дозволяє використовувати відомі принципи логіки наукових досліджень, понятійної ієрархії науки. Ця методологія змушує його завжди прагнути за часткою побачити загальне, тобто будувати ланцюжки.

Гносеологічний ланцюжок: факт  узагальнений факт  емпіричний закон  теоретичний закон.

Не завжди вдається дійти до останньої ланки цього ланцюжка, але вже саме прагнення до руху буває надзазвичай плідним. Такий підхід повністю узгоджується із структурою самого знання, яке має два рівні:


  1. емпіричний (спостереження, явища).

  2. теоретичний (закони, абстракції, узагальнення).

1.1.4.Гносеологічний аспект видобування знань

Гносеологія — це розділ філософії, пов'язаний з теорією пізнання, або теорією відображення дійсності у свідомості людини. Гносеологічний аспект (A3) видобування знань поєднує методологічні проблеми одержання нового наукового знання, оскільки при створенні БЗ експерт часто вперше формулює деякі закономірності, які до цього моменту складали його особистий досвід. Інженерія знань як наука, якщо можна так виразитися, двічі гносеологічна — спочатку дійсність відбивається у свідомості експерта (M1), а потім діяльність і досвід експерта інтерпретуються свідомістю інженера зі знань (М2), що служить вже основою для побудови третьої інтерпретації (Р) — поля знань інтелектуальної системи. Процес пізнання, за суттю, скерований на створення внутрішньої репрезентації навколишнього світу у свідомості людини.

Якщо описати процеси 12 і 13 в термінології, введеній на початку розділу, то ми маємо справу з перетворенням експертного знання і теоретичного (книжного) досвіду Z1 в полі знань Z2, яке є матеріалізацією моделі світу М2 інженера зі знань.

У процесі видобування знань аналітика, в основному, цікавить компонент Z1, пов'язаний з неканонічними індивідуальними знаннями експертів, оскільки предметні області, що вимагають саме такого типу знань, вважаються найбільш сприйнятливими до впровадження інтелектуальних систем. Ці області зазвичай називають емпіричними, оскільки у них накопичений великий обсяг окремих емпіричних фактів і спостережень, тоді як їх теоретичне узагальнення — питання майбутнього.

Якщо вважати, що інженер зі знань витягає тільки фраґмент Z1', тобто частину із системи знань експерта Z1, то його завдання, по-перше, старатися, щоб структура Z1' відповідала Z1, і, по-друге, щоб Z1' якомога повніше відображала Z1.

Пізнання часто супроводжується створенням нових понять і теорій. Іноді експерт породжує нові знання прямо в ході бесіди з аналітиком. Така ґенерація знань корисна і самому експертові, який до того моменту міг не усвідомлювати ряд співвідношень і закономірностей предметної області. Аналітикові може допомогти тут і інструментарій системної методології, що дозволяє використовувати відомі принципи логіки наукових досліджень, понятійної ієрархії науки. Ця методологія змушує його завжди прагнути за часткою побачити загальне, тобто будувати ланцюжки.


Гносеологічний ланцюжок: факт  узагальнений факт  емпіричний закон  теоретичний закон.

Не завжди вдається дійти до останньої ланки цього ланцюжка, але вже саме прагнення до руху буває надзазвичай плідним. Такий підхід повністю узгоджується із структурою самого знання, яке має два рівні:


  1. емпіричний (спостереження, явища).

  2. теоретичний (закони, абстракції, узагальнення).

Опис і узагальнення фактів

Ретельність і повнота ведення протоколів під час процесу видобування і пунктуальна «домашня робота» над ними - ось ґарантія продуктивного першого етапу пізнання і матеріал для опису і узагальнення фактів.

На практиці виявляється важко дотримуватися принципів об'єктивності й системності, описаних вище. Найчастіше на цьому етапі факти просто збирають і як би кидають в «загальний мішок»; досвідчений інженер зі знань часто відразу намагається знайти «поличку» або «скриньку» для кожного факту, тим самим приховано готуючись до етапу концептуалізації.

Е_2. Встановлення зв'язків і закономірностей

У пам'яті експерта всі поняття пов'язані і закономірності встановлені, хоча часто і неявно завдання інженера - виявити каркас висновків експерта. Реконструюючи міркування експерта, інженер зі знань може спиратися на дві найпопулярніші теорії мислення - логічну і асоціативну. При цьому якщо, логічна теорія, завдяки гарячим шанувальникам в особі математиків широко цитується і всіляко експлуатується в роботах зі штучного інтелекту, то друга, асоціативна, набагато менш відома і популярна, хоча має також стародавнє коріння.

Методологія процесу одержання нового знання

Методологічно діяльність аналітика може бути представлена як деяка

послідовність етапів :

 Е_1: опис й узагальнення фактів;

 Е_2: установлення логічних і математичних зв'язків, дедукція й індукція

законів;


 Е_3: побудова моделі;

 Е_4: пояснення й пророкування явищ.

Е_1: опис й узагальнення фактів

Старанність і повнота ведення протоколів під час процесу добування й

пунктуальна "домашня робота" над ними - от застава продуктивного першого

етапу пізнання й матеріал для опису й узагальнення фактів.

На практиці виявляється важким дотримуватися принципів об'єктивності й

системності, описаних вище. Найчастіше на цьому етапі факти просто збирають

й як би кидають в "загальний мішок"; досвідчений інженер по знаннях часто

відразу намагається знайти "поличку" або "шухлядка" для кожного факту, тим

самим підспудно готуючись до етапу концептуалізації.

Е_2: установлення зв'язків

У пам'яті експерта всі поняття вв'язані й закономірності встановлені, хоча

часто й неявно, задача інженера - виявити каркас умовиводів експерта.

Реконструюючи міркування експерта, інженер по знаннях може опиратися на дві

найбільш популярні теорії мислення - логічну й асоціативну. При цьому якщо

логічна теорія завдяки гарячим шанувальникам в особі математиків широко

цитується й усіляко експлуатується в роботах по штучному інтелекті, те друг,

асоціативна, набагато менш відома й популярна, хоча має також древніх корінь.

Інженер по знаннях і сам використає операції традиційної логіки й виділяє їх у

схемі міркувань експерта. Це наступні операції:

 визначення;

 порівняння й розрізнення;

 аналіз;

 абстрагування;

 узагальнення;

 класифікація;

 категоризація;

 утворення суджень;

 умовивід;

 складання силогізмів і т.д.

Е_3: побудова моделі

Необхідна спеціалізована мова, за допомогою якого можна описувати й

конструювати ті ідеалізовані моделі миру, які виникають у процесі мислення.


Мова цей створюється поступово за допомогою категоріального апарата,

прийнятого у відповідній предметній області, а також формально-знакових

засобів математики й логіки. Для емпіричних предметних областей така мова поки

не розроблена й поле знань, що напівформалізованим способом опише аналітик,

може бути першим кроком до створення такої мови.

Е_4: пояснення й пророкування явищ

Цей завершальний етап є одночасно й частковим критерієм істинності отриманого

знання. Якщо виявлена система знань експерта повна й об'єктивна, то на її

підставі можна робити прогнози й пояснювати будь-які явища з даної предметної

області. Звичайно бази знань ЕС страждають фрагментарністю й модульностью

(незв'язаністю) компонентів. Все це не дозволяє створювати дійсно

інтелектуальні системи, які, рівняючись на людину, могли б пророкувати нові

закономірності й пояснювати випадки, не зазначені в явному виді в базі.

Виключенням отут є навчальні системи, які орієнтовані на генерацію нових знань і

на "пророкування".

Пропонована методологія озброює аналітика апаратом, що дозволяє уникнути

традиційних помилок, що приводять до неповноти, суперечливості,

фрагментарності БЗ, і вказує напрямок, у якому необхідно рухатися

розроблювачам. І хоча на сьогоднішній день більшість БЗ проробляються лише до

етапу Е_3, знання повної схеми збагачує й поглиблює процес проектування.