Виктор Долонько (dolonyko) wrote,
Виктор Долонько
dolonyko

Categories:

Дали словарные века двадцать первого

Рубрика: Habent sua fata libelli *

Герман ДЬЯКОНОВ **

«В начале было Слово». Хотя Евангелие говорит не совсем о том слове, которым мы пользуемся всуе сразу же после пробуждения.
Чуть ли не с начальной школы мы знаем о когнитивной функции языка (ну, может быть, знаем в более простом варианте). Слово есть неотъемлемая единица языка. А дальше речь пойдет о наших братьях (надеюсь, троюродных) по разуму, о СИИ (системах искусственного интеллекта), или о роботах. Прошу обратить внимание на тот факт, что, помимо разума, который в СИИ вносится программистами, для братьев нужны еще и знания.

Робота надо обучать. Делать это можно либо с учителем, либо без учителя. Но в любом случае робот должен хотя бы на терминологическом уровне ориентироваться в предметной области, для обслуживания которой он создан. Иначе говоря, с учителем или без него самосовершенствуется робот, вначале должен быть словарь.
Уместно вспомнить старика Канта с его «Критикой чистого разума». У СИИ «чистый разум» обычно испачкан априорным запасом знаний, и запас этот принято называть тезаурусом. На самом нижнем уровне это терминологический словарь, закодированный в вид, удобный для проектируемой системы. Самым первым этапом для построения тезауруса является формирование экспертного совета по терминологии: для физики ядра, для аналитической химии, для литературоведения составы советов будут разные, ибо туда должны войти ведущие специалисты с широкой эрудицией по физике ядра… и так далее по списку.
После долгих организационных и принципиальных проволочек будет создан так называемый словник, заготовка будущего тезауруса. Далее предстоит работа по расчистке словника от омонимии, омоформии и синонимии.
Омонимия есть факт существования нескольких предметов, обозначаемых одним и тем же словом. Например, «захват». Это или инструмент, или действие спецназа. Омонимию устраняют с помощью специальных служебных слов.
Омоформы – это слова, совпадающие лишь иногда, как, например, «пила»: то инструмент, то действие в прошедшем времени. При спряжении-склонении это исчезает, в отличие от омонимии. Устранять омоформию обычно не надо.
Синонимия – наличие нескольких имен для одного и того же предмета. Все эти имена образуют так называемое гнездо синонимии, все термины которого заменяются на некоторое единственное имя в гнезде; это слово теперь называется дескриптором. Почти всегда в тезаурусах эксплицируются родо-видовые отношения. Так, «млекопитающее животное» есть родовое понятие для кошек, а «рысь», «лев», «гепард» – понятия видовые для них же.
Более совершенные виды тезаурусов имеют также начала грамматических форм. Возьмите два предложения: «лечение кошек» и «лечение кошками» (есть же кошки-целительницы, сам видал по телевизору). Разница огромная, и у нас она определена падежными окончаниями. В тезаурусах для этого служат указатели роли. В первом случае кошка выступает объектом лечения, во втором – субъектом. Это также отражается в тезаурусе. Для СИИ тезаурусы записываются на специальных языках, которые могут называться языками представления знаний.
Вот, Владимир Иванович, в какие дебри мы забрели! Уж простите нас.

* Книги имеют свою судьбу.
** Специалист по теории информатики.

Опубликовано в «Свежей газете. Культуре» от 25 ноября 2021 года, № 22 (219)
Tags: Культура чтения
Subscribe

  • Post a new comment

    Error

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 1 comment