АВТОМАТИЗИРОВАННОЕ ПОСТРОЕНИЕ СПИСКОВ СЕМАНТИЧЕСКИ БЛИЗКИХ СЛОВ НА ОСНОВЕ РЕЙТИНГА ТЕКСТОВ В КОРПУСЕ С ГИПЕРССЫЛКАМИ И КАТЕГОРИЯМИ А.А. Крижановский Санкт-Петербургский институт информатики и автоматизации РАН / aka at iias dot spb dot su / В докладе представлены: алгоритм поиска синонимов (адаптированный HITS алгоритм), архитектура программы и оценка работы программы на тестовых примерах. Для тестирования алгоритма разработана программа Synarcher, выполняющая поиск синонимов (и близких по смыслу слов) в корпусе текстов специальной структуры (Википедиа). Результаты поиска представляются в виде графа с возможностью интерактивного поиска. Предложенное решение задачи поиска синонимов может использоваться при поиске информации (для расширения поисковых запросов), при составлении словарей синонимов. Введение Увеличение числа и изменение качества электронных документов на локальных компьютерах и в сети Интернет позволяют адаптировать известные алгоритмы и предлагать новые для более точного поиска. Поиск похожих объектов (similarity search), кроме поиска похожих текстовых документов, включает задачу поиска семантически близких слов, задачу поиска похожих вершин графа. Для поиска синонимов и семантически близких слов применяют методы, учитывающие структуру гиперссылок, частоту словосочетаний и др. В методах поиска, использующих структуру гиперссылок, учитываются весовые коэффициенты, назначенные каждому документу (в наборе документов с гиперссылками). Это позволяет вычислить относительную важность документа внутри данного набора (концепция авторитетных страниц). Алгоритмы HITS [Kleinberg, 1999] и PageRank (реализован в Google) предназначены для поиска интернет страниц, соответствующих запросу. Эти же алгоритмы позволяют искать похожие страницы (similar pages). Метод извлечения контекстно связанных слов на основе частотности словосочетаний [Pantel, 2000] предлагается для поиска контекстно похожих слов (КПС) и для машинного перевода. Данными для поиска КПС служат (1) семантически близкие слова из тезауруса, (2) словосочетания из БД с указанием типа связи между словами. Для слова w формируется cohort w, т.е. группа слов, связанных одинаковыми отношениями со словом w, из базы словосочетаний. КПС слова w – это пересечение множества похожих слов (из тезауруса) с cohort w. Работа [Pantel, 2000] интересна формулами, предлагаемыми для вычисления сходства между группами слов. В данной работе представлен адаптированный HITS алгоритм и его реализация в виде программной системы для поиска семантических синонимов в корпусе текстов с гиперссылками и категориями (Википедиа). Трудности поиска синонимов определяются рядом причин. Во-первых, автору не известно общепринятой количественной меры для определения степени синонимичности значений слов. Можно утверждать, что одна пара слов более синонимична чем другая, но не ясен способ однозначно указать во сколько раз. Во-вторых, понятие синонимии определено не для слов, а для значений слов, т.е. синонимия неразрывно связана с контекстом. В-третьих, язык – это вечноизменяемая субстанция. Слова могут устаревать или получать новые значения. Особенно активное словообразование и присвоение новых значений словам наблюдается в науке, в её молодых, активно развивающихся направлениях. Разработанные алгоритмы используют структуру ссылок в текстах, поэтому могут применяться к текстам на любом языке. Ссылки, связывающие страницы друг с другом, указываются экспертом. Предлагаемые алгоритмы применимы к корпусам текстов с гиперссылками и категориями. Эти тексты должны отвечать следующим условиям: 1)Каждому текстовому документу (статье) соответствует одно или несколько ключевых слов, отражающих содержание статьи. Например, в случае энциклопедии – энциклопедической статье соответствует одно слово – название статьи. 2)Статьи связаны ссылками. Для каждой статьи определены: набор исходящих ссылок (на статьи, которые упоминаются в данной статье) и входящих ссылок (на статьи, которые сами ссылаются на данную статью). 3)Каждая статья соотнесена одной или нескольким категориям (тематика статьи). Категории образуют дерево таким образом, что для каждой категории есть родитель-категория (кроме корня) и один или несколько детей-категорий (кроме листьев). Данная структура не является абстрактным измышлением. Она имеет конкретное воплощение в структурах типа вики (wiki), получивших широкое распространение в последнее время в Интернете, например, в виде электронной онлайн энциклопедии