Семантический словарь. Первый отчет.

Сложность реализации задачи заключалась в неполной и неточной ее постановке. Известно было только направление: семантический словарь расширенный логическими связями. Но, во-первых для создания словаря - ассоциативной многомерной сети слов, терминов, понятий и смысловых фраз уже не достаточно простых двумерных таблиц. По двум параметрам, которые можно отобразить в столбиках и строчках просто невозможно установить то большое количество взаимных направленных связей, которые так естественно существуют и функционируют в ассоциативном мозгу человека.
В процессе проэктирования экспериментальной системы было смоделировано будущее приложение и разработаны необходимые инструменты для создания словаря.

1) Визуализация семантической сети
Экспериментальное приложение работает в браузере. Клиентская часть на javascript, серверная - RubyOnRails
В результате для создания промышленного образца системы визуализации написано подробное техническое задание.
Большое спасибо зарубежным коллегам: Yusef Hassan Montero из университета Гранада, Испания и Christopher M.Collins из университета Торонто за помощь в разработке.

2) Алгоритм обобщения/классификации
Необходимость создания такого алгоритма вызвана тем, что его простая работа по выявлению закономерностей в сходстве значений слов сможет сократить большую часть рутинной работы по созданию словаря

3) Выбраны и переведены в базу данных печатные издания 9 словарей, которые послужат основой для дальнейшей работы:
Семантический словарь под общей ред. Н. Ю. Шведовой в 3 томах
Словообразовательный словарь русского языка А.Н. Тихонов в томах
Англо-русский, русско-английский словарь
Словарь грамматики
WordNet
Словарь синонимов, частотный и морфологический
А также приобрел недавно созданный “Тезаурус русского языка” у его автора Баранова О.С.

Тезаурус Баранова - очень интересное творение одного человека. Поистине монументальный труд - попытка одного человека объять и объяснить всю широту русского языка. Но с логической точки зрения, его структуру очень трудно интерпретировать объективно.

Определенный фронт работ превысил все расчеты по длительности и стоимости разработки, поэтому принято решение создания словаря в ограниченной версии до 3000 слов, употребляемых в лексиконе детей младшего дошкольного возраста. Таким образом удастся создать работающий образец словаря за реальный срок 2-3 месяца. А дальше с прототипом возможно прийдется прибегнуть к поиску инвестиций или увеличить финансирование за счет собственных средств, что пока проблематично.

Tags: ,

Похожие записи

Tags: ,

Leave a Reply