Рекомендуем
Ключевые слова:
Информационно-поисковые системыКнига
Скачать
Содержание (pdf, 78 Кб) Фрагмент (pdf, 73 Кб) Бумажное издание
Купить в РоссииКупить в Библио-ГлобусеКупить BOOKS.RUКупить в ГлавкнигеКупить в OZONКупить в Казахстане Автоматизированные методы выявления семантических отношений для электронных тезаурусов
196 стр.
Формат 60х90/16 (145x215 мм)
Исполнение: в мягкой обложке
ISBN 978-5-9912-0718-8
ББК 81.1
УДК [81-37+025.4]:004.9
Аннотация
Книга посвящена исследованию электронных тезаурусов русского языка и разработке автоматизированных методов их пополнения и оценки. Среди предложенных и апробированных методов – автоматизированные методы выявления семантических отношений. Научно обоснованы количественные характеристики для оценивания полноты тезаурусов, учитывающие полноту отражения общеупотребительной лексики, а также полноту представления значений и синонимических отношений. Разработан автоматический метод оценивания полноты тезаурусов, основанный на использовании словарных данных и корпусов текстов. На основе анализа лексических ресурсов предложен автоматизированный метод формирования синонимических рядов (синсетов). Разработан и апробирован автоматизированный метод установления родовидовых отношений между существительными, основанный на применении алгоритма их автоматического извлечения из толковых словарей русского языка. Результаты практического использования предложенных методов подтверждают, что их применение позволяет сократить трудозатраты экспертов, необходимые для создания лексических ресурсов.
Для научных работников и специалистов в области в области интеллектуальной обработки информации и прикладной лингвистики.
Automated Methods for Detecting Semantic Relations for Electronic Thesauri by Kiselev Y. A, Mukhin M.Y., Porshnev S. V
The work is dedicated to the study of Russian electronic thesauri and to the development of automated methods for their creation and evaluation. We suggested new quantitative features for assessing the recall of thesauri; the features take into account the recall of the reflection of common vocabulary, as well as the representation recall of definitions and synonymy relationships. An automatic method for assessing the thesauri recall has been developed; it's based on the use of dictionary data and text corpora. Based on the analysis of lexical resources, an automated method for the sets of synonyms (synsets) creation is proposed. An automated method of detecting hypernym-hyponym relations, based on the algorithm of their automatic extraction from the explanatory dictionaries for the Russian language, is proposed. The results of the practical use of all developed methods confirm that they can reduce the amount of expert work needed to build lexical resources.
Об авторах:
Киселёв Юрий Александрович – канд. техн. наук, автор более 20 научных публикаций. Области научных и профессиональных интересов: автоматическая обработка естественного языка, применение краудсорсинга к задачам текстового анализа, программирование. Занимается разработкой программного обеспечения в ООО «Яндекс».
Мухин Михаил Юрьевич – доктор филолог. наук, профессор кафедры фундаментальной и прикладной лингвистики и текстоведения Уральского федерального университета (УрФУ, г. Екатеринбург), имеет 115 научных и методических публикаций. Области научных, профессиональных и творческих интересов: применение количественных методов при анализе литературных произведений, работа с лексикографическими базами данных, автоматизация обработки текста. Участник лексикографической группы «Русский глагол» и один из авторов серии известных словарей-тезаурусов. С 2016 г. возглавляет Департамент лингвистики УрФУ
Поршнев Сергей Владимирович – доктор техн. наук, профессор, автор более 500 научных и учебно-методических работ, в том числе, 12 научных монографий. Области научных интересов: математическое моделирование, системный анализ, методы анализа данных, программная инженерия. Под его руководство защищены 23 кандидатских диссертации. Работает в Уральском федеральном университете (УрФУ)
Книга посвящена исследованию электронных тезаурусов русского языка и разработке автоматизированных методов их пополнения и оценки. Среди предложенных и апробированных методов – автоматизированные методы выявления семантических отношений. Научно обоснованы количественные характеристики для оценивания полноты тезаурусов, учитывающие полноту отражения общеупотребительной лексики, а также полноту представления значений и синонимических отношений. Разработан автоматический метод оценивания полноты тезаурусов, основанный на использовании словарных данных и корпусов текстов. На основе анализа лексических ресурсов предложен автоматизированный метод формирования синонимических рядов (синсетов). Разработан и апробирован автоматизированный метод установления родовидовых отношений между существительными, основанный на применении алгоритма их автоматического извлечения из толковых словарей русского языка. Результаты практического использования предложенных методов подтверждают, что их применение позволяет сократить трудозатраты экспертов, необходимые для создания лексических ресурсов.
Для научных работников и специалистов в области в области интеллектуальной обработки информации и прикладной лингвистики.
Automated Methods for Detecting Semantic Relations for Electronic Thesauri by Kiselev Y. A, Mukhin M.Y., Porshnev S. V
The work is dedicated to the study of Russian electronic thesauri and to the development of automated methods for their creation and evaluation. We suggested new quantitative features for assessing the recall of thesauri; the features take into account the recall of the reflection of common vocabulary, as well as the representation recall of definitions and synonymy relationships. An automatic method for assessing the thesauri recall has been developed; it's based on the use of dictionary data and text corpora. Based on the analysis of lexical resources, an automated method for the sets of synonyms (synsets) creation is proposed. An automated method of detecting hypernym-hyponym relations, based on the algorithm of their automatic extraction from the explanatory dictionaries for the Russian language, is proposed. The results of the practical use of all developed methods confirm that they can reduce the amount of expert work needed to build lexical resources.
Об авторах:
Киселёв Юрий Александрович – канд. техн. наук, автор более 20 научных публикаций. Области научных и профессиональных интересов: автоматическая обработка естественного языка, применение краудсорсинга к задачам текстового анализа, программирование. Занимается разработкой программного обеспечения в ООО «Яндекс».
Мухин Михаил Юрьевич – доктор филолог. наук, профессор кафедры фундаментальной и прикладной лингвистики и текстоведения Уральского федерального университета (УрФУ, г. Екатеринбург), имеет 115 научных и методических публикаций. Области научных, профессиональных и творческих интересов: применение количественных методов при анализе литературных произведений, работа с лексикографическими базами данных, автоматизация обработки текста. Участник лексикографической группы «Русский глагол» и один из авторов серии известных словарей-тезаурусов. С 2016 г. возглавляет Департамент лингвистики УрФУ
Поршнев Сергей Владимирович – доктор техн. наук, профессор, автор более 500 научных и учебно-методических работ, в том числе, 12 научных монографий. Области научных интересов: математическое моделирование, системный анализ, методы анализа данных, программная инженерия. Под его руководство защищены 23 кандидатских диссертации. Работает в Уральском федеральном университете (УрФУ)
Оглавление
Список сокращений
Введение
Глава 1. Анализ проблемной ситуации. Постановка задач исследования
1.1. Структурированное представление текстовой информации в бумажной и электронной формах: проблемы и методы их решения
1.1.1. Анализ подходов к представлению текстовой информации в идеографических словарях
1.1.2. Анализ подходов к созданию и использованию электронных тезаурусов
1.2. Анализ принципов построения электронных тезаурусов
1.2.1. Принципы построения тезауруса английского языка Princeton WordNet
1.2.2. Принципы построения тезауруса семи европейских языков EuroWordNet
1.3. Современное состояние электронных тезаурусов русского языка
1.3.1. Сравнительный анализ электронных тезаурусов русского языка
1.3.2. Анализ методов оценивания качества электронных тезаурусов
1.3.3. Количественный анализ открытых электронных тезаурусов русского языка
1.4. Постановка задач исследования
Глава 2. Разработка автоматического метода оценивания полноты электронных тезаурусов русского языка
2.1. Автоматический метод оценивания полноты электронных тезаурусов русского языка
2.1.1. Обоснование и разработка характеристик оценивания полноты электронных тезаурусов русского языка
2.1.2. Обоснование выбора формата электронного представления лексических ресурсов
2.1.3. Автоматический метод оценивания полноты электронных тезаурусов русского языка
2.2. Анализ и обоснование выбора лексических ресурсов для оценивания полноты электронных тезаурусов русского языка
2.2.1. Толковые словари русского языка
2.2.2. Словари синонимов русского языка
2.2.3. Корпуса русского языка
2.2.4. Электронные тезаурусы и Викисловарь
2.2.5. Количественный анализ выбранных лексических русскоязычных ресурсов
2.3. Результаты экспериментальной апробации автоматического метода оценивания полноты электронных тезаурусов русского языка
Глава 3. Разработка автоматизированного метода выявления синонимических рядов, описывающих одинаковые понятия
3.1. Анализ синонимических рядов электронных тезаурусов
3.1.1. Анализ характеристик информационного поиска с точки зрения обоснования их выбора для оценки качества синонимических рядов
3.1.2. Анализ проблем качества синонимических рядов электронных тезаурусов
3.2. Автоматизированный метод выявления синонимических рядов, описывающих одинаковые понятия
3.3. Анализ краудсорсинговых подходов к организации работы с текстовой информацией
3.4. Апробация автоматизированного метода выявления синонимических рядов, описывающих одинаковые понятия
3.4.1. Обоснование размера выборки экспериментальных данных
3.4.2. Подготовка данных для экспериментальной апробации автоматизированного метода выделения синонимических рядов, описывающих одинаковые понятия
3.4.3. Методика проведения эксперимента
3.4.4. Анализ результатов экспериментальных исследований
Глава 4. Разработка автоматизированного метода установления родовидовых отношений между существительными
4.1. Анализ семантических отношений между существительными
4.1.1. Анализ типов семантических отношений
4.1.2. Обоснование выбора характеристик для оценивания результатов извлечения родовидовых отношений
4.2. Анализ подходов к автоматизированному извлечению родовидовых отношений
4.3. Анализ морфологических анализаторов русского текста
4.4. Автоматизированный метод установления родовидовых отношений между существительными
4.4.1. Обоснование автоматизированного метода установления родовидовых отношений между существительными
4.4.2. Автоматический способ извлечения родовидовых отношений между существительными из словарных определений
4.4.3. Программная реализация способа извлечения родовидовых отношений между существительными из словарных определений
4.5. Исследование автоматизированного метода установления родовидовых отношений между существительными
4.5.1. Оценка точности и полноты автоматического способа установления родовидовых отношений между существительными
4.5.2. Методика проведения эксперимента
4.5.3. Оценка точности и полноты ручного этапа автоматизированного метода установления родовидовых отношений
Заключение
Приложение 1. Листинг программной реализации способа извлечения родовидовых отношений между существительными из словарных определений
Приложение 2. Данные и оценки опроса по выявлению синонимических рядов, описывающих одинаковые понятия
Приложение 3. Примеры файлов c данными опроса по выявлению синонимических рядов, описывающих одинаковые понятия
Приложение 4. Инструкция для оценки родовидовых отношений между словами
Приложение 5. Данные и оценки опроса по установлению родовидовых отношений
Список литературы