Прикладное программное обеспечение: системы автоматической обработки текстов - Михаил Мальковский
Шрифт:
Интервал:
Закладка:
Причиной ошибок другого рода является несовершенное владение навыками клавиатурного набора. Такие ошибки принято называть «типографскими».
Блок пунктуационного контроля системы ЛИНАР разработан на основе весьма полной пунктуационной модели русского языка. Полнота и корректность базовых знаний является основой достижения устойчивости и эффективности программных средств, реализованных на основе данной модели.
В то же время блок пунктуационного контроля является «открытым», т.е. построен таким образом, чтобы обеспечить возможность работы средств адаптации и, при необходимости, введения новых правил пунктуации. Адаптация позволяет автоматически либо модифицировать правила анализа (чтобы новый вариант был применим к встретившейся ситуации), либо обнаружить и исправить пунктуационную ошибку в рассматриваемом предложении. Открытость блока - одна из предпосылок его устойчивости к появлению случайных и мотивированных пунктуационных ошибок, вариативных форм. Система ЛИНАР готова к возможности появления в тексте незнакомых пунктуационных ситуаций и к соответствующей адаптации своих лингвистических знаний (изменению модели) или к исправлению ошибки (изменению текста).
При проверке пунктуации можно использовать любое количество программ контроля, выбирая их при этом по различным признакам. Например, можно осуществлять проверку только тех правил, которые выявляют лишние знаки препинания, можно только тех, которые выявляют пропущенные знаки препинания и т.д. При подобной настройке может меняться совокупность пунктуационных правил, степень жесткости требований по соблюдению каких-либо условий и т. д., что позволяет оценивать качество текста с точки зрения различных категорий пользователей. Набор желаемых для данного сеанса работы модулей формируется в начале работы пользователем.
Пример работы программ пунктуационного контроля:
В ПРЕДЛОЖЕНИИ:
Только и развлечений , что кино раз в неделю
ЗАМЕЧЕНА ПУНКТУАЦИОННАЯ ОШИБКА.
В выделенном месте не должно быть данного знака препинания. В рассматриваемом случае запятая перед что не ставится .
Необходимо пояснение ошибки? (Д/Н)
Д
В безглагольном предложении перед союзом что в выражении только и ... что , за которым следует имя существительное или местоимение, запятая не ставится.
Необходимы примеры правильного применения данного правила? (Д/Н)
Д
Только и денег что пятак в кармане.
Только и разговоров что о них двоих.
3.2.3.7. Семантический контроль
Программа СЕМ1Программа обнаруживает несовпадение ожидаемых семантических признаков актантов (подлежащее, дополнения) глагола и признаков слов (групп слов), реально занимающих соответствующие позиции. Такое несовпадение мешает завершить анализ фразы, поскольку синтаксически допустимая связь не может быть установлена из-за семантических противоречий. Проверяя употребление в тексте глаголов, программа обращает внимание пользователя на "подозрительные" актантные конструкции.
Пример работы программы:
Все рассматриваемые программы написаны на ассемблере.
НЕСОВПАДЕНИЕ СЕМАНТИЧЕСКИХ КЛАССОВ!
В ОПИСАНИИ ГЛАГОЛА "написать" СЕМ.-КЛАСС АКТАНТА:
=язык_программирования=
РЕАЛЬНЫЙ АКТАНТ ассемблере ИМЕЕТ СЕМ.-КЛАСС: =транслятор=
Схема прерываний подключается к магистрали.
НЕСОВПАДЕНИЕ СЕМАНТИЧЕСКИХ КЛАССОВ!
В ОПИСАНИИ ГЛАГОЛА "подключаться" СЕМ.-КЛАСС АКТАНТА:
=устройство=
РЕАЛЬНЫЙ АКТАНТ схема прерываний ИМЕЕТ СЕМ.-КЛАСС:
=структура2=
Программа СЕМ2Программа проводит полный синтактико-семантический анализ фраз указанной области текста. При этом фиксируются случаи, когда фраза имеет (в контексте предметной области, к которой относится текст) более одной интерпретации, т.е. допускает неоднозначное толкование.
Пример работы программы:
Снижение напряжения вызвало отключение принтера.
НЕОДНОЗНАЧНАЯ ИНТЕРПРЕТАЦИЯ!
1 трактовка:
=причина= : снижение напряжения
=следствие= : отключение принтера
2 трактовка:
=причина= : отключение принтера
=следствие= : снижение напряжения
Программа СЕМ3Программа СЕМ3 проверяет однозначность установления связи между личным местоимением и его антецедентом (словом, на которое ссылается данное местоимение). В случаях, когда такой антецедент не найден или их найдено более одного, выдается соответствующая диагностика.
Пример работы программы:
Каждому каналу сопоставлено определенное устройство. Они, в свою очередь, связаны с главной ЭВМ.
ДЛЯ МЕСТОИМЕНИЯ они В ПРЕДШЕСТВУЮЩЕЙ ФРАЗЕ НЕ НАЙДЕНО СЛОВ,
НА КОТОРЫЕ ЭТО МЕСТОИМЕНИЕ ССЫЛАЕТСЯ
Рассмотрим структурупамятиЭВМ. Она состоит из двух основных частей.
ДЛЯ МЕСТОИМЕНИЯ она В ПРЕДШЕСТВУЮЩЕЙ ФРАЗЕ НАЙДЕНО БОЛЕЕ ОДНОГО СЛОВА,
НА КОТОРОЕ ССЫЛАЕТСЯ ЭТО МЕСТОИМЕНИЕ: ЭВМ, памяти, структуру
Программа СЕМ4Программа проверяет, принадлежат ли значения количественно оцениваемых свойств описываемых в тексте объектов заданному диапазону. В случае, если значение свойства выходит за границы диапазона, процедура выдает соответствующую диагностику.
Пример работы программы:
Информация передается в сопроцессор АК-34 по 16 каналу.
ОБ'ЕКТ: сопроцессор АК-34
ГРУППА: 16 каналу
ВЫХОД ЗНАЧЕНИЯ ЗА ВЕРХНЮЮ ГРАНИЦУ ДИАПАЗОНА
(СОПРОЦЕССОР АК-34 ИМЕЕТ КАНАЛЫ: 0,1,2, ... 15)
4. Информационно-поисковые системы
Поиск информации является одной из основных составляющих человеческой деятельности, с ним мы сталкиваемся ежедневно: изучая театральную афишу, чтобы выбрать интересный спектакль, подбирая в расписании поездов удобную электричку, листая телефонную книгу. Человеку, в силу своей профессии или увлечений часто сталкивающемуся с подбором и поиском какой-либо тематической информации, рано или поздно (с возрастанием ее объема) приходится применять некоторые принципы систематизации и классификации имеющихся данных, обеспечивающие более удобный и эффективный поиск. Так, в библиотеках составляют картотеку: сведения о книге по определенной схеме записываются на карточку, туда же помещается шифр - несколько букв и цифр, по которым можно определить местоположение книги (хранилище, стеллаж, полку); карточки расставляются в алфавитном или тематическом порядке. Применение ЭВМ дает более широкие возможности для работы с большими массивами информации.
4.1. Основные определения
Информационно-поисковая система (ИПС) - программная система для хранения, поиска и выдачи интересующей пользователя (абонента) информации. Абонент обращается к ИПС с информационным запросом - текстом, отражающим информационную потребность данного абонента, например, его желание найти список книг по теории информационного поиска или список аптек, в которых можно купить нужное лекарство. Поиск информации ведется в поисковом массиве, который формируется (и по мере необходимости обновляется) разработчиками или администраторами системы. Элементы поискового массива вводятся в информационно-поисковую систему на естественном (или близком к нему) языке, а затем обычно подвергаются индексированию, т.е. переводу на формальный информационно-поисковый язык.
Индексирование - выражение центральной темы или предмета какого-либо текста или описание какого-либо объекта на информационно-поисковом языке[1].
Предмет - объект (материальная вещь, понятие, свойство или отношение), который рассматривается или упоминается в документе/информационном запросе.
Тема документа/информационного запроса - раздел науки или техники, область практической деятельности или проблема, которой посвящен документ/ информационный запрос.
По характеру поискового массива и выдаваемой информации ИПС подразделяют на документальные и фактографические.
Документальная ИПС предназначена для отыскания документов (статей, книг, отчетов, описаний к авторским свидетельствам и патентам), содержащих необходимую информацию. Поисковый массив такой ИПС состоит из поисковых образов документов (т.е. элементов, каждый из которых передает основное содержание документа) или из самих документов. В ответ на предъявляемый информационный запрос ИПС выдает некоторое множество документов (или адреса их хранения), содержащих искомую информацию. Документом называют любой осмысленный текст, который обладает определенной логической завершенностью и содержит сведения о его источнике и/или создателе.