Категории

Проза
- Проза
- Историческая проза
- Русская современная проза
- Советская классическая проза
- Повести
- Сентиментальная проза
- Зарубежная классика
- Рассказы
- Зарубежная современная проза
- Эпистолярная проза
- Афоризмы
- Очерки
- Разное
- Эссе
- Магический реализм
- Семейный роман/Семейная сага
- Феерия
- Антисоветская литература
- Новелла
- Русская классическая проза
- Современная проза
- О войне
- Контркультура
- Классическая проза
Любовные романы
- Любовные романы
- Исторические любовные романы
- Зарубежные любовные романы
- Эротика
- Слэш
- love
- Порно
- Роман
- Прочие любовные романы
- Фемслэш
- Остросюжетные любовные романы
- Современные любовные романы
- Короткие любовные романы
- Любовно-фантастические романы
Фантастика и фэнтези
- Социально-философская фантастика
- Социально-философская фантастика
- Социально-философская фантастика
- Детективная фантастика
- Киберпанк
- Попаданцы
- LitRPG
- Космоопера
- Технофэнтези
- Городская фантастика
- Русское фэнтези
- Юмористическая фантастика
- Космическая фантастика
- Разное фэнтези
- Городское фэнтези
- Стимпанк
- Мистика
- Боевое фэнтези
- Книги магов
- Разная фантастика
- Романтическая фантастика
- Эпическая фантастика
- Социально-философская фантастика
- Иностранное фэнтези
- Любовное фэнтези
- Сказочная фантастика
- Историческое фэнтези
- Зарубежная фантастика
- Романтическое фэнтези
- Историческая фантастика
- Ироническая фантастика
- Ироническое фэнтези
- Ужасы и Мистика
- Постапокалипсис
- Героическая фантастика
- Фэнтези
- Научная Фантастика
- Социально-психологическая
- Альтернативная история
- Боевая фантастика
Бизнес
- Личная эффективность
- О бизнесе популярно
- Малый бизнес
- Государственное и муниципальное управление
- Бизнес
- Личные финансы
- Менеджмент и кадры
- Экономика
- Управление, подбор персонала
- Банковское дело
- Ценные бумаги и инвестиции
- Корпоративная культура, бизнес
- Личная эффективность
- Поиск работы
- Интернет-бизнес
- Финансы
- Менеджмент
- Работа с клиентами
- Кадровый менеджмент
- Переговоры
- Краткое содержание
- Продажи
- Делопроизводство, офис
- Бухучет и аудит
- Тайм-менеджмент
- Зарубежная деловая литература
- Ораторское искусство / риторика
Справочная литература
- Энциклопедии
- Прочая справочная литература
- Словари
- Руководства
- Справочники
Приключения
- Путешествия и география
- Исторические приключения
- Прочие приключения
- Природа и животные
- Морские приключения
- Вестерн
- Приключения про индейцев
- Зарубежные приключения
Старинная литература
- Античная литература
- Зарубежная старинная литература
- Мифы. Легенды. Эпос
- Европейская старинная литература
- Древнерусская литература
- Древневосточная литература
- Фольклор
- Прочая старинная литература
Религия и духовность
- Религия: окультизм
- Бизнес
- Религия
- Эзотерика
- Прочая религиозная литература
- Самосовершенствование
- Православие
- Религия: христианство
- Религия: протестантизм
- Язычество, паганизм
- Буддизм
- Индуизм
- Зарубежная религиозная литература и эзотерика
- Религии: разное
- Религия: ислам
- Религия: иудаизм
Компьютеры и Интернет
- Прочая околокомпьтерная литература
- Программы
- Программное обеспечение
- Интернет
- Программирование
- Базы данных
- Компьютерное "железо"
Поэзия, Драматургия
- Драматургия
- Сценарии
- Драма
- Песенная поэзия
- Басни
- Киносценарии
- Кино, театр
- Зарубежная поэзия
- В стихах
- Бизнес
- Театр
- Лирика
- Трагедия
- Экспериментальная поэзия
- Верлибры
- Водевиль
- Мистерия
- Эпическая поэзия
- Поэзия
Детская литература
- Детская фантастика
- Детские остросюжетные
- Детские стихи
- Детские приключения
- Зарубежные детские книги
- Учебная литература
- Школьные учебники
- Детские детективы
- Внеклассное чтение
- Книги для дошкольников
- Детский фольклор
- Загадки
- Книги для подростков
- Детская познавательная и развивающая литература
- Прочая детская литература
- Сказка
- Детская проза
- Детская образовательная литература
Юмор
- Комедия
- Любовные романы
- Любовные романы
- Анекдоты
- Юмористическая проза
- Юмористическое фэнтези
- Юмористические стихи
- Драматургия
- Сатира
- Прочий юмор
Документальные книги
- Бизнес
- Бизнес
- Искусство и Дизайн
- Критика
- Публицистика
- Прочая документальная литература
- Военная документалистика
- Биографии и Мемуары
Научные и научно-популярные книги
- Шпаргалки
- Рефераты
- Экология
- Биофизика
- Культурология
- Юриспруденция
- Политика
- Языкознание
- Психотерапия
- Науки: разное
- Биология
- Медицина
- Научпоп
- Воспитание детей, педагогика
- Психология, личное
- Архитектура
- Образовательная литература
- Филология
- Физика
- Радиотехника
- География
- Деловая литература
- Детская психология
- Литературоведение
- Педагогика
- Альтернативная медицина
- Науки о космосе
- Ботаника
- Иностранные языки
- Государство и право
- Обществознание
- Беременность, ожидание детей
- Химия
- Учебники
- О животных
- Социология
- Математика
- Зарубежная психология
- Астрология
- Ветеринария
- География
- Зоология
- Биохимия
- Зарубежная публицистика
- История Европы
- Транспорт, военная техника
- Религиоведение
- История
- Техническая литература
- Прочая научная литература
- Психология
Разная литература
- Шахматы
- Зарубежная литература о культуре и искусстве
- Пословицы, поговорки
- Готические новеллы
- Гиды, путеводители
- Фанфик
- Визуальные искусства
- Военное
- Цитаты из афоризмов
- Истории из жизни
- Кино
- Военная история
- Литература 19 века
- Культура и искусство
- Музыка, музыканты
- Великолепные истории
- Зарубежная образовательная литература
- Современная зарубежная литература
- Отраслевые издания
- Начинающие авторы
- Зарубежная прикладная литература
- Авто и ПДД
- Музыка, танцы
- Изобразительное искусство, фотография
- Спецслужбы
- Недвижимость
- Современная литература
- Боевые искусства
- Подростковая литература
- Шахматы
- Прочее
- Военная техника, оружие
- Газеты и журналы
- Периодические издания
Домоводство, Дом и семья
- Ремонт в квартире
- Здоровье
- Спорт
- Домашние животные
- Кулинария
- Прочее домоводство
- Сад и огород
- Развлечения
- Дом, семья
- Отдых / туризм
- Интерьеры
- Рыбалка
- Охота
- Семейная психология
- Эротика, Секс
- Сделай сам
- Хобби и ремесла
Бизнес
- Маркетинг, PR, реклама
Детективы и Триллеры
- Юридический триллер
- Исторический детектив
- Детектив
- Триллер
- Боевик
- Криминальный детектив
- Полицейский детектив
- Иронический детектив
- Крутой детектив
- Маньяки
- Иностранный детектив
- Политический детектив
- Зарубежные боевики
- Дамский детективный роман
- Классический детектив
- Шпионский детектив
Бизнес
- Торговля
- Тайм-менеджмент
Любовные романы
Биографии
Блог

Меню

Самые читаемые

Выжившая из Ходо. Эльфийский турнир - Ольга Дмитриева

Мессалина. Трагедия императрицы - Ирена Гарда

Правила карьеры. Все, что нужно для служебного роста - Ричард Темплар

Пилот штрафной эскадрильи - Юрий Корчевский

PochitayKnigi » Научные и научно-популярные книги » Языкознание » Прикладное программное обеспечение: системы автоматической обработки текстов - Михаил Мальковский

Прикладное программное обеспечение: системы автоматической обработки текстов - Михаил Мальковский

Читать онлайн Прикладное программное обеспечение: системы автоматической обработки текстов - Михаил Мальковский

Шрифт:

Интервал:

Закладка:

Сделать

1 ... 6 7 8 9 10 11 12 13 14 15

Перейти на страницу:

База знаний ЛИНАР содержит также заранее формируемый - и пополняемый в ходе эксплуатации системы - банк адресатов: конкретных читателей или определенных однородных групп читателей (конкретный руководитель научно-исследовательского проекта; конкретный представитель руководства организации-заказчика; инженеры, которые будут создавать описываемый программно-аппаратный комплекс и др.). Настройка на адресата производится в начале очередного сеанса работы с ЛИНАР. При такой настройке могут меняться базовые и тематические лингвистические знания (состав словаря, совокупность грамматических правил), степень жесткости требований по соблюдению тех или иных норм и условий.

Чтобы задать эту информацию, следует указать имя одного из известных ЛИНАР адресатов (или идентификатор известной группы адресатов) и выбрать значения дополнительных параметров программ контроля.

С помощью такой настройки удается моделировать процесс восприятия текста разными адресатами и, следовательно, оценивать качество текста с разных точек зрения.

Таким образом, К-знания ЛИНАР (которые служат критерием корректности текста и используются для обнаружения "дефектов" текста - отклонений от требований, предъявляемых К-знаниями) формируются динамически в каждом конкретном сеансе работы с системой и являются комплексными по своей природе. Они включают как процедурные знания об исследуемом аспекте текста (воплощенные в соответствующих программах контроля), так и декларативные знания, фильтруемые и конкретизируемые в начале каждого сеанса.

Обнаруженные программой контроля несоответствия текста и К-знаний могут быть устранены двумя способами:

путем внесения изменений в текст (это наиболее частый случай: несоответствие - суть ошибка, допущенная в тексте, которую необходимо исправить);

путем изменения К-знаний системы.Заметим, что изменениям подвергается лишь один компонент К-знаний - лингвистические знания, причем не все, а лишь те, которые соответствуют наиболее подвижной части естественного языка - лексикону. Как правило, такие изменения заключаются в пополнении базы знаний, например, в создании новой словарной статьи для слова, впервые встретившегося в тексте и не знакомого системе. Знания, отображающие требования семантической корректности и простоты интерпретации, общеязыковые и внешние нормы, может изменять только администратор системы.

Для внесения изменений в базу лингвистических знаний используются сервисные программы; для изменения текста - подсистема редактирования ЛИНАРа.

Отметим, что (даже при работе с ЛИНАР в диалоговом режиме) редактирование текста обычно производится по завершении работы программ контроля. Это связано с тем, что исправление фиксируемых системой ошибок и неточностей зачастую требует переделки относительно больших фрагментов текста (разбиение длинной фразы на несколько более простых, устранение неоднозначности трактовки и т.п.). Однако некоторые - локальные - изменения можно внести в текст сразу же в момент обнаружения ошибки. Поэтому в ряде программ контроля, например, в программах орфографического уровня, предусмотрена возможность исправления фиксируемых ошибок в момент их обнаружения.

2.3.3. Программы контроля

Программы контроля текста могут быть классифицированы по нескольким критериям.

Первый критерий связан с анализируемым программой аспектом текста. В соответствии с этим критерием выделяются следующие группы программ одноаспектного контроля:

– контроль орфографии (включая поиск ошибок в склонении и спряжении слов);

– анализ лексического состава текста;

– стилистический контроль;

– проверка выполнения правил структуризации текста;

– контроль синтаксической структуры;

– пунктуационный контроль;

– семантический контроль.

По второму критерию программы одноаспектного контроля подразделяются на программы локального и глобального анализа текста. Программы первой группы обрабатывают мелкие фрагменты текста: отдельные словоформы, словосочетания, специальные символы, не исследуя их контекстные связи или ограничиваясь учетом ближайшего окружения (соседнего слова справа, например). Локальный анализ характерен для программ орфографического, лексического и (частично) стилистического контроля. Программы, осуществляющие глобальный анализ, исследуют, как правило, структуру более крупных единиц текста: фраз и иногда абзацев (синтаксический и семантический контроль), текста в целом.

Третий критерий связан с характером результата, получаемого программой одноаспектного анализа. Основная часть программ контроля обнаруживает те или иные несоответствия текста и К-знаний, используемых в текущем сеансе. Результатом их работы является список выявленных несоответствий (нарушений). Однако некоторые программы, как уже отмечалось, определяют отдельные свойства текста, не оценивая их. Так, программа ЛЕКС1 составляет частотный словарь исследуемого текста (фрагмента текста). Оценку полученным результатам дает человек - пользователь ЛИНАР, он же принимает решение о дальнейших действиях. Его реакция может быть, например, такой - поработать над текстом пункта 4.5.1., поскольку в этом тексте (занимающем всего две страницы) 26 раз встречается слово знания (в различных формах) и 7 раз - слово соответственно.

Только что рассмотренный пример (программа ЛЕКС1) можно использовать и для иллюстрации четвертого критерия классификации программ контроля. Эта программа, как и ряд других, выдает некоторую глобальную информацию об исследуемом фрагменте текста, не фиксируя, в каких позициях (абзацах, фразах или строках) были обнаружены в тексте формы различных слов. Другие программы, например программы проверки орфографии, локализуют обнаруживаемые ими свойства (дефекты) текста.

И наконец, отметим еще одно (формальное) различие программ контроля. Для всех программ основным параметром является подлежащий обработке фрагмент текста. Однако для некоторых программ нужно обязательно указать дополнительные параметры, конкретизирующие задание. Например, при вызове программы ЛЕКС2 нужно указать, какие именно грамматические признаки слов интересуют пользователя.

Некоторые программы контроля получают в качестве параметра предельно допустимые (пороговые) числовые значения количественно оцениваемых параметров текста. Отметим, что, меняя порог, можно варьировать уровень требований, предъявляемых к тексту, моделируя тем самым оценку его разными адресатами. Например, можно установить в качестве предельно допустимой длины фразы 25 слов или ограничить число придаточных предложений (в составе сложного предложения) двумя. Фразы, в которых эти пороговые значения превышены, будут классифицированы соответствующими программами контроля как недопустимые.

3.2.3.1. Орфографический контроль

Программы орфографического контроля обнаруживают (и предлагают варианты исправления) мотивированные грамматические ошибки в основах и окончаниях (флексиях) слов, записанных в словарь системы, и слов, встретившихся ей впервые (незнакомых), а также случайные, или немотивированные, ошибки.

Основные классы учитываемых случайных ошибок таковы:

– пропуск одной буквы (асемблер),

– одна лишняя буква (авттокод),

– замена одной буквы (конпьютер),

– перестановка двух соседних букв (аглоритм).

Признаком ошибки служит появление в обрабатываемом тексте формы незнакомого системе слова.

Предпринимается попытка "свести" такое незнакомое слово к знакомому с помощью преобразований, обратных перечисленным выше (считается, что ошибка могла возникнуть в результате одного из таких "прямых" преобразований знакомого слова). Для предварительной оценки близости слов (основ слов) используется специально разработанная метрика.

Одна из программ обнаруживает ошибки в датах, задаваемых в тексте с помощью конструкций вида ДД.ММ.ГГ. Если задан и диапазон возможных дат, проверяется также принадлежность всех представленных в исследуемом тексте дат этому диапазону.

Примеры работы программ:

прочитанна - ОШИБКА В СЛОВОИЗМЕНЕНИИ !

ОЖИДАЕМОЕ СЛОВО: прочитана

рассчета - ВОЗМОЖНА ОШИБКА ТИПА "удвоение буквы"

ОЖИДАЕМОЕ СЛОВО : расчета

10.25.89.

ОШИБКА В ДАТЕ - недопустимая дата: месяц: 25

3.2.3.2. Анализ лексического состава текста

Программа ЛЕКС1

Программа подсчитывает, сколько раз в тексте (области) употребляется то или иное слово. Программа формирует полный список всех различных слов текста с указанием частот их встречаемости. Можно задать диапазон частот (например, от 10 до 20 вхождений или ровно 15 вхождений) и сформировать список слов, количество употреблений которых лежит в границах этого диапазона. Если диапазон не задан, формируется полный частотный словарь текста.

1 ... 6 7 8 9 10 11 12 13 14 15

Перейти на страницу:

Тут вы можете бесплатно читать книгу Прикладное программное обеспечение: системы автоматической обработки текстов - Михаил Мальковский.

Пожаловаться на ошибку