1. Информатика. структура предметной области. Объекты изучения информатики
Информатика - это наука об общих свойствах информации, закономерностях и методах ее поиска и получения, записи, хранения, преобразования, передачи, переработки, распространения и использования в различных сферах человеческой деятельности. В качестве объектов изучения информатики выступают: информация, данные, информационные технологии и информационные процессы.
Термин информатика возник в 60-х годах во Франции для названия области, занимающейся автоматизированной обработкой информации с помощью электронных вычислительных машин. В англоязычных странах этому термину соответствует синоним computer science (науки о компьютерной технике).
В России термин информатика получил распространение в начале 80-х годов. До этого совокупность направлений, называемых теперь информатикой, именовалась по-разному. Поэтому история информатики в России - это, по сути, и история отечественной кибернетики и частично прикладной математики и вычислительной техники
Информатика в широком смысле представляет собой единство разнообразных отраслей науки, техники и производства, связанных с переработкой информации главным образом с помощью компьютеров и телекоммуникационных средств связи во всех сферах человеческой деятельности. В узком смысле информатика состоит из трех взаимосвязанных частей: технических средств (hardware), программных средств (software), интеллектуальных средств (brainware). В свою очередь, информатику как в целом, так и каждую ее часть обычно рассматривают с разных позиций: как отрасль народного хозяйства; как прикладную дисциплину; как фундаментальную науку.
Информатика как отрасль народного хозяйства включает в себя предприятия разных форм хозяйствования, где занимаются производством технических средств обработки и передачи информации, программных продуктов и разработкой современных технологий переработки информации.
Информатика как прикладная дисциплина занимается изучением закономерностей в информационных процессах (накопление, переработка, распространение); созданием информационных моделей коммуникаций в различных областях человеческой деятельности; разработкой информационных систем и технологий в конкретных областях и выработкой рекомендаций относительно их жизненного цикла: для этапов проектирования и разработки систем, их производства, функционирования и т.д.
Информатика как фундаментальная наука занимается разработкой методологии создания информационного обеспечения процессов управления любыми объектами на базе компьютерных информационных систем. Одна из главных задач этой науки - выяснение, что такое информационные системы, какое место они занимают, какую должны иметь структуру, как функционируют, какие общие закономерности им свойственны.
2. Основные области исследований информатики
Отмечено, что история информатики связана с постепенным расширением области ее интересов. Возможность расширения диктовалась развитием компьютеров и накоплением моделей и методов их применения при решении задач различного типа. На протяжении полувековой истории информатики в ней неоднократно возникали и исчезали те или иные направления. В настоящее время в нее входят следующие основные области исследования:
1. теория алгоритмов (формальные модели алгоритмов, проблемы вычислимости, сложность вычислений и т.п.);
2. логические модели (дедуктивные системы, сложность вывода, нетрадиционные исчисления: индуктивный и абдуктивный вывод, вывод по аналогии, правдоподобный вывод, немонотонные рассуждения и т.п.);
3. базы данных (структуры данных, поиск ответов на запросы, логический вывод в базах данных, активные базы и т.п.);
4. искусственный интеллект (представление знаний, вывод на знаниях, обучение, экспертные системы и т.п.);
5. бионика (математические модели в биологии, модели поведения, генетические системы и алгоритмы и т.п.);
6. распознавание образов и обработка зрительных сцен (статистические методы распознавания, использование признаковых пространств, теория распознающих алгоритмов, трехмерные сцены и т.п.);
7. теория роботов (автономные роботы, представление знаний о мире, децентрализованное управление, планирование целесообразного поведения и т.п.);
8. инженерия математического обеспечения (языки программирования, технологии создания программных систем, инструментальные системы и т.п.);
9. теория компьютеров и вычислительных сетей (архитектурные решения, многоагентные системы, новые принципы переработки информации и т.п.);
10. компьютерная лингвистика (модели языка, анализ и синтез текстов, машинный перевод и т.п.);
11. числовые и символьные вычисления (компьютерно-ориентированные методы вычислений, модели переработки информации в различных прикладных областях, работа с естественно-языковыми текстами и т.п.);
12. системы человеко-машинного взаимодействия (модели дискурса, распределение работ в смешанных системах, организация коллективных процедур, деятельность в телекоммуникационных системах и т.п.);
13. нейроматематика и нейросистемы (теория формальных нейронных сетей, использование нейронных сетей для обучения, нейрокомпьютеры и т.п.);
14. использование компьютеров в замкнутых системах (модели реального времени, интеллектуальное управление, системы мониторинга и т.п.).
3. Формулировка предметной задачи. Задачная ситуация
Одним из важнейших стратегических факторов развития современного общества является использование новых информационных технологий. Умение их применять в значительной степени определяет, наряду со знанием предметной области, эффективность решения научных и производственных задач. Информатика предоставляет методы и средства для решения задач другим областям. Отсюда - актуальность «правильного» взаимодействия специалистов разных профилей, участвующих в постановке и решении задачи при помощи ЭВМ.
Общая формальная схема процесса постановки и решения задачи состоит из:
1) формулирования предметной задачи;
2) формализации задачи;
3) выбора способа решения;
4) решения задачи на ЭВМ;
5) формального анализа результатов;
6) содержательной интерпретации результатов.
Предметную задачу формулирует специалист-предметник. Формализацией задачи занимаются системный аналитик и предметник. Выбор способа решения - за прикладным математиком. Решает задачу на ЭВМ технолог. Формальный анализ результатов производит системный аналитик. Интерпретацию - специалист-предметник.
Формулирование предметной задачи включает указание:
1) цели;
2) представлений о модели объекта исследования (поиска);
3) исходных данных;
4) ожидаемого результата (что он должен из себя представлять);
5) критериев оценки ожидаемого результата.
На практике часто возникают ситуации, когда задача не содержит тех или иных необходимых атрибутов. Случай, при котором известны цель, исходные данные и ожидаемый результат, называют задачной ситуацией.
Задачи, сформулированные на языке предметной области знаний (экологии, биологии, медицины, экономики) называются предметными задачами. Они отличаются степенью формализации: хорошо формализованные, слабо формализованные и неформализованные.
4. Формализация предметной задачи. Уровни формализации задач
Формализация задачи состоит в переводе на формальный (математический) язык описания цели, определении объектов и свойств, способов вычисления свойств, формализации требований к результату, проверке согласованности требуемого результата с целью.
Процесс выбора способа решения задачи включает все этапы анализа данных и корректировки информации, а также определение алгоритма решения задачи, обеспечивающего получение требуемого результата.
На этапе решения задачи осуществляется в автоматизированном режиме преобразование схемы в технологическую (машинную) схему решения задачи и прохождение этой схемы на ЭВМ. Затем проводится формальный анализ полученных результатов, т.е. проверка соответствия результата критериям оценки результата.
Содержательная интерпретация результатов состоит в согласовании результатов с целью исследования, сформулированными требованиями к результату и принятии решения об использовании результатов либо об уточнении модельных представлений и формулировки задачи.
5. Общая схема постановки и решения предметных задач
1) Цель
2) Представления о модели
3) Исходные данные
4) Результат
5) Критерий оценки
8. Понятие о модели.
Всякое представление информации о внешнем мире связано с построением некоторой модели.
Модель - материальный или идеальный аналог оригинала (объекта, явления или процесса), создаваемый для хранения и расширения знания о нем; совокупность свойств и отношений между ними, выражающих существенные стороны изучаемого объекта, явления или процесса.
Существует множество типов моделей и способов их классификации: по цели использования, областям применения, по сложности, целям моделирования и т.д. Модели внешнего подобия, такие как модели самолетов, машин, манекены и т.п., - используются для предварительных испытаний. Учебные схемы (глобус как модель планеты, модель кристаллической решетки и т.п.), тренажеры, имитирующие поведение реальных объектов в сложных ситуациях, служат для обучения. Функциональные модели или модели-эрзацы заменяют объекты при выполнении определенных функций (протезы, искусственный сердечный клапан и т.п.). Исследовательские модели - математические и имитационные - заменяют реальные объекты в ходе научных исследований. В зависимости от области применения модели могут быть естественнонаучными (например, = * a), космогоническими (модель мира, времена года), общественного устройства (школа, общинно-родовые отношения, Римская республика, семья, мафия), литературными, компьютерными.
Информационные модели - модели, в которых изучаемое явление или процесс представлены в виде процессов передачи и обработки информации.
Среди информационных моделей наибольшее распространение получили языковые модели. Устройство языковой модели определяется устройством языка. Для ее построения нужно выделить существенные отношения в изучаемом явлении (объекте, процессе) и описать их средствами языка. По сути дела, каждый объект заменяется его именем, а связи между объектами обозначаются именами отношений.
Таким образом, при описании модели наше внимание сосредоточено не на отдельных элементах, а на системе - совокупности частей, элементов объекта (процесса) и отношениях между ними, придающих объекту (процессу) целостность. Такой перенос центра внимания называется системным подходом. Этот подход был впервые явно сформулирован в 1937 г. американским биологом Людвигом фон Берталанфи (Ludwig von Bertalanffy (1901-1972)).
В 1937 г. на философском семинаре Л. фон Берталанфи - американец немецкого происхождения, биолог Чикагского университета - выступил с докладом о системном подходе для определения понятия вид. Доклад был совершенно не понят, и автор «сложил все свои бумаги в ящик стола» Позднее, после войны, он достал свои старые записки, повторил свой доклад и обнаружил совершенно новый интеллектуальный климат. Что же он предложил? Никто из биологов не знает, что такое вид. Каждый знает, что есть собака, и есть ворона, и есть лещ, фламинго, жук, клоп... Все это знают, но определить, что это такое, никто не может, кроме узких специалистов-ученых. И почему животные одного вида и растения одного вида связаны каким-то образом между собой? Берталанфи предложил определение вида как открытой системы.
6. Представление о системном подходе
Системный анализ - это такой метод анализа, когда внимание обращается не на персоны, особи, которые составляют вид, а на отношения между особями.
Модель позволяет многое узнать об изученных явлениях и процессах. Но всякая модель кое-что «урезает». Важно научиться строить модель таким образом, чтобы в них отражались самые существенные стороны изучаемого явления.
Модель важна не сама по себе, а как способ познания. Поэтому кроме модели необходим также инструмент для ее изучения. В последнее десятилетие таким инструментом все чаще выступает компьютер. Строгих правил построения модели сформулировать невозможно. Но человечество накопило богатый опыт в этой сфере деятельности.
Использование компьютера для изучения модели имеет свою специфику, обусловленную возможностью компьютера. Любая модель для компьютерного анализа должна быть формализована.
Совершенно неважно, какие свойства выбираются в качестве моделирующих. Важно, что с их помощью отражают наиболее существенные черты изучаемого объекта или процесса.
Никакая модель не может заменить сам объект, но при решении задачи, когда нас интересуют сравнительно немногие свойства изучаемого объекта, модель может оказаться очень полезным или нередко даже единственным инструментом исследования
7. Схема коммуникаций
При работе с информацией всегда имеется ее источник и потребитель (получатель). Пути и процессы, обеспечивающие передачу сообщений от источника информации к ее потребителю, называются информационными коммуникациями.
Всякий процесс коммуникации - это, как правило, передача информации о модели, т.е., цель коммуникации состоит в том, чтобы приемник стал обладателем той же модели, которая имеется у источника информации. Ниже представлена схема коммуникации.
Чтобы передаваемое сообщение было понятно должны выполняться следующие условия:
1. предметная область А должна содержаться в предметной области В приемника информации;
2. кодирование и декодирование должны быть взаимно обратными операциями.
3. модельные предположения, имеющиеся у источника и приемника, должны совпадать и не могут изменяться во время передачи информации.
Выполнения последнего требования добиваются, как правило, формализацией языка, то есть переходом с естественного языка на язык с жесткой фиксацией смысла употребляемых слов (например, на математический язык). Язык, в котором каждое слово имеет только один смысл, называют формализованным.
Всякий информационный процесс может осуществляться лишь при наличии языка, описывающего объекты и отношения между ними. В дальнейшем нас будут интересовать совокупности предметов, каждый из которых имеет имя, и вполне определенные связи между предметами. Это множество мы называем предметной областью. Предметная область отражает уровень познания человеком окружающего мира и самого себя. Поэтому она постоянно меняется.
8. Типы моделей
Существует множество типов моделей и способов их классификации: по цели использования, областям применения, по сложности, целям моделирования и т.д. Модели внешнего подобия, такие как модели самолетов, машин, манекены и т.п., - используются для предварительных испытаний. Учебные схемы (глобус как модель планеты, модель кристаллической решетки и т.п.), тренажеры, имитирующие поведение реальных объектов в сложных ситуациях, служат для обучения. Функциональные модели или модели-эрзацы заменяют объекты при выполнении определенных функций (протезы, искусственный сердечный клапан и т.п.). Исследовательские модели - математические и имитационные - заменяют реальные объекты в ходе научных исследований. В зависимости от области применения модели могут быть естественнонаучными (например, = * a), космогоническими (модель мира, времена года), общественного устройства (школа, общинно-родовые отношения, Римская республика, семья, мафия), литературными, компьютерными.
Информационные модели - модели, в которых изучаемое явление или процесс представлены в виде процессов передачи и обработки информации.
Среди информационных моделей наибольшее распространение получили языковые модели. Устройство языковой модели определяется устройством языка. Для ее построения нужно выделить существенные отношения в изучаемом явлении (объекте, процессе) и описать их средствами языка. По сути дела, каждый объект заменяется его именем, а связи между объектами обозначаются именами отношений
9. Что такое информация
Ключевое понятие информатики - информация (от лат. information - разъяснение, осведомление) - любые сведения, данные, отражающие свойства объектов в природных (биологических, физических и других), социальных и технических системах и передаваемые звуковым, графическим (в том числе письменным) или иным способом без применения или с применением технических средств.
Информация и язык
Существенно, что информация существует вне ее создателя, отчуждаема от него, может быть записана на материальном носителе. Важнейший элемент информатики - язык - набор представлений, соглашений и правил, используемых для выражения информации.
Естественным языком называют систему звуковых, словарных и грамматических средств, которая служит средством человеческого общения, мышления. В отличие от этого существуют языки, создаваемые для специальных целей в науке и технике. Искусственные языки - это знаковые системы, создаваемые для использования в тех областях, где применение естественного языка менее эффективно или невозможно. Искусственные языки предназначены, например, для обмена информацией между пользователями и/или прикладными процессами. Один из классов искусственных языков - языки программирования.
Единицей языка является слово. Оно служит для наименования (обозначения) понятий, предметов, лиц, действий, состояний, признаков, связей, отношений и т.д.
Информация и данные
Информатика рассматривает информацию как концептуально связанные между собой сведения, данные, понятия, изменяющие наши представления о явлении или объекте окружающего мира. Наряду с информацией в информатике часто употребляется понятие данные.
Данные могут рассматриваться как признаки или записанные наблюдения, которые по каким-то причинам не используются, а только хранятся. В том случае, если появляется возможность использовать эти данные для уменьшения неопределенности о чем-либо, данные превращаются в информацию. Поэтому можно утверждать, что информацией являются используемые данные..
10. Формы адекватности информации
Использование слова «информация» приводит ко многим недоразумениям. Это связано с тем, что оно имеет много различных значений. В обыденном языке это слово используется в смысле «сообщение» или «сведение», отождествляются понятия знания, данные, информация.
Очевидно, что «обиходное» употребление термина «информация» совершенно неуместно, когда речь идет о теории или теориях информации. Нередко в этих теоретических построениях термин «информация» наполнен разным смыслом, а следовательно, сами теории высвечивают лишь часть граней некоторой системы знаний, которую можно назвать общей теорией информации или «информологией» - наукой о процессах и задачах передачи, распределения, обработки и преобразования информации.
Для потребителя информации очень важной характеристикой является ее адекватность - определенный уровень соответствия создаваемого с помощью полученной информации образа реальному объекту, процессу, явлению и т.п. От степени адекватности информации реальному состоянию объекта или процесса зависит правильность принятия решений человеком.
Адекватность информации может выражаться в трех формах: семантической, синтаксической, прагматической. Именно с этими тремя формами связана эволюция информологии.
11. Классификация мер
Для измерения информации вводятся два параметра: количество информации I и объем данных VД. Эти параметры имеют разные выражения и интерпретацию в зависимости от рассматриваемой формы адекватности. Каждой форме адекватности соответствует своя мера количества информации и объема данных. Объем данных VД в сообщении измеряется количеством символов (разрядов) в этом сообщении. В различных системах счисления один разряд имеет различный вес и соответственно меняется единица измерения данных: в двоичной системе счисления единица измерения - бит (bit - binаry digit - двоичный разряд); в десятичной системе счисления единица измерения - дит (десятичный разряд).
Количество информации I на синтаксическом уровне невозможно определить без рассмотрения понятия неопределенности состояния системы (энтропии системы). Действительно, получение информации о какой-либо системе всегда связано с изменением степени неосведомленности получателя о состоянии этой системы. Пусть до получения информации потребитель имеет некоторые предварительные (априорные) сведения о системе . Мерой его неосведомленности о системе является функция H(), которая в то же время служит и мерой неопределенности состояния системы.
Поэтому стремятся к повышению информативности, для чего разрабатываются специальные методы оптимального кодирования информации.
12. Синтаксические меры информации
Возникновение информологии как науки можно отнести к концу 50-х годов нашего столетия, когда американским инженером Р. Хартли была сделана попытка ввести количественную меру информации, передаваемой по каналам связи. Рассмотрим простую игровую ситуацию. До получения сообщения о результате подбрасывания монеты человек находится в состоянии неопределенности относительно исхода очередного броска. Сообщение партнера дает информацию, снимающее эту неопределенность. Заметим, что число возможных исходов в описанной ситуации равно 2, они равноправны (равновероятны) и каждый раз передаваемая информация полностью снимала возникавшую неопределенность. Хартли принял «количество информации», передаваемое по каналу связи относительно двух равноправных исходов и снимающее неопределенность путем оказания на один из них, за единицу информации, получившую название «бит».
Создатель статистической теории информации К. Шеннон обобщил результат Хартли и его предшественников. Его труды явились ответом на бурное развитие в середине века средств связи: радио, телефона, телеграфа, телевидения. Теория информации Шеннона позволяла ставить и решать задачи об оптимальном кодировании передаваемых сигналов с целью повышения пропускной способности каналов связи, подсказывала пути борьбы с помехами на линиях и т.д.
В работах Хартли и Шеннона информация возникает перед нами лишь в своей внешней оболочке, которая представлена отношениями сигналов, знаков, сообщений друг к другу - синтаксическими отношениями. Количественная мера Хартли-Шеннона не претендует на оценку содержательной (семантической) или ценностной, полезной (прагматической) сторон передаваемого сообщения
Эта мера количества информации оперирует с обезличенной информацией, не выражающей смыслового отношения к объекту.
13. Семантические меры информации
Новый этап теоретического расширения понятия информации связан с кибернетикой - наукой об управлении и связи в живых организмах, обществе и машинах. Оставаясь на позициях шенноновского подхода, кибернетика формулирует принцип единства информации и управления, который особенно важен для анализа сути процессов, протекающих в самоуправляющихся, самоорганизующихся биологических и социальных системах. Развитая в работах Н. Винера концепция предполагает, что процесс управления в упомянутых системах является процессом переработки (преобразования) некоторым центральным устройством информации, получаемой от источников первичной информации (сенсорных рецепторов) и передачи ее в те участки системы, где она воспринимается ее элементами как приказ для выполнения того или иного действия. По совершении самого действия сенсорные рецепторы готовы к передаче информации об изменившейся ситуации для выполнения нового цикла управления. Так организуется циклический алгоритм (последовательность действий) управления и циркуляции информации в системе. При этом важно, что главную роль играет здесь содержание информации, передаваемой рецепторами и центральным устройством. Информация, по Винеру - это «обозначение содержания, полученного из внешнего мира в процессе нашего приспособления к нему и приспособления к нему наших чувств».
Таким образом, кибернетическая концепция подводит к необходимости оценить информацию как некоторое знание, имеющее одну ценностную меру по отношению к внешнему миру (семантический аспект) и другую по отношению к получателю, накопленному им знанию, познавательным целям и задачам (прагматический аспект).
При всем многообразии логико-семантических теорий им присущи общие черты, они указывают путь решения трех связанных друг с другом проблем: определения совокупности возможных альтернатив средствами выбранного языка, количественной оценки альтернатив, их относительного сопоставления (взвешивания), введения меры семантической информации.
В рассмотренных теоретических конструкциях - статистической и семантической информации - речь шла о потенциальной возможности извлечь из передаваемого сообщения какие-либо сведения. Вместе с тем в процессах информационного обмена очень часто складываются ситуации, в которых мощность или качество информации, воспринимаемое приемником, зависит от того, насколько он подготовлен к ее восприятию.
Понятие тезауруса является фундаментальным в теоретической модели семантической теории информации, предложенной Ю.А. Шрейдером и учитывающей в явной форме роль приемника. Согласно этой модели, тезаурус - это знания приемника информации о внешнем мире, его способность воспринимать те или иные сообщения, а информация - это разность тезаурусов.
Для измерения смыслового содержания информации, т.е. ее количества на семантическом уровне, наибольшее признание получила тезаурусная мера, которая связывает семантические свойства информации со способностью пользователя принимать поступившее сообщение. Для этого используется понятие тезаурус пользователя - совокупность сведений, которыми располагает пользователь или система.
14. Прагматические меры информации
В прагматических концепциях информации этот аспект является центральным, что приводит к необходимости учитывать ценность, полезность, эффективность, экономичность информации, т.е. те ее качества, которые определяющим образом влияют на поведение самоорганизующихся, самоуправляющихся, целенаправленных кибернетических систем (биологических, социальных, человеко-машинных).
Одним из ярких представителей прагматических теорий информации является поведенческая модель коммуникации - бихевиористская модель Акоффа-Майлса. Исходным в этой модели является целевая устремленность получателя информации на решение конкретной проблемы. Получатель находится в «целеустремленном состоянии», если он стремится к чему-нибудь и имеет альтернативные пути неодинаковой эффективности для достижения цели. Сообщение, переданное получателю иформативно, если оно изменяет его «целеустремленное состояние».
Для получателя прагматическая ценность сообщения состоит в том, что оно позволяет ему наметить стратегию поведения при достижении цели построением ответов на вопросы: что, как и почему делать на каждом очередном шаге? Для каждого типа информации бихевиористская модель предлагает свою меру, а общая прагматическая ценность информации определяется как функция разности этих количеств в «целеустремленном состоянии» до и после его изменения на новое «целеустремленное состояние».
Следующим этапом в развитии прагматических теорий информации явились работы американского логика Д. Харраха, построившего логико-прагматическую модель коммуникации. Одной из слабостей бихевиористской модели является ее неподготовленность к оценке ложных сообщений. Модель Харраха предполагает учет общественного характера человеческой коммуникации. В соответствии с ней получаемые сообщения должны быть сначала подвергнуты обработке, после которой выделяются сообщения «годные к употреблению».
Теория информации «в смысле Шеннона» возникла как средство решения конкретных прикладных задач в области передачи сигналов по каналам связи. Поэтому, по-существу, она являлась и является прикладной информационной наукой. Семейство таких наук, специально изучающих информационные процессы в том или ином их специфическом содержании и форме, во второй половине нашего века растет довольно быстро. Это - кибернетика, теория систем, документалистика, лингвистика, символическая логика и др. Стержнем, объединяющим все эти исследования, служит общая теория информации - «информология», в основу которой и положены синтаксические, семантические и прагматические концепции информации.
15. Показатели качества информации
Возможность и эффективность использования информации обусловливаются такими основными ее потребительскими показателями качества, как репрезентативность, содержательность, достаточность, доступность, актуальность, своевременность, точность, достоверность, устойчивость.
Репрезентативность информации связана с правильностью ее отбора и формирования в целях адекватного отражения свойств объекта. Важнейшее значение здесь имеют: правильность концепции, на базе которой сформулировано исходное понятие; обоснованность отбора существенных признаков и связей отображаемого явления. Нарушение репрезентативности информации приводит нередко к существенным ее погрешностям.
Содержательность информации отражает семантическую емкость, равную отношению количества семантической информации в сообщении к объему обрабатываемых данных, т.е. C = Ic/Vд. С увеличением содержательности информации растет семантическая пропускная способность информационной системы, так как для получения одних и тех же сведений требуется преобразовать меньший объем данных. Наряду с коэффициентом содержательности С, отражающим семантический аспект, можно использовать и коэффициент информативности, характеризующийся отношением количества синтаксической информации (по Шеннону) к объему данных Y = I/Vд.
Достаточность (полнота) информации означает, что она содержит минимальный, но достаточный для принятия правильного решения набор показателей. Понятие полноты информации связано с ее смысловым содержанием (семантикой) и прагматикой. Как неполная, т.е. недостаточная для принятия правильного решения, так и избыточная информация снижает эффективность принимаемых пользователем решений.
Доступность информации восприятию пользователя обеспечивается выполнением соответствующих процедур ее получения и преобразования. Например, в информационной системе информация преобразовывается к доступной и удобной для восприятия пользователя форме. Это достигается, в частности, и путем согласования ее семантической формы с тезаурусом пользователя.
Актуальность информации определяется степенью сохранения ценности информации для управления в момент ее использования и зависит от динамики изменения ее характеристик и от интервала времени, прошедшего с момента возникновения данной информации.
Своевременность информации означает ее поступление не позже заранее назначенного момента времени, согласованного со временем решения поставленной задачи.
Точность информации определяется степенью близости получаемой информации к реальному состоянию объекта, процесса, явления и т.п. Для информации, отображаемой цифровым кодом, известны четыре классификационных понятия точности: формальная точность, измеряемая значением единицы младшего разряда числа; реальная точность, определяемая значением единицы последнего разряда числа, верность которого гарантируется; максимальная точность, которую можно получить в конкретных условиях функционирования системы; необходимая точность, определяемая функциональным назначением показателя.
Достоверность информации определяется ее свойством отражать реально существующие объекты с необходимой точностью. Измеряется достоверность информации доверительной вероятностью необходимой точности, т.е. вероятностью того, что отображаемое информацией значение параметра отличается от истинного значения этого параметра в пределах необходимой точности.
Устойчивость информации отражает ее способность реагировать на изменения исходных данных без нарушения необходимой точности. Устойчивость информации, как и репрезентативность, обусловлена выбранной методикой ее отбора и формирования.
Такие параметры качества информации, как репрезентативность, содержательность, достаточность, доступность, устойчивость, целиком определяются на методическом уровне разработки информационных систем. Параметры актуальности, своевременности, точности и достоверности обусловливаются в большей степени также на методическом уровне, однако на их величину существенно влияет и характер функционирования системы, в первую очередь ее надежность. При этом параметры актуальности и точности жестко связаны соответственно с параметрами своевременности и достоверности.
16. Системы классификации информации, основные идеи
Важным понятием при работе с информацией является классификация объектов - система распределения объектов (предметов, явлений, процессов, понятий) по классам в соответствии с определенным признаком.
Под объектом понимается любой предмет, процесс, явление материального или нематериального свойства. Система классификации позволяет сгруппировать объекты и выделить определенные классы, которые будут характеризоваться рядом общих свойств. Классификация объектов - это процедура группировки на качественном уровне, направленная на выделение однородных свойств.
Применительно к информации как к объекту классификации выделенные классы называют информационными объектами.
Свойства информационного объекта определяются информационными параметрами, называемыми реквизитами. Реквизит - логически неделимый информационный элемент, описывающий определенное свойство объекта, процесса, явления и т.п. Реквизиты представляются либо числовыми данными, например вес, стоимость, год, либо признаками, например цвет, марка машины, фамилия.
Кроме выявления общих свойств информационного объекта классификация нужна для разработки правил (алгоритмов) и процедур обработки информации, представленной совокупностью реквизитов.
При классификации широко используются понятия классификационный признак и значение классификационного признака, которые позволяют установить сходство или различие объектов. Возможен подход к классификации с объединением этих двух понятий в одно, названное как признак классификации. Признак классификации имеет также синоним основание деления.
Разработка классификаторов является достаточно сложной задачей и проводится, как правило, в несколько этапов.
На 1-м этапе проводят исследования, определяющие исходное множество объектов, подлежащих классификации; выбор метода классификации и классификационных признаков, позволяющих упорядочить объекты в систему.
На 2-м этапе разрабатывается методика создания классификатора, содержащая состав и характеристику объектов классификации: описание и обоснование классификационных признаков и методов классификации и кодирования объектов, включаемых в классификатор; структура классификатора.
3-й этап - создание классификатора и программного обеспечения системы ведения классификатора: сбор исходных данных; установление полного перечня объектов классификации и упорядочение этих объектов в систему; разработка структуры и формирование базы данных классификатора; подготовка задания на создание системы ведения классификатора; оформление, согласование и утверждение классификатора.
И только 4-й этап - ввод в действие классификатора.
Разработаны три метода классификации объектов: иерархический, фасетный, дескрипторный. Эти методы различаются разной стратегией применения классификационных признаков.
Иерархическая система классификации строится следующим образом: исходное множество элементов составляет 0-й уровень и делится в зависимости от выбранного классификационного признака на классы (группировки), которые образуют 1-й уровень; каждый класс 1-го уровня в соответствии со своим, характерным для него классификационным признаком делится на подклассы, которые образуют 2-й уровень; каждый класс 2-го уровня аналогично делится на группы, которые образуют 3-й уровень, и т.д.
Учитывая достаточно жесткую процедуру построения структуры классификации, необходимо перед началом работы определить ее цель, т.е. какими свойствами должны обладать объединяемые в классы объекты. Эти свойства принимаются в дальнейшем за признаки.
В иерархической системе классификации каждый объект на любом уровне должен быть отнесен к одному классу, который характеризуется конкретным значением выбранного классификационного признака. Для последующей группировки в каждом новом классе необходимо задать свои классификационные признаки и их значения. Таким образом, выбор классификационных признаков будет зависеть от семантического содержания того класса, для которого необходима группировка на последующем уровне иерархии.
Количество уровней классификации, соответствующее числу признаков, выбранных в качестве основания деления, характеризует глубину классификации.
Достоинства иерархической системы классификации: простота построения; использование независимых классификационных признаков в различных ветвях иерархической структуры.
Недостатки иерархической системы классификации: жесткая структура, которая приводит к сложности внесения изменений, так как приходится перераспределять все классификационные группировки; невозможность группировать объекты по заранее не предусмотренным сочетаниям признаков.
Фасетная система классификации в отличие от иерархической позволяет выбирать признаки классификации независимо как друг от друга, так и от семантического содержания классифицируемого объекта. Признаки классификации называются фасетами и (facet - рамка). Каждый фасет (Фi) содержит совокупность однородных значений данного классификационного признака. Причем значения в фасете могут располагаться в произвольном порядке, хотя предпочтительнее их упорядочение.
Процедура классификации состоит в присвоении каждому объекту соответствующих значений из фасетов. При этом могут быть использованы не все фасеты. Для каждого объекта задается конкретная группировка фасетов структурной формулой, в которой отражается их порядок следования:
Кs = (Ф1, Ф2, …, Фi, …, Фп),
где Фi - i-й фасет, п - количество фасетов.
При построении фасетной системы классификации необходимо, чтобы значения, используемые в различных фасетах, не повторялись. Фасетную систему легко можно модифицировать, внося изменения в конкретные значения любого фасета.
Достоинства фасетной системы классификации: возможность создания большой емкости классификации, т.е. использования большого числа признаков классификации и их значений для создания группировок; возможность простой модификации всей системы классификации без изменения структуры существующих группировок.
Недостатком фасетной системы классификации является сложность ее построения, так как необходимо учитывать все многообразие классификационных признаков.
Примером фасетной системы классификации является система регистрации преступных элементов, предложенная французским криминалистом Альфонсом Бертильоном. Бертильон делит всех людей на три группы - по длине черепа, каждая из трех групп делится на три подгруппы - по ширине черепа, дальнейшие деления - по размеру среднего пальца левой руки, размеру правого уха, росту, длине рук, высоте в сидячем положении, размеру стопы, длине локтевого сустава. Всего 19683 категории.
Для организации поиска информации, для ведения тезаурусов (словарей) эффективно используется дескрипторная (описательная) система классификации, язык которой приближается к естественному языку описания информационных объектов. Особенно широко она используется в библиотечной системе поиска.
Суть дескрипторного метода классификации заключается в следующем: отбирается совокупность ключевых слов или словосочетаний, описывающих определенную предметную область или совокупность однородных объектов. Причем среди ключевых слов могут находиться синонимы; выбранные ключевые слова и словосочетания подвергаются нормализации, т.е. из совокупности синонимов выбирается один или несколько наиболее употребимых; создается словарь дескрипторов, т.е. словарь ключевых слов и словосочетаний, отобранных в результате процедуры нормализации.
17. Система кодирования информации, классификация методов
Система кодирования применяется для замены названия объекта на условное обозначение (код) в целях обеспечения удобной и более эффективной обработки информации.
Система кодирования - совокупность правил кодового обозначения объектов.
Код строится на базе алфавита, состоящего из букв, цифр и других символов. Код характеризуется: длиной - числом позиций в коде; структурой - порядком расположения в коде символов, используемых для обозначения классификационного признака.
При кодировании могут ставится разные цели и соответственно применяться разные методы. Наиболее распространенные цели кодирования - это экономность, т.е. уменьшение избыточности сообщения; повышение скорости передачи или обработки; надежность, т.е. защита от случайных искажений; сохранность, т.е. защита от случайного доступа к информации; удобство физической реализации (например, двоичное кодирование информации в ЭВМ); удобство восприятия.
Процедура присвоения объекту кодового обозначения называется кодированием.
Можно выделить две группы методов, используемых в системе кодирования, которые образуют: классификационную систему кодирования, ориентированную на проведение предварительной классификации объектов либо на основе иерархической системы, либо на основе фасетной системы; регистрационную систему кодирования, не требующую предварительной классификации объектов.
Классификационное кодирование применяется после проведения классификации объектов. Различают последовательное и параллельное кодирование.
Последовательное кодирование используется для иерархической классификационной структуры. Суть метода заключается в следующем: сначала записывается код старшей группировки 1-го уровня, затем код группировки 2-го уровня, затем код группировки 3-го уровня и т.д. В результате получается кодовая комбинация, каждый разряд которой содержит информацию о специфике выделенной группы на каждом уровне иерархической структуры. Последовательная система кодирования обладает теми же достоинствами и недостатками, что и иерархическая система классификации.
Параллельное кодирование используется для фасетной системы классификации. Суть метода заключается в следующем: все фасеты кодируются независимо друг от друга; для значений каждого фасета выделяется определенное количество разрядов кода. Параллельная система кодирования обладает теми же достоинствами и недостатками, что и фасетная система классификации.
Регистрационное кодирование используется для однозначной идентификации объектов и не требует предварительной классификации объектов. Различают порядковую и серийно-порядковую систему.
Порядковая система кодирования предполагает последовательную нумерацию объектов числами натурального ряда. Этот порядок может быть случайным или определяться после предварительного упорядочения объектов, например по алфавиту. Этот метод применяется в том случае, когда количество объектов невелико, например кодирование названий факультетов университета, кодирование студентов в учебной группе.
Серийно-порядковая система кодирования предусматривает предварительное выделение групп объектов, которые составляют серию, а затем в каждой серии производится порядковая нумерация объектов. Каждая серия также будет иметь порядковую нумерацию. По своей сути серийно-порядковая система является смешанной: классифицирующей и идентифицирующей. Применяется тогда, когда количество групп невелико.
Классификация информации по разным признакам ...........
Страницы: [1] | 2 | 3 | 4 |
|