Распознавание образов относится к одной из важнейших задач искусственного интеллекта. Она связана со множеством различных областей исследований. При построении собственной
системы технического зрения «с нуля» исследователю приходится применять основы обработки изображений, выбирать методику детектирования и распознавания объектов, программно реализовывать получение сырых данных и метод распознавания. Как правило, далее идет этап тестирования, на котором приходится проводить статистический анализ и дорабатывать методы, чтобы получить хорошие результаты.
В данном материале я постараюсь систематизировать области знаний, связанных с распознаванием образов, для того, чтобы имелась картина того, с каких вещей следует начинать и «куда обращаться».
Для начала несколько определений.
Распознавание образа — это отнесение объекта или события к одному или нескольким предопределенным категориям.
Образ — это объект, процесс или событие, которому можно присвоить имя.
Примеры образов:
1. Отпечаток пальца
2. Напечатанное слово
3. Лицо человека
4. Речевой сигнал
и т.д…
Класс образов (или категория) — это набор образов, имеющих общие свойства, обычно произошедших от одного источника.
Во время распознавания (или
классификации) предлагаемые объекты распределяются по предопределенным классам.
Вот далеко неполный список, для чего может применяться распознавание образов:
- Распознавание символов/цифр, как печатных, так и рукописных
- Распознавание речи
- Компьютерная диагностика в медицине
- Классификация документов по содержанию
- Системы безопасности и учета (распознавание лиц, отпечатков пальцев)
- Распознавание изображений со спутника, применение в военном деле
- Распознавание штрих-кодов
- Распознавание автомобильных номеров и номеров вагонов, контейнеров
- Распознавание запахов
- Обнаружение дефектов
- Интерпретация последовательностей ДНК
- и т.д…
Применение в робототехнике
К распознаванию образов в робототехнике относятся различные задачи, такие как распознавание целей и объектов, навигация, захват и манипуляции, взаимодействие человека и машины. Удешевление камер, происходившее в последние годы, делает их наилучшим выбором в качестве сенсора для робототехники и автоматизации.
Общая схема взаимосвязей различных областей знаний
Теперь пройдемся по схеме.
Цель
компьютерного зрения – разработка методов, которые позволят машине «понимать» или анализировать изображения и видео. Самый важный момент при разработке модуля технического зрения — методы, которые используются в нем. Если мы говорим о
распознавании визуальных образов, то это одна из важнейших задач компьютерного зрения.
Машинное зрение представляет собой промышленное применение компьютерного зрения (и конкретные реализации).
Обработка изображений дает исследователю набор методов для конвертирования изображения в цифровую форму и выполнения различных операций над ним для извлечения дополнительной информации.
Обработка сигналов применяется для предварительных преобразований получаемых входных данных.
Робототехника и теория управления интересуют нас с точки зрения связки с модулями распознавания. Эта тема является одной из центральных в курсе.
Если кратко, то
машинное обучение — наука о том, как сделать компьютеры способными действовать без необходимости явного программирования их действий. Попросту говоря, как научить машину обучаться (и в идеале, самообучаться).
Искусственный интеллект (AI) — это область компьютерных наук, которая придает особое значение созданию интеллектуальных машин, которые работают и реагируют как люди.
Нейронаука — это целый комплекс наук, изучающих устройство, функционирование, развитие нервной системы. Сюда входят нейроинформатика, вычислительная нейронаука, нейроинженерия, когнитивная нейробиология, нейровизуализация, нейропсихология и др.
При изучении работ по AI и нейронаукам часто могут понадобиться знания в областях
антропологии,
психологии и
лингвистики.
При изучении методов обработки изображений могут понадобиться знание
математических методов,
формирования изображений и
оптики.
Что почитать:
- Форсайт Д., Понс. Д. Компьютерное зрение. Современный подход. М.: «Вильямс», 2004. 928 с.
- Гонсалес Р., Вудс Р. Цифровая обработка изображений. М.: Техносфера, 2005. 1072 с.
- Chen C.H., Rau L.F., Wang P.S.P. Handbook of pattern recognition and
computer vision. Singapore-New Jersey-London-Hong Kong: World Sci-
entific Publishing Co. Pte. Ltd., 1995. 984 p.
- Лепский А.Е., Броневич А.Г. Математические методы распознавания образов: Курс лекций. Таганрог: изд-во ТТИ ЮФУ, 2009. 155с.
- Грегори Р. Разумный глаз. М.: Едиториал УРСС, 2003. 240 с.
- Солсо Р. Когнитивная психология. СПб.: Питер, 2006. 589 с.
- Youguo Pi. Theory of Cognitive Pattern Recognition // http://cdn.intechopen.com/pdfs/5795/InTech-Theory_of_cognitive_pattern_recognition.pdf
- Arbib M. The handbook of brain theory and neural networks. London: MIT Press, 2003. 1309 p.
- Хоккинс Д. Об интеллекте. М.: Издательский дом «Вильямс«, 2007, 240 с.