catodon: (default)
[personal profile] catodon
Продолжение серии постов об онтологиях.

Те факторы, которые проблематичны уже в межчеловеческом общении, создают намного более серьёзные барьеры при обмене информацией между техническими процессами. В большинстве случаев при создании программ разработчики выбирают самый простой путь: они встраивают интерпретацию получаемых программой данных в процесс их обработки. К примеру, сервис, занимающийся поиском авиабилетов, получив от сервера авиакомпании значение [max_free_luggage=20], интерпретирует его как "максимальный вес бесплатного багажа в килограммах". Пассажир, чей багаж весит 25 кг, такой билет не купит, потому что не видит, что сервис проигнорировал второй, неизвестный ему параметр [max_luggage_pieces=2], означавший, что вышеуказанный вес был определён для каждого из двух включённых в цену чемоданов. Хуже, если пассажир купит билет, упакует 18-килограммовый чемодан и уже в аэропорту узнает, что максимальный вес был указан действительно за все чемоданы, но в фунтах. И если вы полагаете, что доплата за лишние 9 кг в этом случае - это мелочь, то подумайте о космическом аппарате NASA "Mars Climate Orbiter" стоимостью 125 миллионов долларов (это не считая стоимости исследовательских работ), который сгорел в марсианской атмосфере именно из-за того, что с Земли ему передали данные в британских единицах вместо метрических.

Безусловно, можно (и нужно) писать подробные спецификации к каждому интерфейсу, убеждаться, что разработчики читали эти спецификации (это уже намного сложнее) и тестировать программы перед использованием. К сожалению, это классическое решение не даёт 100% гарантии успеха даже для компактных и локальных систем. Если же мы имеем дело с распределённой системой, взаимодействующей с постоянно меняющимся количеством компонент, разрабытываемых совершенно разными людьми, то степень сложности резко возрастает. Одно из возможных решний заключается в использовании всеми компонентами общей структурированной контекстной информации. Особенно важно использование контекста в области ИИ, а также в двух относительно новых (касательно проектов и применения, а не первых публикаций) и активно развивающихся областях:

  • Автоматический обмен разнородной информацией разнородными распределенными устройствами. Мы говорим не только о изъезженном (и IMHO утопическом) примере холодильника, самостоятельно дозаказывающем продукты по Интернету. На практике это интересно для систем сенсоров и транспондеров в системах удаленного контроля и безопасности, в логистике и сложных конвейерных системах. В литературе всё это часто публикуется под общим термином "Internet of Things".

  • Анализ и автоматизированное использование информации, публикуемой в WWW. Речь идёт как об интеграции разнородных информационных систем, так и об улучшенном поиске. Хотя современные поисковые машины дают хорошие результаты, интерпретация сложных структурированных вопросов и предоставление конкретных ответов (вместо сноски на страницу с похожим текстом) для них, в большинстве случаев, недоступны. В качестве простого примера предлагаю попробовать одним запросом найти фамилию зятя девятого президента США. Для подобных разработок и методик используется общий термин "Semantic Web".
Неплохое представление об интересах, возможностях и областях применения онтологического описания контекстных данных дают разрабатывавшиеся за последние годы крупные проекты. Я представлю здесь небольшую подборку с кратким описанием каждого. Подробная информация есть в Википедии (желательно смотреть англоязычный вариант) и на страницах самих проектов.

Проект DBPedia посвящен автоматическому экспорту информации из Википедии и предоставлении её в структурированной форме для автоматической обработки программами. Это позволяет использовать Википедию в качестве контекстной базы данных, содержащей самую разную инрформацию обо всём подряд и поддерживающей сложные запросы. Несмотря на то, что информация не будет абсолютно точной, возможности её использования очень широки. Вспомним хотя бы программу, игравшую в Jeopardy, о которой я уже писал в одном из предыдущих постов.

Стандарт Friend of a Friend (FOAF) позволяет описать взаимоотношения между людьми и предназначен для моделирования социальных сетей (и обработки информации из них), включая группы, интересы и т. д. Например, есть специальная поисковая машина. Стандарт не получил широкого распространения, из чего можно заключить, что NSA не участвовало в его разработке ;-) Используется также и вне сети (социология и т. п.) а также (благодаря наглядности) для формулировки примеров во многих публикациях. Между прочим, как раз LiveJournal и является крупнейшей платформой, поддерживающей FOAF.

А вот тематика проекта BioPortal намного серьёзней: это большая база, в которой собраны в структурированной форме данные из области биологии (не только человека) и медицины. Там есть данные из исследований генома, из фармакологии, анатомии, данные по симптоматике и диагностике и многое, многое другое. С главной страницы проекта, а также со страницы в Википедии есть сноски на разные поисковые машины, с помощью которых можно покопаться в этих данных. Вот только ипохондрикам туда соваться очень не советую ;-)

Ну и напоследок представлю проект-монстр Linked Open Data (LOD). Монструозность его заключается в том, что он ставит своей целью связать в одну базу все онтологии, находящиеся в публичном доступе. Вообще все. Да-да и FOAF и вышеописанные Open Biomedical Ontologies и DBPedia и многое другое уже там. Примерное представление об этой супер-базе дает графика из Википедии, в кооторой каждая база обозначена кружком, чей цвет соответствует какой-то области знаний:


Визуализация структуры LOD на момент сентября 2011 года (клик на картинку откроет её в полную величину).

Для храниния распределенных разнородных данных и поддержки запросов к ним подобного рода нужны специальные технологии (обычная реляционная база данных для этого подходит плохо). Онтологические даные хранят в так называемых "базах знаний", которые в той или иной форме фигурируют в исследовательских работах и прикладных проектах еще с 70-х годов. Современные формы появились с идеей использования онтологий именно в Интернете. О них я напишу в следующей части.
This account has disabled anonymous posting.
If you don't have an account you can create one now.
HTML doesn't work in the subject.
More info about formatting

Profile

catodon: (Default)
catodon

January 2025

S M T W T F S
   1234
5 67891011
12131415161718
19202122232425
262728293031 

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated May. 29th, 2025 07:31 pm
Powered by Dreamwidth Studios