Начало Новости Технологии и ноу-хау Дайджест Проекты Новосибирский филиал Персоналии Публикации | ||
Начало Новости Технологии Дайджест Проекты Alex AURA InBASE InDOC INTEGRA.NM SemP-T ТАО Time-EX Unicalc Частотный словарь Экономика НC филиал Персоналии Публикации
|
Описание товаров Интернет-магазины и каталоги, помимо цен на товары, содержат обычно описания этих товаров. Описания, как правило, говорят по-разному об одном и том же - каждая категория товаров имеют свой набор свойств, значения этих свойств и являются предметом описаний. Стиль же описаний может быть любым. Рассмотрим описание цифрового фотоаппарата Olympus C2500. Описание в текстовом стиле: имеет формат носителей: SmartMedia 3.3v и CompactFlash, формат данных: изображения - JPEG(DCF), TIFF(без сжатия), разрешение 2,5 миллиона точек, отличный объектив с переменным фокусным расстоянием OLYMPUS 9.2 - 28 мм, F2.8 - F3.9, 7 элементов в 7 группах (эквивалентно объективу 36 - 110 мм 35 мм камеры). Также есть функция увеличения ( оптическое - до 3х, цифровое - до 2,5х),видоискатель( оптический зеркальный) и ЖК-дисплей ( 4,5 см цветной TFT-дисплей (HAST) с 122 тыс. точек ) и встроенная вспышка ( 4 режима работы) Описание того же товара в табличном полуструктурированном стиле:
Как видно из этих двух примеров (а они взяты из одного и того же электронного магазина), описание товара даже в табличном виде очень слабо структурировано. Часто характеристики товара заданы в список (описание карманного компьютера Jornada 568):
Представим, что мы создаем сервис поиска описаний товаров, их сравнения, верификации и занесения в базу данных. Результатом работы сервиса будут сильно нормализованные данные хорошего качества структурирования и наполнения, т.е. база данных. Рассмотрим применимость Alex'a для этой задачи. Описание товара, вне зависимости от стиля оформления (текст, таблица, список), понимается человеком в силу того, что
Рассмотрим, как будет устроен банк шаблонов, который бы применял те же принципы. Прежде всего, отразим тот факт, что свойства шаблонов контактируют с их значениями, либо сами значения говорят о том, какие свойства описывают:
По данному принципу введем подобный шаблон для каждого свойства товара, например:
где шаблон [Пиксел] определим так:
Голубым цветом выделена та часть шаблона, которая пойдет в значение свойства. Это позволяет Алексу нормализовывать и структурировать текстовую информацию. Выделенный шаблон [число] - это то, что нужно "выжать" из этого фрагмента текста, т.е. числовое значение разрешения фотоаппарата, с тем чтобы затем, например, занести это в некоторое поле БД. Шаблон [НазвРазрешение] (название свойства Разрешение) будет выглядеть так:
Аналогично делаем для остальных свойств. Теперь нам надо составить шаблон всего описания товара. Однако свойства могут располагаться в любом порядке, и перечислить все возможные перестановки не представляется возможным. В этом случае можно воспользоваться возможностью создания классов шаблонов. Шаблон в Alex'е может относиться к некоторому классу. Введем класс СВОЙСТВО, назначим этому классу все шаблоны, относящиеся к описанию свойств. Введем шаблон описания свойства товара, который бы учитывал возможный левый и правый произвольный опциональный контекст:
Наконец, введем шаблон списка свойств:
Знак = здесь обозначает возможное повторение шаблона СвойствоСКонтекстом произвольное количество раз. В результате все перечисленные выше способы задания свойств товаров (текст, список, таблица) будут обрабатываться одним и тем же банком шаблонов. |
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
© 2001 – 2005, РосНИИ ИИ. Все права защищены. | © 2001 – 2005, RRIAI. All rights reserved. | ||
© 2003 – 2008, ЗАО "ИнтеллиТек". Все права защищены. | © 2003 – 2008, IntelliTek, J.-S.C. All rights reserved. |