0

База данных поисковой системы

Функциональное устройство вербальных ИПС

Архитектура вербальных поисковых систем

Основным инструментом поиска в Интернет следует считать вербальные поисковые системы. Как и у локальных ИПС, это тип систем посткоординатного типа, который "противостоит" предкоординируемым ИПС – классификационным (тематическим каталогам). В английской литературе за ними закрепился термин "search engine". По-русски мы предлагаем называть их "поисковые системы".

Веб-сайты – это все информационные ресурсы Интернет, точнее, те, просмотр которых обеспечивается программой-роботом.

Робот – система, обеспечивающая просмотр (сканирование) Интернет и поддержание инвертированного файла (индексной базы данных) в актуальном состоянии. Этот программный комплекс является основным источником информации о состоянии инфор­мационных ресурсов сети.

Поисковая база данных – так называемый индекс – специальным образом организованная база (англ. index database), включающая прежде всего инвертированный файл, который состоит из лексических единиц проиндексированных веб-документов и содержит другую разнообразную информацию о лексемах (в частности, их позиция в документах), документах и сайтах в целом.

Клиент – это программа просмотра информационных ресурсов в веб-сервисе, по-другому, веб-клиент. (Наиболее популярны сегодня мультипротокольные программы Internet Explorer и Netscape Navigator). Эта же программа обеспе­чивает просмотр документов различных сервисов и общение с поисковой системой.

Пользователь – 1) поисковые предписания, которые вводятся через пользовательский поисковый интерфейс; в некоторых системах сохра­няются в личной базе данных пользователя внутри поисковой системы;

2) результаты поиска

Пользовательские (поисковые) интерфейсы – экранные формы общения пользователя с поисковым аппаратом: системой формирования за­просов и просмотров результатов поиска.

Поисковая система – подсистема поиска, обеспечивающая обработку поискового предписания пользователя, поиск в поисковой базе данных и выдачу результатов поиска пользователю.

Роботы-индексаторы

"Робот" (robot, а также spider – "паук", crawler – "пловец", worm – "червяк") – подсистема (программа или набор программ), которая систематически исследует Интернет, обходит веб-сайты, находит документы, прочитывает их и, следуя ссылкам, указанным в документе, находит другие страницы данного сайта или другие сайты. Структура веб-пространства аналогична структуре ориентированного графа, поэтому здесь применимы алгоритмы обхода графа.

Существуют три метода такого обхода:

а) случайный выбор первого URL-адреса программой-роботом для инициализации поиска. Программа индексирует начальный документ, выделяет URL – адреса, указывающие на другие документы, а затем рекурсивно анализирует эти URL для поиска "преимущественно в ширину" или "преимущественно в глубину";

б) поиск начинается с набора URL-адресов, определяемых на основе популярности веб-узлов, а затем продолжается рекурсивно. Интуитивно понятно, что титульная страница популярного узла содержит URL-адреса, соответствующие наиболее часто запрашиваемой информации на данном и других веб-узлах;

в) веб-пространство делится на определенные части, например, на основе системы имен Интернет или кодов стран, и для полного исследования этих разделов выделяется отдельная программа-робот или несколько. (Такой метод используется чаще, чем первые два.)

Обработка документов в принципе подобна процедуре инвертирования файла с элементами автоматического индексирования. Последнего может и не быть, но все равно эта процедура и называется индексированием, даже если она ограничивается со­ставлением инвертированного файла, в котором каждому термину индексирования ставится в соответствие список документов, в которых он встречается. Такая процедура является только частным случаем, а точнее, тех­ническим аспектом создания поискового аппа­рата ИПС. Проблема, связанная с индексиро­ванием, заключается в том, что приписывание поискового образа документу или информаци­онному ресурсу опирается на представление о словаре (контролируемом или свободном), из которого эти термины выбирают­ся. Контролируемый словарь предполагал веде­ние лексической базы данных, до­бавление терминов в которую производилось бы администратором системы, и все новые доку­менты могли быть заиндексированы только те­ми дескрипторами, которые были в этой базе дан­ных. Естественно, в Интернет эта технология невозможна. Свободный словарь или пополняется автома­тически по мере появления новых терминов, или вообще является виртуальным, то есть, воображаемым, когда все термины инверсного файла (в идеале, все разные слова всех заиндексированных документов) считаются лексическими единицами ИПЯ (нередко инверсный файл так и называют словарем).

Разработка роботов – это довольно нетривиальная задача; существует опасность зацикливания робота. Остро стоит вопрос о быстродействии роботов.

Заказать и ускорить индексацию своего веб-сайта в поисковых системах роботами-индексаторами можно через ссылки типа Add URL или Submit your URL на сайте поисковой системы. Индексирование можно проводить и с помощью специальных бесплатных серверов-регистраторов. Существует проблема, как обеспечить повторное индексирование меняющихся ресурсов. В последнее время все большее распространение получает приоритетное индексирование за определенную плату.

Главная содержательная проблема при индексировании заключается в том, какие термины приписывать документам, откуда их брать. При этом следует учесть, что часть ресурсов вообще не является текстом, текстовые же ресурсы могут представлять собой целые книги. Роботы разных систем решают этот вопрос по-разному. Не следует думать, что все термины из документов попадают в их поисковые образы. Очень активно применя­ются списки запрещенных слов (stop-words), ко­торые не попадают в индекс – это общие, служебные слова (предлоги, союзы и т.п.) и незначимые слова. Многие системы индексируют лишь часть документа (обычно начальную), есть роботы, которые обрабатывают только часть веб-страниц с одного и того же сайта. И тем не менее, объем поисковых индексов глобальных ИПС уже сегодня измеряется терабайтами.

Обычно при индексировании обязательно используются различные "значимые" элементы гипертекстовой разметки: ссылки, заголовки, заглавия, аннотации, списки ключевых слов, и т.п. Для индексирования ресурсов telnet, gopher, ftp, а также нетекстовой информации используются главным образом URL, названия файлов, для новостей Usenet и почтовых списков рассылки – поля Subject и Keywords.

Знание того, как работают роботы, каковы их технические характеристики, полезно и для создателей веб-документов, и для составителей запросов при проведении поисков. Сведения о большом количестве роботов (более 200) можно почерпнуть из базы данных The Web Robots Database.

Поисковая база данных и поисковая система

После того как ресурсы выявлены, начинается построение поисковой базы данных – индекса. Ин­дексный файл (или просто индекс) представляет собой набор связанных между собой файлов, ориен­тированных на быстрый поиск данных по запросу. Структура и состав индексов различных систем могут отличаться друг от друга и зави­сят от многих факторов: алгоритм работы робота, размер массива поис­ковых образов, информационно-поисковый язык, критерий смыслового соответствия, размещение различных компонентов си­стемы и т.п. В основе индекса всегда лежит инвертированный файл. Инвер­тированный файл ставит в соответствие каж­дому ключевому слову документа список, содержащий идентификатор веб-страницы, содержащей это слово, позицию слова в документе в тех или иных терминах (например, идентификатор поля, номер предложения, номер слова). Указание положения слова в тексте с точностью до номера предложения и номера этого слова в предложении позволяет построить гибкий язык запросов, позволяющий задавать расстояние между словами и предложениями в документе. Позиционные характеристики также используются при вычислении коэффициента релевантности и ранжировании документов в выдаче.

Третьим основным компонентом вербальной ИПС является поисковая система, которая при получении запроса пользователя просматривает индекс с учетом формулы запроса и других параметров, оценивает релевантность документов и возвращает пользователю ранжированный список документов.

Поиск в индексе – это операции над списками идентификаторов страниц в соответствии с моделью поиска и критерием соответствия. Например, при булевской модели это объединение (для операции дизъюнкция), пересечение (для конъюнкции) или дополнение (для отрицания). В ИПС в сети Интернет нередко используются гибридные модели, чаще всего являющиеся комбинацией логической и векторной моделей поиска.

Результирующий список релевантных документов (в современной терминологии «отклик»), который преобразуется в ранжированный список заголовков (кратких описаний документов), снабженных гипертекстовыми ссылками и другими характеристиками (данные о дате создания документа, его объеме, кодировке, сведений о сайте и пр.), возвращается пользователю в его клиентскую программу-браузер (см. рис.4.3). Щелчок по ссылке к одному из документов запрашивает этот документ либо непосредственно с того сервера, на котором он находится, либо через базу данных поисковой системы.

Читайте также:  Историческая стратегия в реальном времени

Важным фактором и характеристикой вербальных ИПС являются так называемые интерфейсные веб-страницы, т.е. экранные формы, через которые пользователь задает запрос (поисковое предписание) и через которые он получает результаты. Различают два основных типа интерфейсных страниц: страницы запросов и страницы результатов поиска.

Эффективность поиска в каждой конкретной ИПС определяется исключительно архитектурой индекса и моделью поиска. Как правило, эти характеристики систем являются секретом фирмы.

Предлагаем Вашему вниманию новые поисковые системы и базы данных, доступ к которым предоставляется в ВПТБ.

Работа с поисковыми системами и базами данных предоставляется в компьютерном зале ВПТБ ФИПС (4-й этаж).

Справки по телефонам: +7 (495) 531-66-46; +7 (499) 240-41-97.

Адрес для переписки: Бережковская наб., 24, Москва, Г-59, ГСП-3, 125993.

Поисковая система PatSearch

Система PatSearch создана как профессиональная система поиска для экспертов ФГБУ ФИПС Роспатента. В связи с этим в системе реализован расширенный набор функциональных и сервисных возможностей. Система позволяет осуществлять поиск охранных документов на изобретения и полезные модели стран минимума РСТ, стран СНГ, ВОИС, ЕПВ, ARIPO, OAPI.

Поиск непатентной литературы реализован через встроенное обращение к внешней российской цифровой библиотеке E-Library и крупнейшей в мире базе данных научно-технической литературы Scopus. В системе PatSearch поддерживается поиск непатентной литературы во внешних источниках, в том числе поиск генетических последовательностей на сайте Европейского института биоинформатики (European Bioinformatics Institute).

Система позволяет проводить различные виды патентного поиска:

тематический поиск по индексам Международной патентной классификации (МПК), Европейской патентной классификации (ECLA), национальным классификациям, ключевым словам из рефератов и полных описаний;

нумерационный поиск, в т.ч. поиск патентов-аналогов и др.

Дополнительными функциональными возможностями поисковой системы являются:

редактирование поисковых запросов в различных режимах;

настройка параметров поиска;

поиск в выбранном массиве документов;

автоматический перевод на русский язык и др. языки (включая перевод выделенного фрагмента документа или документа целиком, отдельный режим перевода текста запроса);

двухоконный просмотр документов;

аналитическая обработка результатов поиска и др.

Дополнительную информацию о PatSearch можно найти на сайте Роспатента:
Отчет о деятельности Роспатента за 2011 год.

База данных Questel – Orbit

Компания Questel создана в 1975 г. как подразделение France Telecom и свыше 30 лет является международным информационным лидером. Она предоставляет доступ к базам данных, содержащим информацию об интеллектуальной собственности.

На сегодняшний день это лучшая информационная служба в мире, гарантирующая максимальную полноту и надежность исследований патентной документации. Глубина доступного архива с 1880 г.

Патентные базы данных компании Questel:

крупнейший в мире патентный фонд, содержащий свыше 60 миллионов документов 95 стран и Международных Патентных ведомств;

оригиналы патентных документов практически всех стран;

документы на промышленные образцы, полезные модели и товарные знаки;

рефераты на английском языке патентных документов наиболее патентуемых стран;

полные тексты патентных документов США, Франции, Германии, Великобритании, Бельгии, Швейцарии, Австрии, Китая, Японии, Индии, России и др., а также заявки и патенты Международного и Европейского патентных ведомств;

максимально полная информация о родственных патентах (patent family = патенты аналоги), включая их юридический статус;

возможность автоматического перевода найденных документов на любой из 30 языков мира, включая русский, английский, французский, немецкий, австрийский, испанский, итальянский, арабский, японский, китайский, индийский и др.

Для поиска информации в базах данных Questel служит поисковая система Orbit. Поисковая система позволяет выполнять семантический анализ патентных документов: суть и формулу изобретения, преимущества данного патента и слабые стороны предыдущих. Статистический анализ позволяет проводить анализ патентной активности компаний по годам и классификационным рубрикам, выявлять стратегические рынки компаний и партнеров по совместным разработкам.

Дополнительную информацию по базе данных можно найти на сайте Questel по адресу: www.orbit.com.

База данных Global Patent Index (GPI)

БД GPI является онлайновым продуктом Европейского патентного ведомства (ЕПВ), который с 2010 г. заменяет серию дисков CD-ROM (ESPASE ACCESS, ESPASE FIRST, ESPASE ACCESS-EPC, ESPASE WORLD) и предлагает множество дополнительных возможностей для проведения поиска.

Программное обеспечение БД – MIMOSA, базирующееся на оперативной системе MS Windows, обновление данных – еженедельное.

БД была разработана как средство проведения поиска по новизне во всем мире, а также для наблюдения за патентами. БД позволяет осуществлять поиск во всем мировом массиве накопленных в ЕПВ библиографических данных (87 стран, 5 международных организаций) и предоставляет ссылку к полному тексту соответствующего документа в поисковой системе ESPASENET.

БД содержит 100 доступных для поиска полей и позволяет проводить многоаспектный патентный поиск, включающий:

тематический поиск по индексам Международной патентной классификации (МПК), Европейской патентной классификации (ECLA), национальным классификациям и ключевым словам из заглавий и рефератов;

поиск указаний государств в патентных заявках РСТ и ЕПВ;

выявление ссылок на патентные и непатентные документы.

Дополнительную информацию о GPI можно найти на сайте ЕПВ по адресу: www.epo.org/gpi.

Руководства для пользователей GPI:

  • User manual [Electronic Resource]
  • User manual v1.5 – addendum 1 [Electronic Resource]

Евразийская патентная информационная система (ЕАПАТИС)

Система ЕАПАТИС разработана Евразийским патентным ведомством (ЕАПВ) с целью повышения эффективности и качества проведения патентных поисков и патентно-информационного обеспечения экспертизы заявок на изобретения. С 2000 г. система находится в промышленной эксплуатации в ЕАПВ. В 2003г. к ней открыт доступ через Интернет для национальных патентных ведомств стран-членов Евразийской патентной организации (ЕАПО). В 2004-2005 гг. доступ к системе был предоставлен национальным патентным ведомствам Украины, Узбекистана и Грузии.

В ЕАПАТИС поддерживается более 20 постоянно пополняемых локальных патентных баз данных (БД), в которых на конец 2015 г. содержалось более 60 млн. описаний патентных документов. Объем предоставляемой пользователям патентной информации (с учетом полных описаний патентных документов по отдельным БД) составляет свыше 2 терабайт. В БД представлены все патентные документы ЕАПВ, ВОИС, Европейского патентного ведомства, патентного ведомства США, СССР и России (с 1924 г.), патентные документы стран, входящих в "минимум документации РСТ" разной глубины ретроспективы, а также патентные документы национальных патентных ведомств стран СНГ, включая страны-члены ЕАПО.

В системе можно проводить любые тематические, нумерационные и именные поиски.В системе реализованы средства метапоиска во внешних патентных БД цифровых библиотек интеллектуальной собственности (IPDL) и информационных системах свободного доступа сети Интернет: USPTO, ESPACENET, PatentScope и др.

В результате проведения поиска формируются списки найденных патентных документов и предоставляются их реферативно-библиографические описания, с дальнейшей возможностью получения полного описания документа и дополнительной информации о нем из внешних источников.

наличие в системе русскоязычного фонда патентной документации, включая советскую, российскую, евразийскую и национальную документацию;

удобство и легкость в эксплуатации, реализованный в системе принцип "одного окна" позволяет пользователю проводить многоаспектные патентные поиски на нескольких официальных языках одновременно как в локальных БД, так и во внешних БД свободного доступа сети Интернет;

развитые сервисные возможности системы. Например, по каждому запросу отображаются статистические данные о результатах поиска, в том числе по каждому поисковому индексу в отдельности. Структуру составленного запроса можно посмотреть перед отправкой на сервер. Программы анализатора запросов предоставляют рекомендации по дальнейшим действиям в случае получения нулевых результатов поиска. Для каждого найденного документа автоматически формируются гиперссылки во внешние БД, обеспечивающие возможность получения описания документа и дополнительной информации о нем из внешних источников. Использование патентного браузера и средств метапоиска исключают необходимость знания поисковых систем для работы с дисками CD/DVD и внешними БД сети Интернет.

Условия доступа к системе ЕАПАТИС:

В свободном доступе можно проводить все виды поисков (расширенный, нумерационный, профессиональный) в БД ЕАПВ и поиски по номеру документа в других БД. Результаты поиска представляются в виде реферативно-библиографических описаний патентных документов. Предоставляются сервисы виртуального доступа к полным описаниям документов из внешних источников, поиска в БД МПК.

Читайте также:  Быстро теряю интерес ко всему

Платный доступ открыт ко всем БД системы в режимах расширенного, нумерационного и профессионального поиска, а также метапоиска. Предоставляются титульные листы и полные описания евразийских патентов и опубликованных евразийских заявок. Доступны сервисы виртуального доступа к полным описаниям документов из внешних источников, тематического поиска в БД ЕАПАТИС с использованием БД МПК, поиска в БД МПК.

Более подробную информацию о поисковой системе ЕАПАТИС, а также условия доступа к системе можно получить на сайте ЕАПВ: http://www.eapatis.com/.

Поисковая система Web of Science

Web of Science – поисковая платформа, объединяющая реферативные базы данных публикаций в научных журналах, в том числе базы, учитывающие взаимное цитирование публикаций, разрабатываемая и предоставляемая компанией Clarivate Analytics. Web of Science охватывает материалы по естественным, техническим, общественным, гуманитарным наукам и искусству. Платформа обладает встроенными возможностями поиска, анализа и управления библиографической информацией.

Базы данных Web of Science включают информацию о публикациях из более чем 18 тысяч журналов, издаваемых во всём мире. Базы данных не содержат полных текстов статей, однако включают в себя списки всех библиографических ссылок, встречающихся в каждой публикации, что позволяет в краткие сроки получить самую полную библиографию по интересующей теме.

Базы данных Web of Science:

Web of Science Core Collection (1975-по настоящее время) Доступ к лучшей в мире научной литературе по общественным наукам, искусству, гуманитарным наукам и материалам исследований с международных конференций, симпозиумов, семинаров, коллоквиумов, практикумов и съездов.

KCI-Korean Journal Database (1980-по настоящее время) Доступ к статьям политематических журналов, находящихся в базе данных. KCI работает под управлением организации National Research Foundation of Korea и содержит библиографическую информацию по научной литературе, опубликованной в Корее.

MEDLINE (1950-по настоящее время) The U.S. National Library of Medicine (NLM) – главная база данных по биологическим наукам. Изучение информации в области биомедицины и биологических наук, биоинженерии, здравоохранения, медицинского наблюдения и науки о растениях и животных.

SciELO Citation Index (1997-по настоящее время) Доступ к научной литературе по общественным, гуманитарным наукам и искусству, которая была опубликована в лучших журналах, находящихся в открытом доступе, в Латинской Америке, Португалии, Испании и Южной Африке.

С помощью разнообразных аналитических инструментов Web of Science пользователь может произвести наукометрический анализ по интересующей его тематике.

Электронная библиотека диссертаций РГБ (ЭБД РГБ)

Российская государственная библиотека (РГБ) является уникальным хранилищем подлинников диссертаций, защищенных в стране с 1944 г. по всем специальностям, кроме медицины и фармации. Сейчас в фонде Отдела диссертаций (г. Химки) хранятся свыше миллиона томов диссертаций. Ежегодно в РГБ поступает около 30 000 диссертаций (20 000 кандидатских и 10 000 докторских).

В 2003 г. руководством Российской государственной библиотеки было принято решение о необходимости обеспечения широкой доступности и сохранности фонда диссертаций на основе современных информационных технологий, что привело к созданию Электронной библиотеки диссертаций РГБ.

Создание Электронной библиотеки диссертаций РГБ было обусловлено следующими факторами:

необходимость обеспечения сохранности этой уникальной коллекции и ее доступности для читателей;

большая популярность электронного каталога диссертаций у читателей;

высокая посещаемость читального зала в Отделе диссертаций (г. Химки).

Сегодня Российская государственная библиотека предоставляет возможность доступа к полным текстам диссертаций и авторефератов, находящимся в электронной форме, что дает уникальную возможность многим читателям получить интересующую информацию, не покидая своего города. Для доступа к ресурсам ЭБД РГБ создаются Виртуальные читальные залы в библиотеках организаций, в которых и происходит просмотр электронных диссертаций и авторефератов пользователями. Каталог Электронной библиотеки диссертаций РГБ находится в свободном доступе для любого пользователя сети Интернет.

Электронная библиотека диссертаций РГБ – это уникальный шанс для тысяч ученых по-новому реализовать возможности свои и коллектива, снизить стоимость научных исследований, сформировать свои научные взгляды с учетом знаний, наработанных десятилетиями.

Дополнительную информацию о ЭБД РГБ можно найти по адресу: http://diss.rsl.ru.

Национальная электронная библиотека (НЭБ)

Национальная электронная библиотека (НЭБ) – Федеральная государственная информационная система, обеспечивающая создание единого российского электронного пространства знаний.

Национальная электронная библиотека объединяет фонды публичных библиотек России федерального, регионального, муниципального уровней, библиотек научных и образовательных учреждений, а также правообладателей.

В формировании фонда НЭБ используются:

произведения, перешедшие в общественное достояние;

произведения образовательного и научного значения, не переиздававшиеся последние 10 лет;

произведения, права на которые получены в рамках договоров с правообладателями;

а также другие произведения, правомерно переведенные в цифровую форму.

Основная цель НЭБ – обеспечить свободный доступ граждан Российской Федерации ко всем изданным, издаваемым и хранящимся в фондах российских библиотек изданиям и научным работам, – от книжных памятников истории и культуры, до новейших авторских произведений.

Так же целями НЭБ являются:

формирование единого российского электронного пространства знаний на основе оцифрованных книжных, архивных и музейных фондов;

расширение доступности для граждан отобранных в соответствии с утвержденными методиками произведений научного и образовательного содержания, включая лучшие образцы классической и современной художественной литературы, детской литературы, произведений, созданных на языках народов России.

Начиная с 2004 г. проект НЭБ разрабатывается ведущими российскими библиотеками при поддержке Министерства культуры Российской Федерации.

В 2014 г. был реализован новый этап развития НЭБ: организован доступ для читателей к более чем 90% книг, оцифрованных публичными библиотеками; объединены каталоги печатных изданий 33 библиотек.

В 2015 г. участниками НЭБ стали еще 55 библиотек. Был организован доступ из виртуальных читальных залов библиотек к изданиям, охраняемым авторским правом. В фонд НЭБ были добавлены материалы, полученные из пяти музеев и Государственного архива Российской Федерации (ГАРФ). Проведена разметка более 2000 изданий на 200 тыс. произведений и их составных частей. Осуществлена интеграция НЭБ с каталогом ЭКБСОН, электронным каталогом РГБ, с сайтом «Год литературы».

Сегодня НЭБ – это:

объединенный электронный каталог фондов российских библиотек;

ежедневно пополняемый фонд оцифрованных изданий;

централизованный удаленный доступ через единый портал к фонду НЭБ, единые технологии поиска и единый набор сервисов для читателей всех категорий;

интеграция с социальными сетями;

мобильные приложения для доступа из любой точки и с любого устройства;

личный кабинет и единый электронный читательский билет, открывающий доступ ко всем фондам российских библиотек;

широкий набор сервисов для библиотек и правообладателей.

Уже сегодня пользователи НЭБ могут:

найти интересующее печатное издание в ближайшей библиотеке;

найти электронную копию издания в НЭБ для удаленной работы из читального зала ближайшей библиотеки или из дома;

просматривать на законных основаниях оцифрованные издания, ограниченные авторским правом из читального зала ближайшей библиотеки, подключенной к НЭБ.

В октябре 2015 г. во Всероссийской патентно-технической библиотеке (ВПТБ) был организован доступ для читателей в НЭБ.

В мае 2016 г. ВПТБ стала не только пользователем НЭБ, но и полноправным участником этого проекта, передав в НЭБ книжные издания в области интеллектуальной собственности, с истекшим сроком действия авторских прав.

В мае 2017 г. в Национальную электронную библиотеку включена отечественная патентная документация из Государственного патентного фонда. Коллекция содержит полные описания изобретений к авторским свидетельствам и патентам СССР, заявкам и патентам на изобретения и полезные модели Российской Федерации. Всего в НЭБ включено 2,3 млн. патентных документов за период с 1924 г. по 2016 г. Новый ресурс позволяет проводить поиск по фамилии автора, наименованию заявителя / патентообладателя, названию и полному тексту документа.

Включение патентных документов в НЭБ открывает новый канал доступа к патентной информации широкому кругу пользователей не только для проведения патентного поиска, но и в научных и образовательных целях.

Дополнительную информацию о НЭБ можно найти по адресу: http://нэб.рф/.

Новое! База данных издательства Kluwer Law International

Уважаемые пользователи патентной информации! Представляем Вашему вниманию БД издательства Kluwer Law International KluwerIPLaw, доступ к которой организован в Отделении ВПТБ ФИПС.

БД KluwerIPLaw – это информационный ресурс в области интеллектуальной собственности (ИС) и поисковый сервер.

Читайте также:  Высота телевизора от пола в спальне

БД разработана для специалистов в области права ИС. Состоит из нескольких модулей: Manual IP(Руководство по ИС), Copyright Law (Законодательство по авторскому праву), Design Protection (Охрана промышленных образцов), Patent Litigation (Патентное судопроизводство), Software Patent Worldwide(Патенты на программное обеспечение во всем мире) и другие.

БД KluwerIPLaw предлагает с помощью различных модулей осуществлять авторитетный анализ по различным аспектам прав ИС.

Через KluwerIPLaw возможен доступ к информации о законодательстве, системе правовой охраны объектов промышленной собственности, включая процедуру подачи заявок, экспертизы, регистрации и поддержания в силе. Приводятся ссылки на национальное, региональное и международное законодательство, инструкции. Представлена информация по судебным делам, особенностям судопроизводства. Предоставляется доступ к актуальным и интересным публикациям по правовой охране ИС, последним новостям и многое другое.

CВОДНЫЙ ОТЧЕТ ПО ПРОЕКТУ № В0022

"Центр коллективного пользования для тестирования, нормативной и методической поддержки суперкомпьютерных вычислений в области открытых систем"

1.4 База данных и поисковая система

Количество информации по проблеме ИВРНО в сети Интернет экспоненциально нарастает. Существуют как англоязычные так и русскоязычные профессиональные Интернет-сайты, посвященные тем или иным аспектам высокопроизводительных вычислений. Вместе с тем само это обилие информации часто приводит к затруднениям при необходимости найти в сети Интернет информационный ресурс, посвященный той или иной проблеме, актуальной в данный момент для пользователя. Эти факторы приводят к необходимости создания как базы данных по проблеме ИВРНО, так и автоматизированной поисковой системы.

1.4.1. Поисковая система

Универсальные поисковые Интернет-сайты в данной ситуации не дают адекватного решения именно в силу своей универсальности. Число ресурсов, выдаваемых универсальными контекстными поисковыми машинами в ответ на простой запрос, часто слишком велико для рационального использования, эти ресурсы, как правило, не структурированы. Эффективным решением в этой ситуации может быть создание специализированного проблемно-ориентированного поискового каталога, в сочетании с системой атрибутно-контекстной навигации и каталогизации информационных ресурсов. Кроме того, большое значение, которое придается проблеме ИВРНО в рамках ФЦП "Интеграция" делает актуальным создание Интернет-портала методической поддержки работ в области высокопроизводительных вычислений с анонсированием типовых аппаратно-программных и технологических решений, существующих и разрабатываемых стандартов, новостным блоком, дискуссионным форумом и другими присущими Web -порталам элементами.

В рамках выполнения проекта осуществлена разработка проблемно-ориентированной поисковой машины по проблеме ИВРНО, базирующейся на принципах построения объектно-ориентированных распределенных информационных хранилищ слабоструктурированных ресурсов с Интернет доступом. Создано алгоритмическое и программное обеспечение информационного хранилища по проблемам ИВРНО, понимаемого как совокупность разнородных информационных ресурсов, хранящихся на различных сайтах сети Интернет, объединенных единой системой администрирования, метаописания, атрибутно-контекстного поиска и аналитической обработки. Разработана модель информационного хранилища, соответствующая стандарту X500.

Показано, что реляционные модели плохо приспособлены для представления графовой модели каталога в X 500. Предложена более эффективная по скорости выполнения запросов и простоте использования объектно-ориентированная модель каталога. Сам каталог реализован как в виде объектно-ориентированной базы данных, так и в виде совокупности XML -файлов. XML – реализация позволяет строить открытые каталоги информационных ресурсов по проблеме ИВРНО на различных Интернет-сайтах и естественным образом организовывать обмен информацией между ними.

С учетом принятой объектно-ориентированной модели данных информационного хранилища, может быть предложена следующая структура программного обеспечения информационного Интернет-хранилища:

· подсистема управления каталогом;

· подсистема управления информационными ресурсами;

· система автоматической каталогизации;

· система объединения хранилищ;

· система атрибутно-контекстного поиска.

Первые четыре из них относятся к системе администрирования информационного хранилища, в то время как последняя обеспечивает обработку всего спектра клиентских запросов к информационному хранилищу.

Все программные модули системы построены на базе технологии сервлетов.

Система управления каталогом служит для создания и администрирования каталога информационного хранилища. Она должна обеспечивать создание, перемещение и удаление узлов каталога, присвоение имен узлам каталога (и изменение этих имен в случае необходимости), проверку корректности графа каталога и используемых имен и ряд других вспомогательных функций.

Задача системы управления информационными ресурсами состоит в обеспечении присвоения каждому информационному ресурсу в хранилище корректного значения атрибутов, определяющих, во-первых, его местонахождение в каталоге, а во-вторых – его описание. Первая задача может быть решена либо с помощью процедуры автоматической рубрикации информационного ресурса либо с помощью ручной процедуры рубрикации. Автоматическая рубрикация описывается в следующем разделе и подразумевает, что для каждого узла дерева ресурсов (т.е. для каждой рубрики каталога) задается набор ключевых слов и правил, позволяющих построить формализованную процедуру отнесения ресурса к той или иной рубрике (рубрикам) каталога. Ручная рубрикация предполагает работу эксперта с каждым определяемым ресурсом и его отнесение к той или иной рубрике в соответствии с решением эксперта. Система управления ресурсами в «ручном» режиме должна позволять осуществлять присвоение информационным ресурсам как классификационных атрибутов (т.е. "привязку" информационных ресурсов к узлам дерева каталога), так и описательных атрибутов, изменение этих атрибутов, удаление атрибутов и ссылок на информационные ресурсы из базы данных и ряд других вспомогательных функций.

В условиях интенсивного роста числа информационных ресурсов по проблемам ИВРНО в сети Интернет и их постоянного обновления большую роль играет автоматизация каталогизации информационных ресурсов и присвоения им адекватных значений классификационных атрибутов. Автоматическая система каталогизации (структура каталога приведена в следующем разделе) информационных ресурсов по проблемам ИВРНО, предложенная в проекте, основана на процедуре статистической оценки распределения вероятностей ключевых слов по обучающей выборке информационных ресурсов, классификация которых произведена экспертами.

Система объединения хранилищ должна осуществлять экспорт каталогов в XML файлы, импорт XML файлов в базу данных каталога, определять непротиворечивость различных каталогов и строить общий каталог информационного хранилища на их основе.

Задача системы поиска ресурсов состоит в определении по запросу клиента полного перечня информационных ресурсов хранилища, удовлетворяющих условиям поиска. Большинство поисковых Интернет-систем, реализует либо атрибутный (перемещение по рубрикам каталога), либо контекстный (распознавание слов содержащихся в тексте ресурса) поиск. Кроме того, поиск по атрибутам обычно сводится к перемещению по отдельным веткам дерева каталога. Поиск по нескольким атрибутам одновременно (как это делается в развитых базах данных) обычно не реализуется. В данной НИР предлагается реализация поисковой системы, совмещающей контекстный и атрибутный поиск, а также позволяющей осуществлять отбор значений нескольких атрибутов одновременно при перемещении по дереву каталога.

В рамках выполнения проекта создана также система персонализации доступа к информационному хранилищу, позволяющая любому пользователю поисковой системы по проблемам ИВРНО сохранять результаты поиска в собственном отводимом ему на сервере каталоге, детализировать поиск, отслеживать изменения на интересующих его Интернет-сайтах, вести собственный архив-хранилище документов.

Создан и поддерживается в актуальном состоянии Web портал по проблеме ИВРНО, доступный по адресу http :// www . informika . ru / text / inftech / highcalc /

Портал содержит следующие основные разделы и подразделы:

  • Научно-методическая поддержка
  • Модели и методы программирования
    • Средства разработки параллельных программ
    • Операционные системы
    • Параллельные языки
    • Средства распараллеливания
    • Трансляторы для суперкомпьютеров
    • Утилиты и библиотеки
    • Тесты производительности
    • Научные программы
  • Учебные материалы
      • Книги
      • Журналы
      • Конференции
      • Тесты эффективности
      • Аппаратные средства
      • Процессорные платформы
      • Коммуникационное и сетевое оборудование
      • Суперкомпьютерные платформы
      • Кластерные объединения
      • Нормативные базы и стандарты
          • Организации и рабочие группы
          • Аппаратные средства
          • Программные средства
          • Сетевые средства
          • 1.4.2. База данных нормативных документов

            Для удобства ознакомления с нормативными документами, связанными с разработкой переносимых компьютерных программ, на сервере Центра открытых систем была создана база данных стандартов IEEE и ISO , касающихся информационных технологий и технологии открытых систем.

            Помимо номера стандарта и его названия на английской языке, в базе данных содержится гипер-ссылка на один из ресурсов сети Интернет, где можно более подробно ознакомиться с содержанием документа.

            В настоящее время база данных содержит 26 стандартов IEEE , и 93 стандарта ISO .

            admin

            Добавить комментарий

            Ваш e-mail не будет опубликован. Обязательные поля помечены *

            0

            База данных поисковой системы

            Функциональное устройство вербальных ИПС

            Архитектура вербальных поисковых систем

            Основным инструментом поиска в Интернет следует считать вербальные поисковые системы. Как и у локальных ИПС, это тип систем посткоординатного типа, который "противостоит" предкоординируемым ИПС – классификационным (тематическим каталогам). В английской литературе за ними закрепился термин "search engine". По-русски мы предлагаем называть их "поисковые системы".

            Веб-сайты – это все информационные ресурсы Интернет, точнее, те, просмотр которых обеспечивается программой-роботом.

            Робот – система, обеспечивающая просмотр (сканирование) Интернет и поддержание инвертированного файла (индексной базы данных) в актуальном состоянии. Этот программный комплекс является основным источником информации о состоянии инфор­мационных ресурсов сети.

            Поисковая база данных – так называемый индекс – специальным образом организованная база (англ. index database), включающая прежде всего инвертированный файл, который состоит из лексических единиц проиндексированных веб-документов и содержит другую разнообразную информацию о лексемах (в частности, их позиция в документах), документах и сайтах в целом.

            Клиент – это программа просмотра информационных ресурсов в веб-сервисе, по-другому, веб-клиент. (Наиболее популярны сегодня мультипротокольные программы Internet Explorer и Netscape Navigator). Эта же программа обеспе­чивает просмотр документов различных сервисов и общение с поисковой системой.

            Пользователь – 1) поисковые предписания, которые вводятся через пользовательский поисковый интерфейс; в некоторых системах сохра­няются в личной базе данных пользователя внутри поисковой системы;

            2) результаты поиска

            Пользовательские (поисковые) интерфейсы – экранные формы общения пользователя с поисковым аппаратом: системой формирования за­просов и просмотров результатов поиска.

            Поисковая система – подсистема поиска, обеспечивающая обработку поискового предписания пользователя, поиск в поисковой базе данных и выдачу результатов поиска пользователю.

            Роботы-индексаторы

            "Робот" (robot, а также spider – "паук", crawler – "пловец", worm – "червяк") – подсистема (программа или набор программ), которая систематически исследует Интернет, обходит веб-сайты, находит документы, прочитывает их и, следуя ссылкам, указанным в документе, находит другие страницы данного сайта или другие сайты. Структура веб-пространства аналогична структуре ориентированного графа, поэтому здесь применимы алгоритмы обхода графа.

            Существуют три метода такого обхода:

            а) случайный выбор первого URL-адреса программой-роботом для инициализации поиска. Программа индексирует начальный документ, выделяет URL – адреса, указывающие на другие документы, а затем рекурсивно анализирует эти URL для поиска "преимущественно в ширину" или "преимущественно в глубину";

            б) поиск начинается с набора URL-адресов, определяемых на основе популярности веб-узлов, а затем продолжается рекурсивно. Интуитивно понятно, что титульная страница популярного узла содержит URL-адреса, соответствующие наиболее часто запрашиваемой информации на данном и других веб-узлах;

            в) веб-пространство делится на определенные части, например, на основе системы имен Интернет или кодов стран, и для полного исследования этих разделов выделяется отдельная программа-робот или несколько. (Такой метод используется чаще, чем первые два.)

            Обработка документов в принципе подобна процедуре инвертирования файла с элементами автоматического индексирования. Последнего может и не быть, но все равно эта процедура и называется индексированием, даже если она ограничивается со­ставлением инвертированного файла, в котором каждому термину индексирования ставится в соответствие список документов, в которых он встречается. Такая процедура является только частным случаем, а точнее, тех­ническим аспектом создания поискового аппа­рата ИПС. Проблема, связанная с индексиро­ванием, заключается в том, что приписывание поискового образа документу или информаци­онному ресурсу опирается на представление о словаре (контролируемом или свободном), из которого эти термины выбирают­ся. Контролируемый словарь предполагал веде­ние лексической базы данных, до­бавление терминов в которую производилось бы администратором системы, и все новые доку­менты могли быть заиндексированы только те­ми дескрипторами, которые были в этой базе дан­ных. Естественно, в Интернет эта технология невозможна. Свободный словарь или пополняется автома­тически по мере появления новых терминов, или вообще является виртуальным, то есть, воображаемым, когда все термины инверсного файла (в идеале, все разные слова всех заиндексированных документов) считаются лексическими единицами ИПЯ (нередко инверсный файл так и называют словарем).

            Разработка роботов – это довольно нетривиальная задача; существует опасность зацикливания робота. Остро стоит вопрос о быстродействии роботов.

            Заказать и ускорить индексацию своего веб-сайта в поисковых системах роботами-индексаторами можно через ссылки типа Add URL или Submit your URL на сайте поисковой системы. Индексирование можно проводить и с помощью специальных бесплатных серверов-регистраторов. Существует проблема, как обеспечить повторное индексирование меняющихся ресурсов. В последнее время все большее распространение получает приоритетное индексирование за определенную плату.

            Главная содержательная проблема при индексировании заключается в том, какие термины приписывать документам, откуда их брать. При этом следует учесть, что часть ресурсов вообще не является текстом, текстовые же ресурсы могут представлять собой целые книги. Роботы разных систем решают этот вопрос по-разному. Не следует думать, что все термины из документов попадают в их поисковые образы. Очень активно применя­ются списки запрещенных слов (stop-words), ко­торые не попадают в индекс – это общие, служебные слова (предлоги, союзы и т.п.) и незначимые слова. Многие системы индексируют лишь часть документа (обычно начальную), есть роботы, которые обрабатывают только часть веб-страниц с одного и того же сайта. И тем не менее, объем поисковых индексов глобальных ИПС уже сегодня измеряется терабайтами.

            Обычно при индексировании обязательно используются различные "значимые" элементы гипертекстовой разметки: ссылки, заголовки, заглавия, аннотации, списки ключевых слов, и т.п. Для индексирования ресурсов telnet, gopher, ftp, а также нетекстовой информации используются главным образом URL, названия файлов, для новостей Usenet и почтовых списков рассылки – поля Subject и Keywords.

            Знание того, как работают роботы, каковы их технические характеристики, полезно и для создателей веб-документов, и для составителей запросов при проведении поисков. Сведения о большом количестве роботов (более 200) можно почерпнуть из базы данных The Web Robots Database.

            Поисковая база данных и поисковая система

            После того как ресурсы выявлены, начинается построение поисковой базы данных – индекса. Ин­дексный файл (или просто индекс) представляет собой набор связанных между собой файлов, ориен­тированных на быстрый поиск данных по запросу. Структура и состав индексов различных систем могут отличаться друг от друга и зави­сят от многих факторов: алгоритм работы робота, размер массива поис­ковых образов, информационно-поисковый язык, критерий смыслового соответствия, размещение различных компонентов си­стемы и т.п. В основе индекса всегда лежит инвертированный файл. Инвер­тированный файл ставит в соответствие каж­дому ключевому слову документа список, содержащий идентификатор веб-страницы, содержащей это слово, позицию слова в документе в тех или иных терминах (например, идентификатор поля, номер предложения, номер слова). Указание положения слова в тексте с точностью до номера предложения и номера этого слова в предложении позволяет построить гибкий язык запросов, позволяющий задавать расстояние между словами и предложениями в документе. Позиционные характеристики также используются при вычислении коэффициента релевантности и ранжировании документов в выдаче.

            Третьим основным компонентом вербальной ИПС является поисковая система, которая при получении запроса пользователя просматривает индекс с учетом формулы запроса и других параметров, оценивает релевантность документов и возвращает пользователю ранжированный список документов.

            Поиск в индексе – это операции над списками идентификаторов страниц в соответствии с моделью поиска и критерием соответствия. Например, при булевской модели это объединение (для операции дизъюнкция), пересечение (для конъюнкции) или дополнение (для отрицания). В ИПС в сети Интернет нередко используются гибридные модели, чаще всего являющиеся комбинацией логической и векторной моделей поиска.

            Результирующий список релевантных документов (в современной терминологии «отклик»), который преобразуется в ранжированный список заголовков (кратких описаний документов), снабженных гипертекстовыми ссылками и другими характеристиками (данные о дате создания документа, его объеме, кодировке, сведений о сайте и пр.), возвращается пользователю в его клиентскую программу-браузер (см. рис.4.3). Щелчок по ссылке к одному из документов запрашивает этот документ либо непосредственно с того сервера, на котором он находится, либо через базу данных поисковой системы.

            Читайте также:  Высота телевизора от пола в спальне

            Важным фактором и характеристикой вербальных ИПС являются так называемые интерфейсные веб-страницы, т.е. экранные формы, через которые пользователь задает запрос (поисковое предписание) и через которые он получает результаты. Различают два основных типа интерфейсных страниц: страницы запросов и страницы результатов поиска.

            Эффективность поиска в каждой конкретной ИПС определяется исключительно архитектурой индекса и моделью поиска. Как правило, эти характеристики систем являются секретом фирмы.

            Предлагаем Вашему вниманию новые поисковые системы и базы данных, доступ к которым предоставляется в ВПТБ.

            Работа с поисковыми системами и базами данных предоставляется в компьютерном зале ВПТБ ФИПС (4-й этаж).

            Справки по телефонам: +7 (495) 531-66-46; +7 (499) 240-41-97.

            Адрес для переписки: Бережковская наб., 24, Москва, Г-59, ГСП-3, 125993.

            Поисковая система PatSearch

            Система PatSearch создана как профессиональная система поиска для экспертов ФГБУ ФИПС Роспатента. В связи с этим в системе реализован расширенный набор функциональных и сервисных возможностей. Система позволяет осуществлять поиск охранных документов на изобретения и полезные модели стран минимума РСТ, стран СНГ, ВОИС, ЕПВ, ARIPO, OAPI.

            Поиск непатентной литературы реализован через встроенное обращение к внешней российской цифровой библиотеке E-Library и крупнейшей в мире базе данных научно-технической литературы Scopus. В системе PatSearch поддерживается поиск непатентной литературы во внешних источниках, в том числе поиск генетических последовательностей на сайте Европейского института биоинформатики (European Bioinformatics Institute).

            Система позволяет проводить различные виды патентного поиска:

            тематический поиск по индексам Международной патентной классификации (МПК), Европейской патентной классификации (ECLA), национальным классификациям, ключевым словам из рефератов и полных описаний;

            нумерационный поиск, в т.ч. поиск патентов-аналогов и др.

            Дополнительными функциональными возможностями поисковой системы являются:

            редактирование поисковых запросов в различных режимах;

            настройка параметров поиска;

            поиск в выбранном массиве документов;

            автоматический перевод на русский язык и др. языки (включая перевод выделенного фрагмента документа или документа целиком, отдельный режим перевода текста запроса);

            двухоконный просмотр документов;

            аналитическая обработка результатов поиска и др.

            Дополнительную информацию о PatSearch можно найти на сайте Роспатента:
            Отчет о деятельности Роспатента за 2011 год.

            База данных Questel – Orbit

            Компания Questel создана в 1975 г. как подразделение France Telecom и свыше 30 лет является международным информационным лидером. Она предоставляет доступ к базам данных, содержащим информацию об интеллектуальной собственности.

            На сегодняшний день это лучшая информационная служба в мире, гарантирующая максимальную полноту и надежность исследований патентной документации. Глубина доступного архива с 1880 г.

            Патентные базы данных компании Questel:

            крупнейший в мире патентный фонд, содержащий свыше 60 миллионов документов 95 стран и Международных Патентных ведомств;

            оригиналы патентных документов практически всех стран;

            документы на промышленные образцы, полезные модели и товарные знаки;

            рефераты на английском языке патентных документов наиболее патентуемых стран;

            полные тексты патентных документов США, Франции, Германии, Великобритании, Бельгии, Швейцарии, Австрии, Китая, Японии, Индии, России и др., а также заявки и патенты Международного и Европейского патентных ведомств;

            максимально полная информация о родственных патентах (patent family = патенты аналоги), включая их юридический статус;

            возможность автоматического перевода найденных документов на любой из 30 языков мира, включая русский, английский, французский, немецкий, австрийский, испанский, итальянский, арабский, японский, китайский, индийский и др.

            Для поиска информации в базах данных Questel служит поисковая система Orbit. Поисковая система позволяет выполнять семантический анализ патентных документов: суть и формулу изобретения, преимущества данного патента и слабые стороны предыдущих. Статистический анализ позволяет проводить анализ патентной активности компаний по годам и классификационным рубрикам, выявлять стратегические рынки компаний и партнеров по совместным разработкам.

            Дополнительную информацию по базе данных можно найти на сайте Questel по адресу: www.orbit.com.

            База данных Global Patent Index (GPI)

            БД GPI является онлайновым продуктом Европейского патентного ведомства (ЕПВ), который с 2010 г. заменяет серию дисков CD-ROM (ESPASE ACCESS, ESPASE FIRST, ESPASE ACCESS-EPC, ESPASE WORLD) и предлагает множество дополнительных возможностей для проведения поиска.

            Программное обеспечение БД – MIMOSA, базирующееся на оперативной системе MS Windows, обновление данных – еженедельное.

            БД была разработана как средство проведения поиска по новизне во всем мире, а также для наблюдения за патентами. БД позволяет осуществлять поиск во всем мировом массиве накопленных в ЕПВ библиографических данных (87 стран, 5 международных организаций) и предоставляет ссылку к полному тексту соответствующего документа в поисковой системе ESPASENET.

            БД содержит 100 доступных для поиска полей и позволяет проводить многоаспектный патентный поиск, включающий:

            тематический поиск по индексам Международной патентной классификации (МПК), Европейской патентной классификации (ECLA), национальным классификациям и ключевым словам из заглавий и рефератов;

            поиск указаний государств в патентных заявках РСТ и ЕПВ;

            выявление ссылок на патентные и непатентные документы.

            Дополнительную информацию о GPI можно найти на сайте ЕПВ по адресу: www.epo.org/gpi.

            Руководства для пользователей GPI:

            • User manual [Electronic Resource]
            • User manual v1.5 – addendum 1 [Electronic Resource]

            Евразийская патентная информационная система (ЕАПАТИС)

            Система ЕАПАТИС разработана Евразийским патентным ведомством (ЕАПВ) с целью повышения эффективности и качества проведения патентных поисков и патентно-информационного обеспечения экспертизы заявок на изобретения. С 2000 г. система находится в промышленной эксплуатации в ЕАПВ. В 2003г. к ней открыт доступ через Интернет для национальных патентных ведомств стран-членов Евразийской патентной организации (ЕАПО). В 2004-2005 гг. доступ к системе был предоставлен национальным патентным ведомствам Украины, Узбекистана и Грузии.

            В ЕАПАТИС поддерживается более 20 постоянно пополняемых локальных патентных баз данных (БД), в которых на конец 2015 г. содержалось более 60 млн. описаний патентных документов. Объем предоставляемой пользователям патентной информации (с учетом полных описаний патентных документов по отдельным БД) составляет свыше 2 терабайт. В БД представлены все патентные документы ЕАПВ, ВОИС, Европейского патентного ведомства, патентного ведомства США, СССР и России (с 1924 г.), патентные документы стран, входящих в "минимум документации РСТ" разной глубины ретроспективы, а также патентные документы национальных патентных ведомств стран СНГ, включая страны-члены ЕАПО.

            В системе можно проводить любые тематические, нумерационные и именные поиски.В системе реализованы средства метапоиска во внешних патентных БД цифровых библиотек интеллектуальной собственности (IPDL) и информационных системах свободного доступа сети Интернет: USPTO, ESPACENET, PatentScope и др.

            В результате проведения поиска формируются списки найденных патентных документов и предоставляются их реферативно-библиографические описания, с дальнейшей возможностью получения полного описания документа и дополнительной информации о нем из внешних источников.

            наличие в системе русскоязычного фонда патентной документации, включая советскую, российскую, евразийскую и национальную документацию;

            удобство и легкость в эксплуатации, реализованный в системе принцип "одного окна" позволяет пользователю проводить многоаспектные патентные поиски на нескольких официальных языках одновременно как в локальных БД, так и во внешних БД свободного доступа сети Интернет;

            развитые сервисные возможности системы. Например, по каждому запросу отображаются статистические данные о результатах поиска, в том числе по каждому поисковому индексу в отдельности. Структуру составленного запроса можно посмотреть перед отправкой на сервер. Программы анализатора запросов предоставляют рекомендации по дальнейшим действиям в случае получения нулевых результатов поиска. Для каждого найденного документа автоматически формируются гиперссылки во внешние БД, обеспечивающие возможность получения описания документа и дополнительной информации о нем из внешних источников. Использование патентного браузера и средств метапоиска исключают необходимость знания поисковых систем для работы с дисками CD/DVD и внешними БД сети Интернет.

            Условия доступа к системе ЕАПАТИС:

            В свободном доступе можно проводить все виды поисков (расширенный, нумерационный, профессиональный) в БД ЕАПВ и поиски по номеру документа в других БД. Результаты поиска представляются в виде реферативно-библиографических описаний патентных документов. Предоставляются сервисы виртуального доступа к полным описаниям документов из внешних источников, поиска в БД МПК.

            Читайте также:  Ведьмак 3 игра характеристики

            Платный доступ открыт ко всем БД системы в режимах расширенного, нумерационного и профессионального поиска, а также метапоиска. Предоставляются титульные листы и полные описания евразийских патентов и опубликованных евразийских заявок. Доступны сервисы виртуального доступа к полным описаниям документов из внешних источников, тематического поиска в БД ЕАПАТИС с использованием БД МПК, поиска в БД МПК.

            Более подробную информацию о поисковой системе ЕАПАТИС, а также условия доступа к системе можно получить на сайте ЕАПВ: http://www.eapatis.com/.

            Поисковая система Web of Science

            Web of Science – поисковая платформа, объединяющая реферативные базы данных публикаций в научных журналах, в том числе базы, учитывающие взаимное цитирование публикаций, разрабатываемая и предоставляемая компанией Clarivate Analytics. Web of Science охватывает материалы по естественным, техническим, общественным, гуманитарным наукам и искусству. Платформа обладает встроенными возможностями поиска, анализа и управления библиографической информацией.

            Базы данных Web of Science включают информацию о публикациях из более чем 18 тысяч журналов, издаваемых во всём мире. Базы данных не содержат полных текстов статей, однако включают в себя списки всех библиографических ссылок, встречающихся в каждой публикации, что позволяет в краткие сроки получить самую полную библиографию по интересующей теме.

            Базы данных Web of Science:

            Web of Science Core Collection (1975-по настоящее время) Доступ к лучшей в мире научной литературе по общественным наукам, искусству, гуманитарным наукам и материалам исследований с международных конференций, симпозиумов, семинаров, коллоквиумов, практикумов и съездов.

            KCI-Korean Journal Database (1980-по настоящее время) Доступ к статьям политематических журналов, находящихся в базе данных. KCI работает под управлением организации National Research Foundation of Korea и содержит библиографическую информацию по научной литературе, опубликованной в Корее.

            MEDLINE (1950-по настоящее время) The U.S. National Library of Medicine (NLM) – главная база данных по биологическим наукам. Изучение информации в области биомедицины и биологических наук, биоинженерии, здравоохранения, медицинского наблюдения и науки о растениях и животных.

            SciELO Citation Index (1997-по настоящее время) Доступ к научной литературе по общественным, гуманитарным наукам и искусству, которая была опубликована в лучших журналах, находящихся в открытом доступе, в Латинской Америке, Португалии, Испании и Южной Африке.

            С помощью разнообразных аналитических инструментов Web of Science пользователь может произвести наукометрический анализ по интересующей его тематике.

            Электронная библиотека диссертаций РГБ (ЭБД РГБ)

            Российская государственная библиотека (РГБ) является уникальным хранилищем подлинников диссертаций, защищенных в стране с 1944 г. по всем специальностям, кроме медицины и фармации. Сейчас в фонде Отдела диссертаций (г. Химки) хранятся свыше миллиона томов диссертаций. Ежегодно в РГБ поступает около 30 000 диссертаций (20 000 кандидатских и 10 000 докторских).

            В 2003 г. руководством Российской государственной библиотеки было принято решение о необходимости обеспечения широкой доступности и сохранности фонда диссертаций на основе современных информационных технологий, что привело к созданию Электронной библиотеки диссертаций РГБ.

            Создание Электронной библиотеки диссертаций РГБ было обусловлено следующими факторами:

            необходимость обеспечения сохранности этой уникальной коллекции и ее доступности для читателей;

            большая популярность электронного каталога диссертаций у читателей;

            высокая посещаемость читального зала в Отделе диссертаций (г. Химки).

            Сегодня Российская государственная библиотека предоставляет возможность доступа к полным текстам диссертаций и авторефератов, находящимся в электронной форме, что дает уникальную возможность многим читателям получить интересующую информацию, не покидая своего города. Для доступа к ресурсам ЭБД РГБ создаются Виртуальные читальные залы в библиотеках организаций, в которых и происходит просмотр электронных диссертаций и авторефератов пользователями. Каталог Электронной библиотеки диссертаций РГБ находится в свободном доступе для любого пользователя сети Интернет.

            Электронная библиотека диссертаций РГБ – это уникальный шанс для тысяч ученых по-новому реализовать возможности свои и коллектива, снизить стоимость научных исследований, сформировать свои научные взгляды с учетом знаний, наработанных десятилетиями.

            Дополнительную информацию о ЭБД РГБ можно найти по адресу: http://diss.rsl.ru.

            Национальная электронная библиотека (НЭБ)

            Национальная электронная библиотека (НЭБ) – Федеральная государственная информационная система, обеспечивающая создание единого российского электронного пространства знаний.

            Национальная электронная библиотека объединяет фонды публичных библиотек России федерального, регионального, муниципального уровней, библиотек научных и образовательных учреждений, а также правообладателей.

            В формировании фонда НЭБ используются:

            произведения, перешедшие в общественное достояние;

            произведения образовательного и научного значения, не переиздававшиеся последние 10 лет;

            произведения, права на которые получены в рамках договоров с правообладателями;

            а также другие произведения, правомерно переведенные в цифровую форму.

            Основная цель НЭБ – обеспечить свободный доступ граждан Российской Федерации ко всем изданным, издаваемым и хранящимся в фондах российских библиотек изданиям и научным работам, – от книжных памятников истории и культуры, до новейших авторских произведений.

            Так же целями НЭБ являются:

            формирование единого российского электронного пространства знаний на основе оцифрованных книжных, архивных и музейных фондов;

            расширение доступности для граждан отобранных в соответствии с утвержденными методиками произведений научного и образовательного содержания, включая лучшие образцы классической и современной художественной литературы, детской литературы, произведений, созданных на языках народов России.

            Начиная с 2004 г. проект НЭБ разрабатывается ведущими российскими библиотеками при поддержке Министерства культуры Российской Федерации.

            В 2014 г. был реализован новый этап развития НЭБ: организован доступ для читателей к более чем 90% книг, оцифрованных публичными библиотеками; объединены каталоги печатных изданий 33 библиотек.

            В 2015 г. участниками НЭБ стали еще 55 библиотек. Был организован доступ из виртуальных читальных залов библиотек к изданиям, охраняемым авторским правом. В фонд НЭБ были добавлены материалы, полученные из пяти музеев и Государственного архива Российской Федерации (ГАРФ). Проведена разметка более 2000 изданий на 200 тыс. произведений и их составных частей. Осуществлена интеграция НЭБ с каталогом ЭКБСОН, электронным каталогом РГБ, с сайтом «Год литературы».

            Сегодня НЭБ – это:

            объединенный электронный каталог фондов российских библиотек;

            ежедневно пополняемый фонд оцифрованных изданий;

            централизованный удаленный доступ через единый портал к фонду НЭБ, единые технологии поиска и единый набор сервисов для читателей всех категорий;

            интеграция с социальными сетями;

            мобильные приложения для доступа из любой точки и с любого устройства;

            личный кабинет и единый электронный читательский билет, открывающий доступ ко всем фондам российских библиотек;

            широкий набор сервисов для библиотек и правообладателей.

            Уже сегодня пользователи НЭБ могут:

            найти интересующее печатное издание в ближайшей библиотеке;

            найти электронную копию издания в НЭБ для удаленной работы из читального зала ближайшей библиотеки или из дома;

            просматривать на законных основаниях оцифрованные издания, ограниченные авторским правом из читального зала ближайшей библиотеки, подключенной к НЭБ.

            В октябре 2015 г. во Всероссийской патентно-технической библиотеке (ВПТБ) был организован доступ для читателей в НЭБ.

            В мае 2016 г. ВПТБ стала не только пользователем НЭБ, но и полноправным участником этого проекта, передав в НЭБ книжные издания в области интеллектуальной собственности, с истекшим сроком действия авторских прав.

            В мае 2017 г. в Национальную электронную библиотеку включена отечественная патентная документация из Государственного патентного фонда. Коллекция содержит полные описания изобретений к авторским свидетельствам и патентам СССР, заявкам и патентам на изобретения и полезные модели Российской Федерации. Всего в НЭБ включено 2,3 млн. патентных документов за период с 1924 г. по 2016 г. Новый ресурс позволяет проводить поиск по фамилии автора, наименованию заявителя / патентообладателя, названию и полному тексту документа.

            Включение патентных документов в НЭБ открывает новый канал доступа к патентной информации широкому кругу пользователей не только для проведения патентного поиска, но и в научных и образовательных целях.

            Дополнительную информацию о НЭБ можно найти по адресу: http://нэб.рф/.

            Новое! База данных издательства Kluwer Law International

            Уважаемые пользователи патентной информации! Представляем Вашему вниманию БД издательства Kluwer Law International KluwerIPLaw, доступ к которой организован в Отделении ВПТБ ФИПС.

            БД KluwerIPLaw – это информационный ресурс в области интеллектуальной собственности (ИС) и поисковый сервер.

            Читайте также:  Блоки питания для серверов

            БД разработана для специалистов в области права ИС. Состоит из нескольких модулей: Manual IP(Руководство по ИС), Copyright Law (Законодательство по авторскому праву), Design Protection (Охрана промышленных образцов), Patent Litigation (Патентное судопроизводство), Software Patent Worldwide(Патенты на программное обеспечение во всем мире) и другие.

            БД KluwerIPLaw предлагает с помощью различных модулей осуществлять авторитетный анализ по различным аспектам прав ИС.

            Через KluwerIPLaw возможен доступ к информации о законодательстве, системе правовой охраны объектов промышленной собственности, включая процедуру подачи заявок, экспертизы, регистрации и поддержания в силе. Приводятся ссылки на национальное, региональное и международное законодательство, инструкции. Представлена информация по судебным делам, особенностям судопроизводства. Предоставляется доступ к актуальным и интересным публикациям по правовой охране ИС, последним новостям и многое другое.

            CВОДНЫЙ ОТЧЕТ ПО ПРОЕКТУ № В0022

            "Центр коллективного пользования для тестирования, нормативной и методической поддержки суперкомпьютерных вычислений в области открытых систем"

            1.4 База данных и поисковая система

            Количество информации по проблеме ИВРНО в сети Интернет экспоненциально нарастает. Существуют как англоязычные так и русскоязычные профессиональные Интернет-сайты, посвященные тем или иным аспектам высокопроизводительных вычислений. Вместе с тем само это обилие информации часто приводит к затруднениям при необходимости найти в сети Интернет информационный ресурс, посвященный той или иной проблеме, актуальной в данный момент для пользователя. Эти факторы приводят к необходимости создания как базы данных по проблеме ИВРНО, так и автоматизированной поисковой системы.

            1.4.1. Поисковая система

            Универсальные поисковые Интернет-сайты в данной ситуации не дают адекватного решения именно в силу своей универсальности. Число ресурсов, выдаваемых универсальными контекстными поисковыми машинами в ответ на простой запрос, часто слишком велико для рационального использования, эти ресурсы, как правило, не структурированы. Эффективным решением в этой ситуации может быть создание специализированного проблемно-ориентированного поискового каталога, в сочетании с системой атрибутно-контекстной навигации и каталогизации информационных ресурсов. Кроме того, большое значение, которое придается проблеме ИВРНО в рамках ФЦП "Интеграция" делает актуальным создание Интернет-портала методической поддержки работ в области высокопроизводительных вычислений с анонсированием типовых аппаратно-программных и технологических решений, существующих и разрабатываемых стандартов, новостным блоком, дискуссионным форумом и другими присущими Web -порталам элементами.

            В рамках выполнения проекта осуществлена разработка проблемно-ориентированной поисковой машины по проблеме ИВРНО, базирующейся на принципах построения объектно-ориентированных распределенных информационных хранилищ слабоструктурированных ресурсов с Интернет доступом. Создано алгоритмическое и программное обеспечение информационного хранилища по проблемам ИВРНО, понимаемого как совокупность разнородных информационных ресурсов, хранящихся на различных сайтах сети Интернет, объединенных единой системой администрирования, метаописания, атрибутно-контекстного поиска и аналитической обработки. Разработана модель информационного хранилища, соответствующая стандарту X500.

            Показано, что реляционные модели плохо приспособлены для представления графовой модели каталога в X 500. Предложена более эффективная по скорости выполнения запросов и простоте использования объектно-ориентированная модель каталога. Сам каталог реализован как в виде объектно-ориентированной базы данных, так и в виде совокупности XML -файлов. XML – реализация позволяет строить открытые каталоги информационных ресурсов по проблеме ИВРНО на различных Интернет-сайтах и естественным образом организовывать обмен информацией между ними.

            С учетом принятой объектно-ориентированной модели данных информационного хранилища, может быть предложена следующая структура программного обеспечения информационного Интернет-хранилища:

            · подсистема управления каталогом;

            · подсистема управления информационными ресурсами;

            · система автоматической каталогизации;

            · система объединения хранилищ;

            · система атрибутно-контекстного поиска.

            Первые четыре из них относятся к системе администрирования информационного хранилища, в то время как последняя обеспечивает обработку всего спектра клиентских запросов к информационному хранилищу.

            Все программные модули системы построены на базе технологии сервлетов.

            Система управления каталогом служит для создания и администрирования каталога информационного хранилища. Она должна обеспечивать создание, перемещение и удаление узлов каталога, присвоение имен узлам каталога (и изменение этих имен в случае необходимости), проверку корректности графа каталога и используемых имен и ряд других вспомогательных функций.

            Задача системы управления информационными ресурсами состоит в обеспечении присвоения каждому информационному ресурсу в хранилище корректного значения атрибутов, определяющих, во-первых, его местонахождение в каталоге, а во-вторых – его описание. Первая задача может быть решена либо с помощью процедуры автоматической рубрикации информационного ресурса либо с помощью ручной процедуры рубрикации. Автоматическая рубрикация описывается в следующем разделе и подразумевает, что для каждого узла дерева ресурсов (т.е. для каждой рубрики каталога) задается набор ключевых слов и правил, позволяющих построить формализованную процедуру отнесения ресурса к той или иной рубрике (рубрикам) каталога. Ручная рубрикация предполагает работу эксперта с каждым определяемым ресурсом и его отнесение к той или иной рубрике в соответствии с решением эксперта. Система управления ресурсами в «ручном» режиме должна позволять осуществлять присвоение информационным ресурсам как классификационных атрибутов (т.е. "привязку" информационных ресурсов к узлам дерева каталога), так и описательных атрибутов, изменение этих атрибутов, удаление атрибутов и ссылок на информационные ресурсы из базы данных и ряд других вспомогательных функций.

            В условиях интенсивного роста числа информационных ресурсов по проблемам ИВРНО в сети Интернет и их постоянного обновления большую роль играет автоматизация каталогизации информационных ресурсов и присвоения им адекватных значений классификационных атрибутов. Автоматическая система каталогизации (структура каталога приведена в следующем разделе) информационных ресурсов по проблемам ИВРНО, предложенная в проекте, основана на процедуре статистической оценки распределения вероятностей ключевых слов по обучающей выборке информационных ресурсов, классификация которых произведена экспертами.

            Система объединения хранилищ должна осуществлять экспорт каталогов в XML файлы, импорт XML файлов в базу данных каталога, определять непротиворечивость различных каталогов и строить общий каталог информационного хранилища на их основе.

            Задача системы поиска ресурсов состоит в определении по запросу клиента полного перечня информационных ресурсов хранилища, удовлетворяющих условиям поиска. Большинство поисковых Интернет-систем, реализует либо атрибутный (перемещение по рубрикам каталога), либо контекстный (распознавание слов содержащихся в тексте ресурса) поиск. Кроме того, поиск по атрибутам обычно сводится к перемещению по отдельным веткам дерева каталога. Поиск по нескольким атрибутам одновременно (как это делается в развитых базах данных) обычно не реализуется. В данной НИР предлагается реализация поисковой системы, совмещающей контекстный и атрибутный поиск, а также позволяющей осуществлять отбор значений нескольких атрибутов одновременно при перемещении по дереву каталога.

            В рамках выполнения проекта создана также система персонализации доступа к информационному хранилищу, позволяющая любому пользователю поисковой системы по проблемам ИВРНО сохранять результаты поиска в собственном отводимом ему на сервере каталоге, детализировать поиск, отслеживать изменения на интересующих его Интернет-сайтах, вести собственный архив-хранилище документов.

            Создан и поддерживается в актуальном состоянии Web портал по проблеме ИВРНО, доступный по адресу http :// www . informika . ru / text / inftech / highcalc /

            Портал содержит следующие основные разделы и подразделы:

            • Научно-методическая поддержка
            • Модели и методы программирования
              • Средства разработки параллельных программ
              • Операционные системы
              • Параллельные языки
              • Средства распараллеливания
              • Трансляторы для суперкомпьютеров
              • Утилиты и библиотеки
              • Тесты производительности
              • Научные программы
            • Учебные материалы
                • Книги
                • Журналы
                • Конференции
                • Тесты эффективности
                • Аппаратные средства
                • Процессорные платформы
                • Коммуникационное и сетевое оборудование
                • Суперкомпьютерные платформы
                • Кластерные объединения
                • Нормативные базы и стандарты
                    • Организации и рабочие группы
                    • Аппаратные средства
                    • Программные средства
                    • Сетевые средства
                    • 1.4.2. База данных нормативных документов

                      Для удобства ознакомления с нормативными документами, связанными с разработкой переносимых компьютерных программ, на сервере Центра открытых систем была создана база данных стандартов IEEE и ISO , касающихся информационных технологий и технологии открытых систем.

                      Помимо номера стандарта и его названия на английской языке, в базе данных содержится гипер-ссылка на один из ресурсов сети Интернет, где можно более подробно ознакомиться с содержанием документа.

                      В настоящее время база данных содержит 26 стандартов IEEE , и 93 стандарта ISO .

                      admin

                      Добавить комментарий

                      Ваш e-mail не будет опубликован. Обязательные поля помечены *