Длина файла в блоках

Содержание

1 Устройство файла *.1CD
- 1.1 Внутренние файлы
- 1.2 Список свободных страниц
2 Устройство базы данных
- 2.1 Таблицы
3 Работа с базой данных
4 Блок 0
5 Объекты
6 Блок 1. Таблица свободных блоков
7 Остальные объекты
8 Блок 2. Корневой объект
9 Объект таблицы
10 Объект записей таблицы
11 Объект Blob таблицы

В данном разделе рассматриваются некоторые особенности внутреннего устройства и работы механизмов файловой базы данных «1С:Предприятия 8», которые не освещены в документации, но могут быть интересны пользователям и разработчикам прикладных решений на платформе «1С:Предприятие 8». Приведенное описание соответствует платформе «1С:Предприятие» версии 8.3.4.

Устройство файла *.1CD

На самом нижнем уровне файл *.1CD или файл базы данных содержит внутри своего рода файловую систему, включающую в себя так называемые внутренние файлы. Файл *.1CD имеет страничную организацию, то есть состоит из страниц размером 4096 байт (4 К). Размер файла *.1CD всегда кратен 4 К.

Страницы адресуются их номерами. Номер страницы представлен 4-байтовым целым числом без знака. Следовательно, файл *.1CD может содержать не более чем 4 294 967 296 страниц.

Страница с номером 0 содержит служебные данные файла *.1CD, такие как версия формата файла базы данных, общее число страниц в файле и т. п.

Страница с номером 1 используется менеджером свободных страниц.

Каждая из остальных страниц может либо принадлежать какому-либо из внутренних файлов, либо находиться в списке свободных страниц.

Внутренние файлы

Страницы, относящиеся к внутреннему файлу, бывают трех видов:

корневая страница,
индексные страницы,
страницы данных.

Эти страницы образуют дерево, корнем которого является корневая страница, промежуточными узлами являются индексные страницы, а листьями – страницы данных.

Корневая страница содержит служебную информацию внутреннего файла, такую как длина файла, номер версии данных файла и т. п. Кроме того, на корневой странице содержится до 1018 номеров индексных страниц.

Индексные страницы образуют промежуточный уровень дерева. Индексная страница содержит число страниц данных, адресуемых данной индексной страницей, и до 1023 номеров страниц данных.

Страница данных содержит только данные.

Из сказанного выше следует, что внутренний файл может включать не более чем 1 041 414 (1018 * 1023) страниц данных. Следовательно, максимальный размер внутреннего файла не может превышать 4 265 631 744 (1018 * 1023 * 4096) байта. Для адресации отдельных байтов внутреннего файла используются 4-байтовые целые числа без знака.

Для представления внутреннего файла нулевой длины достаточно одной только корневой страницы. Если размер внутреннего файла составляет от 1 до 4096, то он представляется тремя страницами: одной корневой, одной индексной и одной страницей данных. При дальнейшем росте размера файла добавляются новые страницы данных, и их номера помещаются в индексную страницу. Как только индексная страница перестает вмещать номера страниц данных, добавляется новая индексная страница и ее номер добавляется в корневую страницу. И так далее.

Внутренние файлы не имеют имен. Для идентификации внутренних файлов используются номера их корневых страниц.

Список свободных страниц

Страницы, не относящиеся к какому-либо из внутренних файлов, находятся в списке свободных страниц. Свободные страницы могут образоваться при сокращении размера или удалении внутреннего файла. Любые освободившиеся страницы внутренних файлов помещаются в список свободных страниц.

При необходимости увеличения размера или создании нового внутреннего файла по возможности используются страницы из списка свободных страниц.

Устройство базы данных

Внутренние файлы в конечном счете предназначены для хранения базы данных. База данных представляет собой совокупность таблиц. Каждой таблице может соответствовать от двух до четырех внутренних файлов:

файл описания таблицы,
файл данных,
файл индексов,
файл данных неограниченной длины.

Файл описания и файл данных присутствуют обязательно для каждой таблицы. Файл индексов присутствует, если в таблице определен хотя бы один индекс. Файл данных неограниченной длины присутствует, если в структуре таблицы определена хотя бы одна колонка неограниченной длины.

Кроме того, имеется файл описания базы данных. Данный файл содержит информацию о локали базы данных, а также номера корневых страниц внутренних файлов описания для каждой из таблиц базы данных.

Таблицы

Файл описания таблицы

Файл описания таблицы содержит полное описание таблицы, которое включает:

имя таблицы;
перечень колонок таблицы, включая их имена и типы;
перечень индексов таблицы, включая их имена и индексируемые колонки;
номера корневых страниц внутренних файлов данных, индексов и данных неограниченной длины.

При открытии базы данных считывается файл описания базы данных и адресуемые им файлы описания таблиц. На основании этой информации инициализируются внутренние структуры данных, необходимые во время выполнения. Прочие файлы таблиц на этом этапе не открываются. Их открытие выполняется по мере обращения к таблицам. Это сделано из соображения ускорения процесса открытия, а также из предположения, что в данном сеансе могут быть обращения не ко всем таблицам базы данных.

Файл данных

Файл данных содержит записи таблицы. Каждая запись содержит значения всех колонок таблицы, кроме значений колонок неограниченной длины. Записи имеют фиксированную длину. Поэтому адрес записи может быть легко вычислен по номеру записи (N) и длине (L) как N * L .

Номера записи представлены 4-байтовыми целыми числами. Запись с номером 0 используется для служебных целей. Номера «настоящих» записей начинаются с 1.

Длина записи может быть вычислена как сумма длин всех колонок плюс от 1 до 17 байт служебной информации. Ограничений на длину записи не накладывается.

Ниже приведена информация о типах данных и соответствующем размере колонок:

Десятичное число с фиксированной точкой. Хранится в десятичном виде по две десятичные цифры на один байт. Зарезервировано место для знака. Размер может быть вычислен по формуле:

(p + 1) / 2 + ( p + 1) % 2

Строка фиксированной длины, состоящая из n однобайтовых символов. Размер колонки равен n .

Строка Unicode фиксированной длины, состоящая из n символов в кодировке UTF-16. Размер колонки равен n * 2 .

Двоичные данные фиксированной длины. Размер колонки равен n .

Строка переменной длины, состоящая не более чем из n однобайтовых символов. Размер колонки равен n + 2 байта. Дополнительные 2 байта используются для хранения фактической длины.

Строка Unicode переменной длины, состоящая не более чем из n символов в кодировке UTF-16. Размер колонки равен n * 2 + 2 . Дополнительные 2 байта используются для хранения фактической длины.

Двоичные данные переменной длины не более n байт. Размер колонки равен n + 2 байта. Дополнительные 2 байта используются для хранения фактической длины.

Значение логического типа (true или false). Размер колонки равен одному байту.

Дата без времени. Размер колонки – 4 байта.

Дата и время. Размер колонки – 7 байт.

Текст неограниченной длины, состоящий из однобайтовых символов. В структуре записи колонка занимает два 4-байтовых целых числа: фактическая длина значения и адрес в файле данных неограниченной длины. Фактические значения хранятся в файле данных неограниченной длины.

Текст Unicode неограниченной длины, состоящий из символов в кодировке UTF-16. В структуре записи колонка занимает два 4-байтовых целых числа: фактическая длина значения и адрес в файле данных неограниченной длины. Фактические значения хранятся в файле данных неограниченной длины.

Двоичные данные неограниченной длины. В структуре записи колонка занимает два 4-байтовых целых числа: фактическая длина значения и адрес в файле данных неограниченной длины. Фактические значения хранятся в файле данных неограниченной длины.

Кроме того, к размеру колонок, которые могут содержать NULL, добавляется еще один байт.

Файл индексов

В файле индексов находятся все индексы, определенные для таблицы. Детальное рассмотрение структуры индексов не входит в цели данной статьи. Отметим только, что индекс представляет собой сбалансированное дерево. С точки зрения использования файловой базы данных важным является то, что, в отличие от размера записи, на длину ключа индекса наложено ограничение: длина не может превышать 1920 байт. Ключ представляет собой конкатенацию значений всех индексируемых колонок записи плюс 4-байтовый номер записи.

Индексироваться могут колонки типов Numeric, Char, NChar, Binary, VarChar, NVarChar, VarBinary, Logical, Date и DateTime. Значение каждой из индексируемых колонок типов Numeric, Binary, VarBinary, Logical, Date и DateTime помещается в ключ как есть. Соответственно, каждая из таких колонок добавляет к длине ключа свой собственный размер. А вот для колонок типов Char, NChar, VarChar и NVarChar вместо самой строки в ключ помещается ее ключ сортировки (collation key). Поэтому вклад колонок указанных типов в длину ключа определяется как n * 3 + 2 для колонок, не чувствительных к регистру букв. И n * 4 + 3 для колонок, чувствительных к регистру.

Файл данных неограниченной длины

В файле данных неограниченной длины хранятся фактические значения колонок типов Text, NText и Image. Для хранения таких значений файл организован как набор блоков длиной 256 байт. Каждое значение хранится как односвязный список блоков. В каждом блоке содержатся:

адрес следующего блока (4 байта);
число используемых байт данных в данном блоке (2 байта);
полезные данные (250 байт).

Блок с адресом 0 используется для служебных нужд, а если точнее он содержит адрес списка свободных блоков. В список свободных блоков помещаются освободившиеся блоки, которые могут быть использованы в дальнейшем.

Работа с базой данных

Чтение данных

Следует различать чтение данных, выполняемое вне транзакции, и чтение в рамках транзакции. Операция чтения (например, SQL-запрос SELECT), выполняемая вне транзакции, получает данные, соответствующие состоянию базы данных на момент выполнения операции. При использовании SELECT вне транзакции поведение файловой базы данных подобно поведению версионных СУБД, таких как Oracle. То есть все данные, полученные запросом SELECT, относятся к одному согласованному состоянию базы данных, имевшему место на начало выполнения операции. Чтение данных не может быть заблокировано никакой другой операцией чтения или записи. Но нужно понимать, что состояние, имевшее место на начало чтения, может быть изменено. Соответственно, считываемые данные могут оказаться устаревшими.

Если чтение выполняется в рамках транзакции, то гарантируется, что считанные данные не могут быть изменены никем другим до завершения транзакции. Для обеспечения этой неизменности используется механизм транзакционных блокировок. При первом обращении к таблице на чтение в рамках транзакции на таблицу накладывается Read-блокировка. И эта блокировка не снимается до завершения транзакции.

Запись данных

Запись данных всегда предполагает наличие транзакции. Если операция записи была вызвана вне объемлющей транзакции, то транзакция будет создана неявно в процессе выполнения операции. При выполнении операции записи на таблицы, в которые вносятся изменения, накладывается транзакционная Write-блокировка, препятствующая чтению или записи, выполняемой другими соединениями.

Если на таблицу уже была наложена Read-блокировка, то выполняется ее эскалация до Write-блокировки.

Операции записи данных, выполняемые в рамках транзакции, не приводят к немедленной записи изменений в файл *.1CD. Изменения, вызванные операциями записи, накапливаются в кеше модифицированных страниц и сбрасываются в файл базы данных при фиксации (commit) транзакции.

Таким образом, если в процессе выполнения транзакции, до ее фиксации, произойдет сбой и/или падение приложения, то все изменения, произведенные в транзакции, окажутся потерянными и файл базы данных останется в неизмененном состоянии.

Кеширование данных

Кеш считанных страниц

Для повышения эффективности операций чтения механизмы файловой базы данных стараются кешировать считанные данные и тем самым минимизировать число физических операций чтения из файла базы данных. Кеш считанных страниц содержит прочитанные страницы данных внутренних файлов. Общий размер кеша для каждого из соединений с файловой базой данных является ограниченным и может в зависимости от различных условий составлять от 2 до 200 Мбайт. Кеш наибольшего размера создается при работе с файлом базы данных, расположенным на сетевом диске.

Кеш организован по принципу LRU. То есть страницы, к которым дольше всего не было обращений, могут быть вытеснены из кеша вновь считанными страницами.

Другой причиной, по которой страницы могут быть исключены из кеша, является его обновление. Каждое зафиксированное состояние данных внутреннего файла имеет соответствующий номер версии. Все кешируемые страницы внутреннего файла соответствуют определенной версии внутреннего файла. Процесс обновления состоит в том, что из файла базы данных считывается текущая версия внутреннего файла и сравнивается с версией кешируемых страниц. Если выясняется, что версия кешируемых страниц устарела, то страницы соответствующего внутреннего файла исключаются из кеша.

Для каждой операции чтения, выполняемой вне транзакции, обновление кеша производится для внутренних файлов данных, индексов и данных неограниченной длины каждой из таблиц, задействованных в операции чтения.

В рамках транзакции обновление кеша производится непосредственно после наложения на таблицу Read-блокировки. В дальнейшем до завершения транзакции кеш остается актуальным, так как таблица не может быть модифицирована другими транзакциями. Соответственно, для последующих операций чтения в той же транзакции обновления кеша не требуется.

Следует также заметить, что в исключительном режиме доступа к базе данных кеш считанных страниц всегда остается актуальным и его обновление не производится.

Еще одной причиной для исключения страницы из кеша считанных страниц является попадание страницы в кеш модифицированных страниц.

Модификация данных и кеш модифицированных страниц

В процессе выполнения транзакции при внесении изменений в базу данных изменения никогда не записываются непосредственно в файл. Вместо этого они буферизуются в кеше модифицированных страниц. Страница, находящаяся в этом кеше, содержит все данные страницы, как модифицированные участки, так и оставшиеся неизменными с момента считывания. При этом ведется учет модифицированных участков, чтобы в момент выполнения физической записи в файл по возможности минимизировать объем записываемых данных.

Страница, попавшая в кеш модифицированных страниц, исключается из кеша считанных страниц.

При запросе на чтение данных из внутреннего файла соответствующая страница сначала ищется в кеше модифицированных страниц. Если не найдена, то производится поиск в кеше считанных страниц. И если не найдена там, то производится считывание страницы из файла с помещением в кеш считанных страниц.

Сброс кеша модифицированных страниц в файл производится только при выполнении фиксации (commit) транзакции. При фиксации транзакции все измененные страницы всех внутренних файлов собираются в общий массив, упорядоченный по номерам страниц в файле базы данных, и запись в файл базы данных производится от больших номеров страниц к меньшим. Это делается из следующих соображений:

Если запись страницы с самым большим номером должна привести к увеличению файла базы данных, а на диске недостаточно места, то эта операция завершится аварийно. Таким образом, ни одно изменение не будет записано, транзакция будет отменена и файл *.1CD останется в неизмененном состоянии.
При записи от больших номеров страниц к меньшим статистически сначала будут записываться изменения в страницах данных, затем изменения в индексных страницах и только потом изменения в корневых страницах внутренних файлов. В результате минимизируется риск фатальных разрушений во внутренней структуре файла базы данных, если успешно завершится только часть операций записи.

Время жизни кеша модифицированных страниц ограничено временем выполнения транзакции. После завершения транзакции кеш полностью освобождается.

На размер кеша модифицированных страниц не накладывается никаких ограничений. Единственным ограничителем является размер свободной оперативной памяти.

Блокировки

Для обеспечения согласованности и целостности данных при разделенном режиме доступа к базе используются блокировки. Так как механика файловой базы данных работает в режиме файл-сервер, то есть отсутствует выделенный сервер баз данных, то блокировки в базе данных реализованы с использованием функций блокировки участков файла. Для блокировок используется файл с расширением .1CL.

Транзакционные блокировки

Этот вид блокировок уже упоминался выше. Транзакционные блокировки предназначены главным образом для обеспечения логической целостности и изоляции транзакций. Транзакционные блокировки бывают двух видов:

Read-блокировки не конфликтуют между собой, но конфликтуют с Write-блокировками. Write-блокировки конфликтуют с любыми блокировками: Read и Write. Единицей блокировки является таблица. Единица довольно крупная, особенно с учетом того, что в большинстве современных СУБД поддерживаются блокировки на уровне записи. Однако реализация блокировки на уровне записи потребовала бы большого числа файловых блокировок, что привело бы к существенному снижению производительности.

Транзакционные блокировки накладываются с ожиданием. По умолчанию время ожидания транзакционной блокировки равно 20 сек.

Блокировки фиксации состояния

Также имеется ряд блокировок фиксации состояния. Данный вид блокировок относится к системным блокировкам и предназначен для обеспечения согласованного доступа к файлу базы данных на физическом уровне. При использовании файловой базы данных крайне редко приходится сталкиваться с какими-либо внешними проявлениями, связанными с этим видом блокировок. В данной статье они упоминаются главным образом для полноты картины.

Поясним место этих блокировок на примере фиксации транзакции. Как было сказано выше, при фиксации результатов транзакции все изменения записываются в файл базы данных. Естественно, что пока процесс записи изменений не завершен, файл базы данных находится в рассогласованном состоянии. Соответственно, попытка чтения приведет к получению рассогласованных данных. Но записываемые данные относятся не ко всем таблицам, а только к измененным. Соответственно, нужно сделать так, чтобы никакие данные, имеющие отношение к модифицируемым таблицам, не считывались, пока запись изменений не завершена. Для обеспечения этого предусмотрена блокировка фиксации таблицы для записи и для чтения.

На время записи изменений, произведенных транзакцией, устанавливается фиксация для записи всех модифицированных транзакцией таблиц. А на время чтения данных, связанных с таблицей, устанавливается фиксация для чтения. Фиксация для записи конфликтует с фиксацией для чтения. Фиксации для чтения не конфликтуют между собой, но конфликтуют с фиксацией для записи. Соответственно, гарантируется, что, пока запись не завершена, никакие операции чтения не могут быть выполнены. А также, пока не завершено чтение, запись изменений не может быть начата.

Данный вид блокировок накладывается на очень непродолжительное время. Время ожидания захвата блокировки составляет 120 сек. Такое время ожидания выбрано из расчета, чтобы любая операция, прикрытая блокировкой фиксации состояния, успела завершиться. Исключительные ситуации с сообщениями «Не удалось зафиксировать таблицу для записи» или «Не удалось зафиксировать таблицу для чтения» крайне редки и возникают в основном в условиях сильной загрузки сети или компьютера, выполняющего функции файл-сервера.

Этот документ кратко описывает всю информацию о логическом формате блочных устройств (другие названия: устройства прямого доступа, файловые устройства справочной структуры и пр.) совместимых между собой дисковых операционных систем RAFOS, ФОДОС, RT11 и других, в диалоговых вычислительных комплексах (ДВК).
Представленный материал был собран автором этого документа из невнятных технических описаний к выше упомянутым операционным системам, а также на основе собственных экспериментальных работ, которые были проделаны при создании программы DVK UTILITY на Sinclair ZX Spectrum-совместимых компьютерах, предназначенной для работы с дисками двойной плотности от ДВК.
Цель этого описания — помощь программистам, которые захотят создать качественныe программы для обработки данных с ДВК на других платформах, а также тем, кому придется восстанавливать информацию на дисках ДВК в случае ее порчи.

Все числа в этом тексте — десятичные.

При подготовке текста и графики использовался Sinclair ZX Spectrum-совместимый компьютер.

ЛОГИЧЕСКИЙ ФОРМАТ БЛОЧНОГО УСТРОЙСТВА

ИДЕНТИФИКАЦИОННЫЙ БЛОК

Смещение в байтах от начала	байтов	Назначение
+0	2	Равны нулю.
+132	56	Нуль в первом байте указывает, что устройство инициализировано впервые (в этом случае остальные 55 байтов не используются), иначе — область хранит данные старого каталога: 10 байтов заголовка первого сегмента и два первых элемента каталога из него по 14 байтов (для возможности восстановления пока на устройство не было записано новых файлов); оставшиеся байты не используются и равны нулю.
+448	4	Назначение неизвестно, равны нулю.
+466	6	Назначение неизвестно, равны: 1, 0, 6, 0, 83, 142.
+472	12	Имя тома (устройства) в кодировке КОИ7; выдается в строке "Volume ID", при печати каталога.
+484	12	Имя владельца тома (устройства) в кодировке КОИ7; выдается в строке "Owner", при печати каталога.
+496	12	Имя инициализировавшей системы в кодировке КОИ7; ОС RT11, например, заносит в эти байты сообщение: "DECRT11A ".

ЗАГОЛОВОК СЕГМЕНТА КАТАЛОГА

Смещение в байтах от начала	байтов	Назначение
+0	2	Число сегментов, отведенных под каталог (до 31), заданное при инициализации. Здесь и далее — первый байт младший.
+2	2	Номер следующего открытого сегмента каталога. В последнем сегменте записан 0; первый имеет номер 1, второй — 2 и т. д.
+4	2	Счетчик сегментов, имеющих элементы каталога (только в первом сегменте). Об элементах каталога см. ниже.
+6	2	Число дополнительных байтов в элементе каталога (после инициализации стандартными средствами всегда равно 0).
+8	2	Номер блока, с которого начинаются файлы в данном сегменте.

За заголовком сегмента следуют элементы каталога — области постоянной длины, в каждой из которых содержится информация об одном файле, хранящимся на устройстве.

ЭЛЕМЕНТ КАТАЛОГА

Смещение в байтах от начала	байтов	Назначение
+0	1	Всегда равен нулю (не используется).
+1	1	Отдельные установленные биты этого байта указывают вид файла: b0 – временный (не закрытый) файл (приравнивается к пустому); b1 – пустой (свободная область); b2 – постоянный; b3 – конец данных в сегменте каталога; b7 – защита от удаления (для постоянного файла).
+2	2	Первый, второй и третий символы имени файла в кодировке Radix50.
+4	2	То же для четвертого, пятого и шестого.
+6	2	То же для первого, второго и третьего символов расширения файла.
+8	2	Длина файла в блоках.
+10	2	Специальные байты (не используются для постоянного файла, равны 0).
+12	2	Дата создания файла (только для постоянного) от до (т. е. на сегодняшний день не актуально); два байта составляют слово (первый байт младший), отдельные биты которого обозначают: b0. b4 – код года, к нему прибавляется 72, результат – число соответствующее двум последним цифрам года прошлого века; b5. b9 – день месяца; b10. b14 – номер месяца. Если все биты равны 0, то это указывает на отсутствие даты.
+14	n	Байты дополнительной информации (если есть); системой не обрабатываются.

ПРИЛОЖЕНИЯ

Как известно, перед началом работ с новым блочным устройством, требуется его инициализация которая происходит следующим образом:

Проверяется каталог устройства; если оно ранее использовалось и содержит защищенные файлы, у пользователя запрашивается разрешение для дальнейших действий.
Нулевой блок устройства заполняется нулями, и в него записывается программа выдачи сообщения об отсутствии системного загрузчика.
В первый блок устройства записываются данные согласно таблицы 1.
В 6-м блоке устройства создаются: заголовок первого сегмента каталога; элемент каталога, указывающий о всей длине свободной области на устройстве (пустой файл); и маркер конца каталога.

Создание нового сегмента каталога

В процессе создания файлов, сегмент ката-лога может оказаться заполненным элементами каталога. В случае, если имеется возможность открыть новый сегмент (их количество задается при инициализации), операционная система выполняет следующие действия:

Заполняется заголовок нового сегмента и в него переписывается примерно половина последних элементов каталога из заполненного сегмента.
Корректируются связи сегментов (таким образом, сегменты могут быть связаны не по порядку своих номеров).
Укороченный и новый сегменты записываются на устройство.
Новый элемент каталога будет помещен в тот сегмент, в котором окажется информация о подходящей свободной области для файла.

При ведении устройства (т. е. при создании новых файлов и удалении старых) на нем могут оказаться множество мелких свободных областей, в любую из которых новый файл не помещается, хотя общего свободного пространства для этого достаточно. Логический формат блочного устройства не позволяет создавать сегментированные файлы (такие, как например, в операционной системе IS-DOS на Sinclair ZX Spectrum-совместимых компьютерах). Однако, существует операция, называемая "сборкой мусора" (команда монитора — SQUEEZE ), которая, последовательно копируя файлы на устройстве, сдвигает их, выделяя тем самым одну максимально свободную область. Устройство может иметь сбойные области, которые указываются файлами с расширением .BAD ; они не затрагиваются этой операцией, и остаются на прежних местах.

Блочное устройство MY:

Контроллер: КМД.
Метод записи: модифицированная частотная модуляция (двойная плотность).
Запоминающее устройство: накопитель на гибких магнитных дисках.
Носитель: гибкий магнитный диск для двойной плотности записи, диаметром 133 либо 89 мм.
Физический формат диска:
дорожек: 40 или 80;
сторон: одна или две;
всего секторов: 400, 800 или 1600;
секторов на дорожке: 10;
размер сектора: 512 байтов; один сектор на диске соответствует одному логическому блоку данных блочного устройства.

После того, как я выложил свою программку Tool_1CD ( http://infostart.ru/projects/3851/ ), оказалось, что интерес к формату файлов 1CD достаточно велик. Поэтому для всех желающих продолжить разбираться с форматом, или желающих написать свою программу, выкладываю свои текущие знания об этом формате.

Описание формата приведено в терминах языка C. Размер типа char – 1 байт, размер типа short int – 2 байта, размер типа int и unsigned int – 4 байта. Префиксом 0x обозначаются шестнадцатеричные числа.

Файлы баз *.1CD состоят из блоков длиной 4096 байт (0x1000). Соответственно, длина файла всегда кратна 4096.

Блок 0

char sig[8]; // сигнатура “1CDBMSV8”

unsigned int length;

Первые 8 байт – сигнатура базы «1CDBMSV8».

Следующие 4 байта – это версия базы. На данный момент мне встречались только версия «8.0.5.0» (ver1 = 8, ver2 = 0, ver3 = 5, ver4 = 0) – это базы 1Cv8.0 и версия «8.1.0.0» (ver1 = 8, ver2 = 1, ver3 = 0, ver4 = 0) – это базы 1Cv8.1 и 1Cv8.2.

Следующие 4 байт – длина базы (файла) в блоках.

Предназначение поля unknown неизвестно, всегда содержит 1.

Объекты

Структура первого блока каждого объекта такова:

char sig[8]; // сигнатура “1CDBOBV8”

int length; // длина содержимого объекта

unsigned int version;

unsigned int blocks[1018];

Первые 8 байт – сигнатура базы «1CDBOBV8».

Есть 2 типа объектов.

Блок 1. Таблица свободных блоков

В blocks содержатся номера блоков, в которых собственно и находится содержимое таблицы свободных блоков. Значащими являются ненулевые значения в массиве blocks. Содержимое таблицы свободных блоков – это просто массив номеров свободных блоков:

unsigned int free_blocks[length];

Таким образом, в базе содержатся ровно length свободных блоков.

Когда системе требуется новый блок для данных, то она берет последний свободный блок из массива free_blocks и уменьшает length на 1. Если свободных блоков нет, то он создается в конце файла базы. Блоки, содержащиеся в массиве blocks, не являются свободными, а принадлежат объекту – таблице свободных блоков. В blocks может содержаться больше блоков, чем необходимо для хранения массива free_blocks.

Остальные объекты

В поле length содержится длина в байтах данных объекта.

В массиве blocks находятся индексы блоков, содержащих таблицу размещения данных объекта. Каждый блок, указанный в blocks, и являющийся частью таблицы размещения, имеет следующую структуру:

unsigned int datablocks[1023];

Поле numblocks указывает количество реальных значений в datablocks (от 1 до 1023). В datablocks содержатся индексы блоков, в которых находится собственно содержимое объекта (данные). Так как в одном блоке таблицы размещения может быть указано максимум 1023 блока с данными, то соответственно, максимальная длина данных, указанных в одном блоке таблицы размещения равна 1023 * 4096 = 4190208 байт (0x3ff * 0x1000 = 0x3ff000). Таким образом, из длины содержимого объекта length мы можем определить количество фактических значений в blocks. Если length равен 0, то в blocks нет значащих данных, иначе количество значений в blocks равно (length – 1) / 0x3ff000 + 1 (деление целочисленное, без остатка). А также можно вычислить максимальную длину данных одного объекта: 4190208 * 1018 = 4265631744 байт (1018 – максимальное количество значений в массиве blocks), это совсем немного меньше 4х гигабайт.

Повторим, в заголовочном блоке объекта находится массив blocks, содержащий индексы блоков с таблицей размещения. А в таблице размещения находятся блоки, содержащие сами данные.

Блок 2. Корневой объект

Для версии «8.1.0.0» структура выглядит так:

Т.е. различаются эти структуры только длиной поля lang. В поле lang содержится код языка базы. Код языка базы представляет собой строку в ANSI-кодировке. Мне встречались только базы с кодами «ru_RU» и «en». На что влияют эти коды языка, я не знаю, возможно, на порядок сортировки строк при построении индексов.

В поле numblocks содержится количество элементов в массиве tableblocks. В массиве же tableblocks содержатся индексы объектов, содержащих все таблицы данных. Т.е. таблиц в базе ровно numblocks.

Объект таблицы

Как видно из этого примера, здесь присутствуют имя таблицы (_Reference4), раздел описания полей таблицы (Fields), раздел описания индексов (Indexes), параметр Recordlock и раздел Files.

В разделе Files всегда содержатся три числа, которые содержат индексы заголовочных блоков объектов (по порядку) с записями таблицы, Blob-данными (строки неограниченной длины и двоичные данные) и индексами. Если какого-либо объекта у таблицы нет, то соответствующее число равно нулю.

В разделе Fields содержатся описания полей таблицы. Описание каждого поля содержит (по порядку): имя поля (FieldName), тип поля (FieldType), признак использования NULL (NullExists), длину (FieldLength), точность (FieldPrecision) и признак регистрочувствительности (FieldCaseSensitive).

Сколько байт занимает каждое поле в записи, и как его интерпретировать, зависит от параметров поля. Во-первых, если NullExists у поля равен 1, то первый байт поля является признаком NULL. Значение 0 этого байта означает, что поле не содержит значение (т.е. содержит NULL). В противном случае, поле содержит значение. Если же NullExists равен 0, то такого байта в поле нет.

Далее, размер и формат поля зависит от типа поля. Типы поля бывают такими:

«B» – двоичные данные. Длина поля равна FieldLength байт.
«L» – булево. Длина поля 1 байт. Нулевое значение байта означает Ложь, иначе Истина.
«N» – число. Длина поля в байтах равна Цел((FieldLength + 2) / 2). Числа хранятся в двоично-десятичном виде. Первый полубайт означает знак числа. 0 – число отрицательное, 1 – положительное. Каждый следующий полубайт соответствует одной десятичной цифре. Всего цифр FieldLength. Десятичная точка находится в FieldPrecision цифрах справа. Например, FieldLength = 5, FieldPrecision = 3. Байты 0x18, 0x47, 0x23 означают число 84.723, а байты 0x00, 0x00, 0x91 представляют число -0.091.
«NC» – строка фиксированной длины. Длина поля равна FieldLength * 2 байт. Представляет собой строку в формате Unicode (каждый символ занимает 2 байта).
«NVC» – строка переменной длины. Длина поля равна FieldLength * 2 + 2 байт. Первые 2 байта содержат длину строки (максимум FieldLength). Оставшиеся байты представляет собой строку в формате Unicode (каждый символ занимает 2 байта).
«RV» – версия. Длина поля 16 байт. Предположительно содержит четыре числа int.
«NT» – строка неограниченной длины. Длина поля 8 байт. Первые четыре байта содержат начальный индекс блока в объекте Blob таблицы, вторые четыре – длину данных в объекте Blob. В объекте Blob содержится строка в формате Unicode.
«I» – двоичные данные неограниченной длины. Длина поля 8 байт. Первые четыре байта содержат начальный индекс блока в объекте Blob таблицы, вторые четыре – длину данных в объекте Blob.
«DT» – дата-время. Длина поля 7 байт. Содержит данные в двоично-десятичном виде. Первые 2 байта содержат четыре цифры года, третий байт – две цифры месяца, четвертый байт – день, пятый – часы, шестой – минуты и седьмой – секунды, все также по 2 цифры.

Зная теперь длину в байтах каждого поля можно посчитать общую длину одной записи таблицы и смещение каждого поля в записи. Но для этого необходимо учесть следующее. Если в описании полей таблицы нет поля с типом версия (RV), но при этом параметр Recordlock равен 1, то в записи присутствует дополнительное поле, которое я для себя называю короткая скрытая версия. Длина этого поля равна 8 байт. В каждой записи самый первый байт – это признак удаленности записи (признак, что запись не занята). Если этот байт равен 1, то запись свободна, а следующие 4 байта содержат индекс следующей свободной записи. Из этого следует, что запись не может быть короче пяти байт. Если же первый байт записи содержит 0, то далее в записи следуют значения полей. Причем порядок полей определяется таким образом: превым всегда идет поле версии (или описанное в разделе Fields с типом RV или поле скрытой короткой версии), затем все остальные поля в том порядке, как они описаны в разделе Fields.

Объект записей таблицы

Объект Blob таблицы

unsigned int nextblock;

short int length;

Поле nextblock содержит индекс следующего блока, содержащего продолжение данных, или 0, если следующего блока нет. Поле length содержит длину данных в этом блоке (максимум 250). Поле data содержит сами данные. Нулевой блок всегда считается свободным, в поле nextblock он содержит индекс следующего свободного блока. Таким образом, с нулевого блока начинается цепочка свободных блоков.

В записях таблицы в полях с типом «NT» и «I» содержится индекс первого блока, с которого начинаются данные, относящиеся к этому полю данной записи.

Post Views: 6

Длина файла в блоках

Устройство файла *.1CD

Внутренние файлы

Список свободных страниц

Устройство базы данных

Таблицы

Файл описания таблицы

Файл данных

Файл индексов

Файл данных неограниченной длины

Работа с базой данных

Чтение данных

Запись данных

Кеширование данных

Кеш считанных страниц

Модификация данных и кеш модифицированных страниц

Блокировки

Транзакционные блокировки

Блокировки фиксации состояния

ЛОГИЧЕСКИЙ ФОРМАТ БЛОЧНОГО УСТРОЙСТВА

ИДЕНТИФИКАЦИОННЫЙ БЛОК

ЗАГОЛОВОК СЕГМЕНТА КАТАЛОГА

ЭЛЕМЕНТ КАТАЛОГА

ПРИЛОЖЕНИЯ

Блок 0

Объекты

Блок 1. Таблица свободных блоков

Остальные объекты

Блок 2. Корневой объект

Объект таблицы

Объект записей таблицы

Объект Blob таблицы

admin

Добавить комментарий Отменить ответ

Устройство файла *.1CD

Внутренние файлы

Список свободных страниц

Устройство базы данных

Таблицы

Файл описания таблицы

Файл данных

Файл индексов

Файл данных неограниченной длины

Работа с базой данных

Чтение данных

Запись данных

Кеширование данных

Кеш считанных страниц

Модификация данных и кеш модифицированных страниц

Блокировки

Транзакционные блокировки

Блокировки фиксации состояния

ЛОГИЧЕСКИЙ ФОРМАТ БЛОЧНОГО УСТРОЙСТВА

ИДЕНТИФИКАЦИОННЫЙ БЛОК

ЗАГОЛОВОК СЕГМЕНТА КАТАЛОГА

ЭЛЕМЕНТ КАТАЛОГА

ПРИЛОЖЕНИЯ

Блок 0

Объекты

Блок 1. Таблица свободных блоков

Остальные объекты

Блок 2. Корневой объект

Объект таблицы

Объект записей таблицы

Объект Blob таблицы

Похожие записи:

admin

Добавить комментарий Отменить ответ