8 лет назад
Способы распознавания (оцифровки) текста
В наше время уже никого не удивишь такими понятиями, как электронная книга или даже электронная библиотека. И если ранее кто-то в дороге мог читать свои любимые детективы или любовные романы с книжкой в руках, то сейчас он предпочитает держать в руках планшетник. И точно так же, как и ранее, «листать» страницу за страницей, но уже не бумажную, а на маленьком экране.
Получение электронных книг, как и любого другого электронного текста, стало возможным благодаря оцифровке. Этот процесс также называют распознаванием текста. Но суть его от этого не меняется.
Таким процессом называют перевод бумажных книг, текстов на бумаге в электронный, то есть в цифровой вид. То есть в итоге получается цифровое изображение. Визуальная информация преобразуется в цифровую, которую может использовать компьютер. И на это способны самые разные устройства. Не только планшетный сканер, листовой сканер, слайдовый и барабанный сканеры, но и цифровые камеры, платы ввода видеоданных, а также системы обработки коллекций изображений, поставляемых на компакт-дисках (Photo CD).
Понятно, что при современном уровне информационных технологий каждый из нас при желании имеет возможность оцифровать любой текст или получить уже готовый из глобальной сети. К примеру, нужную ему книгу. Цифровые книги быстро распространяются среди книголюбов.
Обычно оцифрованные книги сохраняют в форматах DjVu, Portable Document Format (PDF), JPG или TIFF. Для того чтобы преобразовать исходное изображение, применяют оптическое распознавание символов, то есть OCR. Оно необходимо для того, чтобы включать страницы книги в цифровой формат, такой как ASCII или другой подобный формат, который уменьшает размер файла и позволяет работать с текстом.
Под оцифровкой текста следует понимать не только оцифровку книг. Это понятие куда более широкое, и оно подразумевает, скажем, оцифровку документов. Да и сам текст может содержать не только буквы, но и какие-либо картинки. То есть оцифровка книг предполагает, в частности, оцифровку текста с иллюстрациями.
По мере развития технологии некоторые компании оказывают услуги на специальном оборудовании не только по оцифровке документов, но и по оцифровке и сканированию технических текстов. А это изначально предполагает, что придется работать с фотографиями, рисунками, чертежами.
Получение электронных книг, как и любого другого электронного текста, стало возможным благодаря оцифровке. Этот процесс также называют распознаванием текста. Но суть его от этого не меняется.
Таким процессом называют перевод бумажных книг, текстов на бумаге в электронный, то есть в цифровой вид. То есть в итоге получается цифровое изображение. Визуальная информация преобразуется в цифровую, которую может использовать компьютер. И на это способны самые разные устройства. Не только планшетный сканер, листовой сканер, слайдовый и барабанный сканеры, но и цифровые камеры, платы ввода видеоданных, а также системы обработки коллекций изображений, поставляемых на компакт-дисках (Photo CD).
Понятно, что при современном уровне информационных технологий каждый из нас при желании имеет возможность оцифровать любой текст или получить уже готовый из глобальной сети. К примеру, нужную ему книгу. Цифровые книги быстро распространяются среди книголюбов.
Обычно оцифрованные книги сохраняют в форматах DjVu, Portable Document Format (PDF), JPG или TIFF. Для того чтобы преобразовать исходное изображение, применяют оптическое распознавание символов, то есть OCR. Оно необходимо для того, чтобы включать страницы книги в цифровой формат, такой как ASCII или другой подобный формат, который уменьшает размер файла и позволяет работать с текстом.
Под оцифровкой текста следует понимать не только оцифровку книг. Это понятие куда более широкое, и оно подразумевает, скажем, оцифровку документов. Да и сам текст может содержать не только буквы, но и какие-либо картинки. То есть оцифровка книг предполагает, в частности, оцифровку текста с иллюстрациями.
По мере развития технологии некоторые компании оказывают услуги на специальном оборудовании не только по оцифровке документов, но и по оцифровке и сканированию технических текстов. А это изначально предполагает, что придется работать с фотографиями, рисунками, чертежами.
Статьи
Новости