Оригинал всегда лучше копии
 Новости  |  Фантастика и Фэнтэзи  |  Боевики и Приключения  |  Детективы  |  Триллеры  |  Детские  |  Разное  |  Гостевая  |  Розыск  |  Очередь 
 
Как вычтитать текст

Приветствую всех любителей чтения.
Так как всё большее количество читателей заявляет о своём стремлении помочь, я написал следующую инструкцию. Если вы гуру в верстке теста, не читайте то, что идет дальше, прочтите лишь данные о формате.

1. Что нам нужно:
программа AfterScanExpress 5.0, взять можно где угодно но проще всего здесь http://www.afterscan.com/ru/download.html, лекарство есть пока только для версии англ. , если у кого есть для русского пожалуйста пришлите, думаю сможете найти лекарство без проблем.
MSWord 2000, но сойдет и 97 (кстати, если владеете макроязыком, то будет проще).

2. Процесс вычитки.

Прежде всего надо определить сложность вычитки. Тексты попадаются самые разные, есть роскошно свёрстанные файлы со всеми иллюстрациями, а есть файлы сделанные OCR-щиком, который похоже действовал мизинцем левой ноги, где полно пропусков, номеров страниц....короче мусора.

Если в тексте есть разрывы в конце страницы, то вам надо будет применить АфтерСкан, если нет сразу переходите к Ворду. Скармливате АфтерСкану файл, нажимаете Cleanup, выбираете автоматический режим и наслаждаетесь отдыхом от компьютера. Предугадать сколько времени будет длиться процесс очень тяжело. Но тем не менее, когда программа закончит работу она оповестит вас бипом. Итак текст готов к исправлению, нажимаем кноточку автоформата и ..вуаля, текст лишился разрывов и части грязи.

Теперь в дело вступает Ворд. Открываем файл. Выставляем параметры страницы: слева-справа по 1,5 сверху-снизу по 1,2 . Предвидя споры по этому вопросу, хочу сказать, что мне очень не хочется менять формат, тот, что задал я удобней всего печатать, а именно это я и делаю. Со временем, предполагается хранение в нескольких форматах, но пока только этот.

Что убираем из текста:

1.Автора и название. Я стараюсь кодировать эти данные в именах файлов.
2. Тэги OCR-щиков. Здесь многие будут против, многие OCR-щики, но я уже говорил, что печатаю книги, зачем мне в книге какие-то тэги. Я ни в коем случае не хочу принизить чьих то заслуг, отнюдь, большое вам ребята спасибо, но тэги убираем.
3. Грязь - номера страниц, имя автора, название книги, коряво отсканенные сноски, непонятно откуда берущиеся символы.

Теперь делаем шрифт Times New Roman 10, заголовки желательно выделить жирным. Стихи, песни, различного рода надписи на ваше усмотрение, но стоило бы их спозиционировать иначе и применить курсив.

Вставляем номера страниц, архивируем и отсылаем мне.

Конечно, пособие далеко неполное, стоит наверное расказать еще о макросах, способах замены.....Но это в следующий раз.

 



 
TopList

Все свои вопросы и пожелания можете оставить в гостевой книге или написать мне письмо © GreyLIB 2001
Hosted by uCoz