Справочный центр

Сегментирование документа

Как правильно делить документ на сегменты для удобного перевода.
В данной статье мы рассмотрим, что можно сделать с документом MS Word (формат .docx) или Open Office (формат .odt), чтобы облегчить выполнение перевода.
Документы для перевода могут быть самыми разными по структуре и сложности форматирования:
1. документы с четкой структурой, например, договора или официальные письма
2. простые таблицы, например, выписки ЕГРЮЛ или ЕРГИП
3. документы со сложной структурой, такие как сертификаты, дипломы, авиабилеты, счета
4. документы с очень сложной структурой, состоящей из мелких элементов, например, налоговая отчетность

Ниже разберем различные сценарии работы на конкретных примерах:
1. Документы с четкой структурой.
В них нужно проверить переносы строк.
Переводчику удобно, когда документ разбит на сегменты в соответствии с небольшими (1-3 предложения) пунктами договора или абзацами.
Именно так наш сервис и пытается разделить текст на сегменты при загрузке документа.
Вы можете помочь сервису: проверьте правильность установки переноса строк внутри абзацев или пунктов договора.
Чтобы увидеть переносы строк, включите опцию "Отобразить все знаки" (см. скриншот - на примере MS Word)
Включение отображения невидимых символов в Word
В параграфе на картинке ниже мы видим лишние переносы строк, которые образовались при преобразовании документа. Они разбивают абзац и мешают восприятию текста:
Блок текста до обработки
В данном случае достаточно удалить "лишние" переносы, чтобы документ стал удобнее для перевода:
Блок текста после обработки
При загрузке документа в сервис Вам будет предложено выбрать опцию, как сервису обрабатывать теги документа:
Выбор опции обработки тегов документа при загрузке
Теги - это специальные метки, которые уже есть внутри загружаемого документа. Они устанавливают границы стилей текста (например, выделение жирным или курсивом).
Подсказка:
Многие теги никак не влияют на стиль текста - это лишь следы многочисленных предыдущих редактирований документа, поэтому при загрузке документа в сервис попробуйте использовать опцию "Попытаться удалить лишние теги" или загружайте "с удалением форматирования".
Если результат не нравится, то можно обновить уже загруженный файл, выбрав при этом другую опцию обработки тегов.

После загрузки попробуйте сразу же скачать перевод (перевода пока нет, поэтому вместо перевода подставится оригинал). Таким способом можно быстро проверить, насколько удачно сохранилось форматирование документа.
2. Простые таблицы.
Сервис хорошо структурирует такие документы, в соответствии с ячейками таблиц, поэтому дополнительная обработка не требуется.
При загрузке таких файлов можно выбирать опцию "Без обрезания тегов", т.к. тегов в таблицах чаще всего не так много
3. Документы со сложной структурой.
Эти документы лучше загружать, выбирая опцию "Без обрезания тегов".
Чаще всего такие документы получаются в результате сканирования бумажных документов, поэтому они могут содержать многочисленные лишние элементы. Попробуйте до загрузки в сервис обработать документ: объединить некоторые фразы, правильно расставить переносы с сохранением общего форматирования.
Сразу после загрузки в сервис выгрузите файл с переводом, проверьте, сохранена ли структура. Если все в порядке, то можно смело переводить
4. Документы с очень сложной структурой.
Такие документы обычно создаются либо при сканировании с распознаванием, либо при конвертации pdf-файлов в Word.
Часто их приходится существенно дорабатывать до загрузки в сервис, т.к. переведенный документ должен сохранять структуру оригинала.