Кафедра
Инженерных дисциплин
 
Краснодонский факультет инженерии и менеджмента
Восточноукраинского национального университета
имени Владимира Даля
Вс, 05.12.2021, 01:09
Приветствую Вас Гость | RSS
Меню сайта

Форма входа

Категории раздела
Новости Факультета!!! [141]
Новости нашего региона [484]
Новости науки и техники [1133]
IT- новости [894]
Авто-новости [98]
Сообщения об интересных событиях [414]
Зарубежные новости [203]
Новости материаловедения [74]
Водород [28]
Сведения о влиянии водорода. Водородная энергетика.
Здоровье [126]
Новости образования [48]
Новости университета [43]
Новости Украины [70]
Разное [319]
Триботехника [1]
Компьютерные игры [43]
Программирование [9]
Подготовка к поступлению [162]

Поиск

Главная » 2010 » Август » 23 » Создание FB2 версии свежего номера журнала/газеты
05:31
Создание FB2 версии свежего номера журнала/газеты

Создание FB2 версии свежего номера журнала/газеты

Предыстория


Последнее время всё больше журналов и газет выкладывают свои свежие номера в сеть (Ведомости, Эксперт, Esquire и т.п.). Все хорошо с этими номерами за одним исключением — что бы их читать нужен интернет.
С интернетом проблема в том что он не везде есть (метро) и не каждое устройство его видит (большинство e-ink ридеров).
В связи с этим родилась мысль о том что не плохо бы делать копии периодики в виде электронных книжек (например в FB2 формате).

Задача


Создать решение, позволяющее генерировать файл FB2 формата из куска сайта, содержащего нужный выпуск журнала (например Эксперт №32 за 2010 год).
Файл должен содержать картинки и желательно оглавление с перечнем статей.
Создание файла с новым номером должно происходить в (полу)автоматическом режиме, занимать не больше 5-10 минут и не требовать серьёзной ручной обработки.

Поиск решения

 

Конвертер Что-То->FB2


Как оказалось конвертеров HTML->FB2 кот наплакал. А таких, которые в автоматическом режиме могут обработать пачку html страничек и корректно составить оглавление и прописать ссылки, нет вообще. Хотя может быть я плохо искал или не разобрался в возможностях того, чего нашел.
Для начала я попробовал все редакторы описанные в обзоре компьютерры

.

  • «Any to FB2» — напрочь убивал кирилицу (скорее всего из за кривых рук) и заточен под работу с одной страницей.
  • «FictionBook Designer» — мощная штука, но не имеет (не нашел) функции автоконвертации.
  • Web2FB2 — ближе всего желаемому но имеет ограничение в 10 страниц и валит всё в одну кучу без оглавления


Дальнейший поиск вывел на замечательный сервис FeedConverter (об этом сервисе на хабре уже писали).
Тестирование на первом попавшемся русском RSS потоке показало что сервис:

  • справляется с кириллицей
  • генерирует оглавление в виде перечня записей
  • принимает картинки

Т.е. теперь, для того что бы получить результат достаточно скормить на вход этому сервису фид, в котором будут полнотекстовые статьи номера.

Полнотекcтовый RSS feed


Рассматриваемый сайт не поставляет полнотекстового RSS с данными номеров. Только анотации последнего номера.
Для создания Full Text RSS удобно использовать Yahoo Pipes. Скармливаем ему наш поток, и в цикле подгружаем полный текст статьи — http://pipes.yahoo.com/pipes/pipe.edit?_id=661b8231fa3df88317939d452e772c10. В случае, если сайт не предоставляет RSS потока вообще, а только публикует статьи (как например Esquire) механизм Yahoo Pipes позволяет отпарсить содержимое страницы, достать от туда ссылки и выкачать нужные статьи. Для этого я создал pipe http://pipes.yahoo.com/pipes/pipe.edit?_id=85427a7ff66aa7c06a1fa8da677fbd25

У данного механизма есть плюс в том, что он позволяет достать любой номер, а не только последний.
Для этого в строке вызова надо лишь поменять параметр, отвечающий за год и номер внутри года http://pipes.yahoo.com/pipes/pipe.run?_id=85427a7ff66aa7c06a1fa8da677fbd25&_render=rss&number=31&year=2010.

Итого

Финальный алгоритм создания FB2 версии периодики следующий:

  1. Находим сайт с информацией
  2. Берем RSS или индексную страницу
  3. Парсим страницу в Yahoo Pipes и подтягиваем полный текст статей
  4. Скармливаем выдачу пайпа FeedConverter-у и забираем FB2 книжку
  5. ??????
  6. PROFIT!

При однажды настроенном пайпе получение нового номера в FB2 виде будет заключаться заходе на сайт FeedConverter-а и нажатия кнопки генерации.

Ложка дегтя

  • В связи с тем, что Yahoo Pipes работает не слишком быстро, генерация может не пройти с первой попытки. Надеюсь создатели FeedConverter-а сделают что-нибудь с этим.
  • У Yahoo Pipes есть ограничения по тому, сколько процессорного времени может съедать один пайп. В связи с этим некоторые объемные выпуски журнала не укладываются в прокрустово ложе и вылетают с ошибкой (например Эксперт №1 за 2010 г.). Что делать с этим пока не понятно. Возможно стоит разнести парсинг и подгрузку текстов в разные пайпы.
habrahabr.ru

http://internetua.com/sozdanie-FB2-versii-svejego-nomera-jurnala-gazeti
Категория: Новости науки и техники | Просмотров: 414 | Добавил: Professor | Рейтинг: 0.0/0
Всего комментариев: 0
Добавлять комментарии могут только зарегистрированные пользователи.
[ Регистрация | Вход ]
Мы - Далевцы!

Календарь
«  Август 2010  »
ПнВтСрЧтПтСбВс
      1
2345678
9101112131415
16171819202122
23242526272829
3031

Архив записей

Наши партнёры
  • Кафедра гуманитарных и социально-экономических дисциплин
  • Официальный блог
  • Сообщество uCoz
  • FAQ по системе
  • Инструкции для uCoz

  • Статистика

    Онлайн всего: 1
    Гостей: 1
    Пользователей: 0

    Copyright MyCorp © 2021     Created by Alex Kalinin