E-Book
淘宝书商为啥什么书都能找到:揭秘代找PDF背后的真相
【OhMyMN 使用技巧分享】PDF小科普和我的一点MN用法 - 方法、技巧、工作流 - MarginNote 中文社区
理解数字世界中的纸张:PDF | 科普 - 少数派
PDF 复制中的文字重复问题 - 少数派
你说的框是什么框——理解 PDF 中的五种页面边界 - 少数派
一些常见的电子书格式:
文档格式:PDF、DJV、DJVU
电子书格式:EPUB、MOBI、AZW、AZW3、FB2(俄罗斯)、LIT(Microsoft)
文本格式:TXT、RTF
漫画格式:CBR、CBZ
PDF 等电子书格式可能称为文档格式更合适,固定的排版也能固定笔记的位置,推荐精读选这个。
网络流传的大量扫描版电子书出处:高校图书馆和超星合作扫库制作流出。这里有一个值得反思的地方,PDF 流出的量很多这么一个事实现状的背后就应该考虑有一个简单的获取渠道,而不是默认搜索引擎告知的付费或间接付费方式。总的来说国内出版社售卖原生 PDF 书籍的较少,我只对电子工业出版社有印象,基本都是超星的扫描版,也有自发花钱去扫描。
伴随着超星的非 PDF 文档也有一些对应的工具,基本都是老马制作,比如Pdg2Pic,他博客里有一些优化工具推荐,我的实际使用中优化大多是劣化,原本即可。
扫描版 PDF 不带 OCR 层也就是不带可搜索文本层,这只能后期使用软件添加。
Filename Format
书的属性有:主标题、副标题、作者、出版社、版本、出版年份、分册,如果是系列那需要序号标记并辅助排序。
主标题
主标题_副标题
主标题_作者_副标题_分册(版本/出版年份yyyy)
高等数学同济_上册(第 7 版)
美国宪政历程_影响美国的 25 个司法大案
深入浅出程序设计竞赛_进阶篇(V0.8)
鸟哥的 Linux 私房菜_基础学习篇(第 4 版)
Computer Networking A Top-Down Approach(8th)
计算机网络考研复习指导(2024)
01_Dinosaurs Before Dark(v3.0)
有的书不存就没了。
高质量自扫版
处理软件
Book Typesetting
页字的解释-在线新华字典
一页、一面和a page的意思是不是一样地指代纸张的单面?
设计师必懂的书籍装帧结构
书籍排版前,这些书的基本知识,了解一下?-金印客 排版印刷
现代中文中一页指两面。
页:量词,旧指单面印刷的一纸,今多指双面印刷的一面。
page: one side of a piece of paper in a book, newspaper, document etc, or the sheet of paper itself
页的词义变迁也许是印刷技术的提升,从一张纸只能印一面到双面,我在搜索 page 时也在一本字典上看到它可以表示两面。记忆里老师教的一页两面,生活中使用有混淆,这种定义(理论)与现实冲突的情况,第一反应是让它们不要冲突了,思考为什么会冲突去理顺它们,但实际上能修改的只有理论,在成长中通过理论去认识世界,隐隐的理论优先级甚至高过现实了。在这个例子中,就算猜到是页的词义发生了变化,如果没有找到权威的像新华字典上的释义,我自问是不敢替代掉原来的认识,但是一条权威的解释总是滞后的,需要自己下定义、提理论、做总结。
世界是便于人类理解而定义的世界,先有世界再有定义,且定义会随着世界而改变。
页是一个物理概念还是
回到书籍,电子版书籍制作者不一,质量参差,有完全复刻出版纸质书的,也有放弃扫描护封与封面、封底前置、环衬与空白页略过等。标准化修改原则上:
- 不修改官方出版电子版
- 以纸质版结构参考、使用常用书籍排版结构
- 第一页优先前护封
- 第二页为扉页
- 第三页为版权页,中文书籍有 CIP 可参考分类。
- 封底置于最后一页
像人民邮电出版社喜欢加个夹衬的怎么办?没有信息含量,没了就没了,无需在意!看个一两遍熟悉了,跳出软件,不用一致也无所谓了。
在追求完美电子版上,我确实花了不少时间。找,点开 Z-Library 的每一条结果看质量,改,参考电商平台的评论图片修改。目前在这两件事上超过实际看书的时间,也知道是有点浪费时间最后会留在脑中的只会是精炼的那么几句话,但找本 epub 转的直接看我实在接受不了,放弃的阻力远大于修改了。
还一个问题是 PDF 的标注迁移,在遥远的未来技术力提升后(会的吧)允许移动吧。
港版的书,版权页在最后一页?嗯,有些
台版的书
国内的也有少数是在最后一页的吗
连 IA 的扫描书,封面也是前和后的,扫描的书,
扫描版 PDF
自扫的 PDF,质量太高,文件体积太大也是问题。
PDF Tools
OCR
说“DPI” - strnghrs - 博客园
PDG科普篇 - strnghrs - 博客园
ABBYY FineReader PDF 16 的 OCR 识别效果最佳,但是在识别大尺寸文件时有些页面的 text layer 莫名的挤在中心的一小块区域,无法使用又好又快的 OCR 软件有点可惜。
大模型给出的原因可能是 DPI 导致的定位问题,不过既然是大小的问题那就想办法修改大小。合成 PDF 时会讲图片 DPI 转化为它自己的单位“用户单位”,显示的时候又显示为 DPI,这对用户好像没什么区别。
扫描 PDF 是一种逆向
第一步从物理的书籍到数字的图片,高 DPI 的扫描仪可以用更多的像素展现一英寸里的信息,这样更精细,更清晰。从独秀下载的 ZIP 文件,每一页的扫描图片都存为了一份 PDG 文件,有的可以直接改后缀为 PNG 验证。
第二步把图片转换为 PDF,上面提到的尺寸过大,应该是在这一步产生的。大多数软件无法自定义 DPI,有些默认 72 DPI 分分钟上 30 inch。
思路是把图片拿回来再指定 DPI 重新生成 PDF。PDF 24 中有两个选项 PDF to Images 和
Extract PDF Images 要好好体会一下。
由于 ABBYY Finereader PDF 16 存在处理大尺寸 PDF 的 BUG,而大多的读秀 PDF 都是大尺寸,不确定性让我没法用它的优秀 PDF 识别能力。突然发现 PDF 24 里可以先 Extract PDF images 再 Image to PDF 时修改 DPI 来实现修改 PDF 尺寸的效果。但是发现提取出的图片如果是 jpg 格式的没什么问题,它还能自带 扫描 DPI 信息。但有的文件是 PNG,PNG 格式的图片体积较大导致合成后的 PDF 体积也巨增,得不偿失。最后还是决定放弃了,至此不再尝试修改 PDF。
也许折腾的时间不如买一本寄送扫描,PDF 相关的工具也没有完善的。
读秀扫描存档的文件也可以是 ZIP 啊,在合成 PDF 的时候就设置好 DPI。