什么是PDF格式

字数统计: 1k | 阅读时长≈ 3 分钟

查看PDF的底层原理，已经为什么R 语言里的 pdf() 和 cairo_pdf() 内存占用不同。

要真正理解为什么 R 语言里的 pdf() 和 cairo_pdf() 内存占用不同，我们确实需要揭开 PDF 的底层原理。

简单来说，PDF（Portable Document Format，便携式文档格式）本质上不是一张“图”，而是一个“指令集”或“脚本”。

当你用 Adobe Reader 或浏览器打开一个 PDF 时，你的电脑其实是在实时执行这个脚本，把里面的指令“翻译”成屏幕上的像素。

1. PDF 里面到底装了什么？

一个标准的 PDF 文件内部，其实是由一系列结构化的文本指令组成的。对于我们在 R 里画的图表，PDF 里面记录的核心内容主要有三类：

举个直观的例子： 如果你在 R 里画了一个红色的圆，PDF 文件里并没有一个红色的圆形像素图片。它里面写的是一行行类似这样的代码：

1
2
3

1 0 0 rg  % 设置填充色为红色
50 50 10 0 360 arc % 在(50,50)画一个半径为10的圆弧
fill % 填充这个圆

因为只记录“怎么画”，所以无论你怎么放大，它都能保持绝对清晰（这就是矢量图无限放大的原理）。

理解了 PDF 是指令集，你就能明白内存差异的根源了。

假设你的曼哈顿图有 100万个 SNP 数据点。

原生 pdf() 的逻辑非常直白。它看到 R 传来一个点，就立刻在 PDF 文件里写下一行指令： 10 20 1 m 1 1 1 rg 0.5 0.5 0.5 re f % 画个小黑点 写完这行，它就把这个点从内存里忘掉，接着处理下一个点。

cairo_pdf() 背后是强大的 Cairo 图形引擎。它的目标不仅是生成文件，还要保证极致的渲染质量。当它遇到 100 万个点时，它会做很多额外的工作：

也就是说，在生成最终 PDF 之前，cairo_pdf() 试图在内存中构建一个包含 100 万个高精度图形对象的完整模型。这就是为什么它会瞬间吃掉你几十 GB 内存，最终导致 OOM（内存溢出）崩溃的原因。

所以，当你面对海量数据时，原生 pdf() 这种“只记指令、不算特效”的极简方式，才是拯救内存的唯一出路。