统计学方法在药学研发、生产与质量管理中的应用应用统计学-爱华网

统计学方法在药学研发、生产与质量管理中的应用

代骏豪，郑强

（北京大学药物信息与工程研究中心，北京大学工学院工业工程与管理系，北京 100871）

DAI Jun-hao, ZHENG Qiang

(Center for Pharmaceutical Information andEngineering Research, Peking University, Beijing 100871, China;Department of Industry Engineering and Management, College ofEngineering, Peking University, Beijing 100871, China)

[摘要]本文综述统计学在药品的化学、生产、控制和质量管理中的应用，涵盖试验设计，配方和工艺优化，稳定性研究和有效期确定，分析方法验证，中间控制和放行标准制定，工艺和质量监测，取样方案。综述关注统计学方法与制药领域应用的联系，系统地梳理了统计学方法对制药领域具体问题的适用性，以及监管部门对统计学应用的要求和引导。

[关键词] 统计学；化学、生产、控制；质量；试验设计；制药应用

Application of Statistics Methodology inPharmaceutical R&D, Manufacturing and Quality Management

[Abstract] A review of pharmaceutical applicationsof statistics of chemistry, manufacturing, control and qualitymanagement, including topics of experimental design, formulationand process optimization, stability study and shelf lifedetermination, analytical method validation, in-process control andreleasing specification determination, process and qualitymonitoring, and sampling. The review focuses on the linkage betweenthe methodology of statistics and the pharmaceutical application,aiming to gain understanding on how to choose proper statisticalmethods for particular tasks. The relationship between the usage ofstatistics and the regulatory requirement and encouragement is alsopresented.

[Key words] statistics; chemistry, manufacturing,control; quality; design of experiment, pharmaceuticalapplication

监管科学是关于发展新工具、标准及方式来评估药物安全性、有效性、质量可控性及效用的科学，是基于量化数据的科学。药物的安全性和有效性，往往是基于临床试验或观测数据，与这类数据相关的试验设计及分析方法是生物统计学范畴，无论在学术界和企业界都受到长期和积极的关注。相比之下，与药物的配方和工艺研究、生产与质量管理相关的统计学应用，虽然历史悠久，但学术界和企业界的重视程度一直偏低。这种重视程度的差别可能与药品监管部门在注册审评及上市后监管方面对统计学应用要求的高低有关。

随着仿制药（又名“通用名药”或“学名药”）在整个药品处方量中所占比例的逐年提高（2013年美国市场的仿制药处方量占总处方量的84%^[1]），各国监管部门对与药学研发、生产与质量管理领域的统计学要求也逐渐提高。部分原因是仿制药的安全问题主要源于药学研发与生产中的质量问题。

同时，与原研药和品牌药相比，仿制药是薄利多销产业，成本控制至关重要。在全球劳动力和原料成本日益增高的大趋势下，企业自身也有内在的动力在保证质量和合规的前提下，降低研发和生产成本。而统计学方法是已被传统制造业证明有效的解决方法。

在监管要求和企业自身动因的驱动下，预期统计学方法在药学研究和生产质量管理方面的应用会迎来快速发展阶段。

从我们自己的教学与研究中发现，国内企业和药品监管部门广泛使用统计学工具^[2][3][4][5]，但对工具所基于的前提条件、何时该使用何种工具收集哪些数据、使用时应重点关注的点等，并不熟悉。因此，难以看清形式上复杂的数学公式中关键变量和参数所代表的实际意义，难以真正达到使用统计学方法的目的。

本文第一部分综述美国的法规政策要求。第二部分综述常用的统计学方法。第三部分综述现阶段常见的统计学应用。

1 涉及的法规政策

2002年8月，美国食品药品管理局（FDA，Food and DrugAdministration）启动了“21世纪《药品生产质量管理规范》（CGMP，Current Good ManufacturingPractice）”计划^[6]。此后，FDA相继采纳发布了人用药品注册技术要求国际协调会（ICH，InternationalConference on Harmonization）指南Q8《药品开发》^[7]，Q9《质量风险管理》^[8]和Q10《药品质量体系》^[9]，最终于2011年发布了《工艺验证：一般原则与规范》指南^[10]（后文简称“《工艺验证》指南”）。Q8中提到，“保证药品质量不能依靠检验，而应当将质量设计于药品之中”。Q9中建议，“使用统计学工具支持和促进质量风险管理，帮助做出更可靠的决策。”Q10中建议，“生产企业应当运用统计学工具，识别影响工艺性能和产品质量的变异（variation）来源，持续改进地减少或控制变异”。《工艺验证》指南将“工艺验证”的概念重新定义为，“收集和评估从工艺设计到商业化生产全过程的数据，用于建立科学的证据，保证工艺有能力持续地生产出质量有保障的产品”。这些行动表明，美国的药品质量监管政策正在从传统的“检验合格”^[11]（testto compliance）转向“质量源于设计”（QbD，Quality byDesign），重视在药品开发和生产中使用量化的证据。这样的转变将促使统计学的应用形成规范，而非企业的自由实践。

《美国联邦法规》（CFR，Code of FederalRegulations），FDA发布的行业指南和采纳发布的ICH指南，以及美国药典（USP，The United StatesPharmacopeia）发布的标准均涉及统计学方法的建议和要求。

CFR第21卷210^[12]、211^[13]部分（21CFR 210–211）CGMP是《联邦食品、药品和化妆品法案》（FDCA，Federal Food, Drug, andCosmetic Act）第501(a)(2)(B)和701(a)条授权下具有法律约束力的行政规章，法规中直接提到对稳定性研究和有效期确定、分析方法验证、中间控制和放行标准制定、工艺和质量监测、取样等方面的统计学要求^[14]。

FDA发布的行业指南是CGMP法规的实施指导。FDA发布的指南和采纳发布的ICH指南涉及配方和工艺优化、稳定性研究和有效期确定、分析方法验证、中间控制和放行标准制定、工艺和质量监测和取样等方面的统计学要求。其中，《工艺验证》指南建议工艺验证团队中包含统计学人员，“强烈建议”企业应用统计学等客观度量方法识别和刻画变异，在工艺验证方案中描述用于分析收集数据的统计学方法，定义批内和批间变异的统计学指标。

USP的标准制定也有统计学考虑。美国药典委员会下设统计学专家委员会，负责开展药典附录的编纂工作，帮助药典使用者正确地运用统计学工具处理数据，不断改进和完善现有附录中与统计学数据处理相关的附录，确保药典中所有标准的制定和更新都建立在可靠的科学和统计学原则之上，并为其它专业委员会提供统计学及生物统计学方面的支持^[15]。

表1 各应用方面的监管要求、主要法规政策和常用统计学方法
应用方面	监管要求	主要法规政策	常用统计学方法
配方和工艺优化	在配方和工艺开发中运用试验设计的方法理解产品和工艺。确定物料属性和工艺参数与关键质量属性的关系，系统地识别变异来源	FDA指南《工艺分析技术》 ICH指南Q8（R2） ICH指南Q11	试验设计
稳定性研究和有效期确定	样本量和检验间隔基于统计学标准，以保证对稳定性合理的估计	21 CFR 211.166 ICH指南Q1A(R2) ICH指南Q1D ICH指南Q1E ICH指南Q5C	试验设计
分析方法验证	证明和记录检验方法精密度、灵敏度、专一性和重复性	21 CFR 211.165 ICH指南Q2(R1)	试验设计
中间控制和放行标准制定	合理的中间控制质量标准应当运用恰当的统计学方法确定，放行标准应保证药品批次满足恰当的质量标准和统计质量控制标准	21 CFR 211.110 21 CFR 211.165 USP 37	统计工艺控制验收取样
工艺和质量监测	收集物料、中间产品和成品的质量数据，通过统计工艺控制方法持续监控工艺趋势，评价工艺能力	21 CFR 211.110 FDA指南《工艺分析技术》 FDA指南《药品CGMP法规的质量体系方法》 FDA指南《工艺验证》 ICH指南Q8（R2）	统计工艺控制
取样方案	取样容器数和每个容器应取的物料量，应当依据恰当的标准，如变异性、置信区间、精确度等统计学标准	21 CFR 211.84 FDA指南《工艺验证》	验收取样

1.1 配方和工艺优化

FDA《工艺分析技术——创新药品开发、生产和质量保证的框架》指南^[16]建议，对于配方和工艺的知识来自于对多因子关系的科学理解，可以得益于运用多变量数学方法，如试验设计，响应曲面等方法。数学关系和模型知识的适用性、可靠性可以通过对模型预测能力的全面统计学评估得到。ICH指南Q8（R2）《药品开发》提出“质量源于设计”的理念，建议在配方和工艺开发中运用试验设计的方法理解产品和工艺。Q11《原料药开发和生产》^[17]建议，通过试验设计的方法识别和确定物料属性和工艺参数与关键质量属性的关系，系统地识别变异来源。

1.2 稳定性研究和有效期确定

21 CFR 211.166小节“稳定性研究”要求，“样本量和检验间隔应当基于统计学标准，以保证对稳定性合理的估计。”ICH指南Q1A(R2)^[18]《新原料药和制剂的稳定性研究》，Q1D^[19]《括弧法和矩阵法设计应用于新原料药和制剂的稳定性研究》，Q1E^[20]《评估稳定性数据》和Q5C^[21]《生物技术产品的质量：生物技术产品和生物制品的稳定性研究》均涉及稳定性研究的统计学考虑。

1.3 分析方法验证

21 CFR 211.165小节“成品检验和放行”要求，“证明和记录分析方法的精密度、灵敏度、专一性和重复性”。FDA《治疗性蛋白免疫原性分析方法开发》指南草案^[22]中建议，应当采用统计学方法，通过阴性对照样本确定分析方法的临界点。《生物分析方法验证》指南草案^[23]建议，响应方程通过恰当的统计学检验。《药品和生物制品的分析流程和分析方法验证》指南草案^[24]建议，运用统计学方法分析验证数据、对比分析方法。ICH指南Q2(R1)《分析方法验证：文本和方法论》^[25]涉及分析方法验证的统计学考虑。

1.4 中间控制和放行标准制定

21 CFR 211.110小节“中间产品和成品取样和检验”要求，“合理的中间控制质量标准应当与药品最终质量标准一致。如果可能，应当由历史中可接受的工艺均值和变异估计得到。适用时，应当运用恰当的统计学方法确定。”211.165小节“成品检验和放行”要求，“质量部门的取样和检验的接受标准应恰当地保证药品批次满足每一项恰当的质量标准和统计质量控制标准，作为批准放行的条件。统计质量控制标准应当包含恰当的接受水平和（或）拒绝水平。”USP37凡例中说明，“个论、附录和凡例有关的标准，从药品生产到有效期期间的所有时间都适用。生产者的质量标准，CGMP实践（包括诸如质量源于设计的提议）都必须保证药品在有效期内符合药典标准。也就意味着，药典收录的药品一旦经过药典流程检验，必须符合标准以表明合规。尽管有时药典标准涉及统计学流程，取多个样本，通过顺序的流程设计确定被测样本是否符合标准，但所有情况下，关于是否符合药典标准的结论都只适用于被检验的样本。检验的重复，统计学拒绝异常值，将检验结果外推到更大范围，合适的批检验频率，都不在USP中论述。企业可以根据药品特征，制定适合于风险的中间控制和放行标准，在一定的置信度上保证药品凡经检验，都符合标准。”^[26]

1.5 工艺和质量监测

21 CFR 211.110小节“中间产品和成品取样和检验”要求，“应当建立书面的中间控制规程，对每批产品的中间物料取样检验，监测可能对中间物料和药品质量属性带来变异工艺。”FDA《工艺分析技术——创新药品开发、生产和质量保证的框架》指南建议，多变量统计工艺控制可以发挥实时测量的优势。《药品CGMP法规的质量体系途径》指南^[27]建议，通过统计工艺控制方法持续识别和评估工艺趋势。《正电子放射断层造影剂——CGMP》指南^[28]建议，恰当的实验室控制可以采用统计工艺控制的方法对质量属性连续地监测。《工艺验证》指南建议，在日常生产中持续地收集相关工艺趋势，物料、中间产品和成品的质量数据，由经专门训练的人员负责统计学趋势分析并审核。建议由统计学家或受过充分的统计工艺控制技能训练的人员制定数据收集方案和用于衡量工艺稳定性和工艺能力的统计学方法和流程。ICH指南Q8（R2）《药品开发》指南建议，在生产中运用统计工艺控制的方法监测生产工艺。Q9《质量风险管理》列出建议使用的常用统计学工具，包括控制图，工艺能力分析等。

1.6 取样方案

21 CFR 211.84小节“物料取样和检验”要求，“取样容器数和每个容器应取的物料量，应当依据恰当的标准，如成分变异性、置信区间、精确度等统计学标准。”FDA《工艺验证》指南中建议，取样样本量应足以达到充分的统计学置信程度，保证批内和批间质量。

2 常用统计学方法

试验设计（DoE，Design ofExperiments）、统计工艺控制（SPC，Statistical ProcessControl）和验收取样（acceptancesampling）分别是“质量源于设计”，“质量源于生产”和“质量源于检验”三个质量管理阶段的主要统计学方法。

2.1 试验设计

试验设计是“质量源于设计”阶段常用的质量管理方法，用于研究影响因子（factor）和响应变量（response）的关系。试验中干扰因子的存在使得即便将影响因子控制在相同水平，试验结果也无法精确重复。干扰因子可分为三类，第一类是可测且可控的干扰因子，例如在研究工艺参数对质量属性的影响时，原料批间差异的干扰。这类干扰可以通过区组设计等方法排除。第二类是可测而不可控（不论是技术原因还是成本考虑）的干扰因子，例如压片室环境湿度的变化。这类干扰可通过协方差分析等方法排除。第三类是不可测或不可知的干扰因子，可以看作工艺各个步骤中许多微小扰动引起的试验结果的随机波动。试验设计方法用于在干扰因子的存在下，用尽量少的试验数，得出影响因子与响应变量关系尽量可靠的结论。

试验设计按目的通常可分为两个阶段，第一阶段为因子筛选（screening）试验，用形式简单而精确度较低的数学模型，通过较少试验从候选因子中筛选出少数对响应变量有显著影响的重要因子。第二阶段为响应曲面（responsesurface）的刻画（characterization）试验，用较为复杂的数学模型，得到这些重要影响因子与响应变量较为精确的函数关系。

本节综述试验设计的基本原理和常用的设计^{[29][30][31][32]}。

2.1.1 基本原理

试验设计的基本原理是用经验模型近似影响因子和响应变量之间的真实函数关系。在经验模型中引入随机波动后成为统计模型。统计模型在一些前提假设上得到的统计学性质，用于指导试验点的选取，估计经验模型的参数并评估估计的精确性，评价经验模型选取的恰当性。

当影响因子为连续型变量时，经验模型可以用连续函数表示，用回归分析等统计学方法求解。而当影响因子为非连续型变量时，经验模型不是连续方程，需要用方差分析等统计学流程解决。

A. 连续型变量试验设计

研究因子x₁（例如，压片速度）和x₂（例如，压片压力），对响应变量y（例如，30分钟溶出度）的影响。控制其余条件不变，影响因子x₁，x₂和响应变量y的关系可以用函数y=g(x₁,x₂)表示。一般地，y和f个因子的相关关系，可以用函数y=g(x₁,x₂..., x_f)表示。多数情况下，真实的函数关系未知，需要选取恰当的函数形式近似。最简单的经验模型只包含常数项和一次项系数：（1）

其中，n是试验数。x_ij称为第i个试验中第j个因子的取值水平，共f个因子。y₁是对应的响应变量取值。参数β₀和β_j分别是经验模型的常数项和一次项系数，共p=f1个参数。将随机波动记作随机误差ε_i，（1）式改写为统计模型：

（2）

用矩阵形式表示：

（3）

其中，X是(n×p)矩阵，y是(n×1)向量，β是(p×1)向量，ε是(n×1)向量。当ε_i服从互不相关的、均值为零且方差Var(ε_i)=σ²的统计分布时，可求得β的最小二乘估计：

（4）

由n个试验的观测值计算得出，是随机向量，即在相同条件下重复n个试验，将得到新的值。的协方差矩阵Cov()衡量重复试验中得到的估计值在真实值β附近的波动大小：（5）

在随机波动大小σ²确定时，的协方差矩阵仅依赖于矩阵X，即试验设计中各因子水平的选取，不依赖于试验结果。下文将介绍的常用设计中因子水平的选取原则，均以的协方差矩阵为基础。特别当(X^TX)为对角矩阵时，参数的估计值之间相互独立，称设计具备正交性（orthogonality）。

进一步当ε_i服从正态分布时，β_j服从正态分布，可以构造参数β_j的置信区间，评价估计的精确度。也可以利用假设检验（一次试验得到的估计值_j是否比给定的边界值更极端，以至于不太可能在β_j=0成立时得到）、计算p值（在β_j=0成立时，出现比一次试验得到的估计值_j更极端结果的概率）等统计学流程，检验参数估计值的统计学显著性。参数_j统计学显著意味着有信心认为因子有不为零的效应（ _j≠0），效应大小是否有实际意义则需要结合实情判断。

得到估计值后，可以预测响应变量y在某点x=x₀处的平均响应 =。预测值是随机变量，服从均值为，方差为的正态分布。可以构造y(x₀)的置信区间（又称为“预测区间”），评价模型在x=x₀处预测平均响应值的精确度。预测精确度也是评价试验设计的重要指标。

注意，如果ε_i背离互不相关性或零均值、同方差前提，估计值将存在系统偏倚（bias）。如果ε_i背离正态性前提，置信区间、统计推断和预测区间等结论将不可靠。在得出结论前应当先检验模型假设的符合性。在一些不符合的情形下，可以尝试数据变换^[33]、改用更复杂的线性模型^[34]或改用广义线性模型^[35]等修正措施。

B. 非连续型变量的试验设计

研究因子A（例如，填充剂类型，乳糖、磷酸钙和微晶纤维素）和B（例如，压片机型号，甲、乙和丙），对响应变量y（例如，30分钟溶出度）的影响。由于A和B是非连续型变量，不能用连续函数表示与A和B的关系，常用效应模型表示：

（6）

其中，n是A和B所有水平组合的试验的重复次数。y_ijk是响应变量在第k次重复中，因子A在第i水平，因子B在第j水平时的取值。参数μ称为总均值效应。参数τ_i称为因子A在第i水平的主效应，共a水平。参数β_j称为因子B在第j水平的主效应，共b水平。参数(τβ)_ij称为τ_i与β_j的交互效应（interaction）。多于两因子的效应模型类似地包含总均值效应、主效应、交互效应和随机误差项。

当随机误差ε_ijk服从互不相关的、零均值且同方差σ²的正态分布时，可求得各参数的最小二乘估计。方差分析（ANOVA，ANalysisOfVAriance）等方法可以检验因子效应的统计学显著性，评价估计的精确度。在得出结论前同样应当先检验模型假设的符合性。

当因子有确切的取值水平时，称模型为固定效应模型（fixed effectmodel）。当因子的取值水平随机，称模型为随机效应模型（random effectmodel）。两类模型的统计学流程和解释均有差异。固定效应模型的结论只适用于参与研究的水平，而随机效应模型的结论可以外推到随机选取的任意水平，并可以通过方差成分分析（variancecomponent analysis）方法计算模型中各因子变异和随机误差分别对总变异的贡献。

例如，研究乳糖、磷酸钙和微晶纤维素三种填充剂类型的试验，适用于固定效应模型，结论只适用于参与研究的三种填充剂；而任选三个批次用于稳定性研究，适用于随机效应模型，结论可以外推到随机选取的其它批次。

2.1.2 因子筛选设计

因子筛选试验通过形式简单而精确度较低的经验模型，从候选因子中筛选出少数对响应变量有显著影响的因子。因子为连续型变量时，通常采用带常数项、一次项和交互效应项的经验模型：（7）

参数β₀，β_j，β_jk和β_jkl等分别是经验模型的常数项、一次项系数、一阶交互效应项系数和高阶交互效应项系数，共p=2^f个。参与研究的因子一般多于两个，因子取值一般仅两水平，所需试验数相对少。筛选试验的经验模型与真实函数的近似度不高，不宜用于预测响应变量的取值。

A. 两水平全析因设计

两水平全析因设计（2^fFD，FactorialDesign）适用于因子数较少的筛选试验，试验包含f个因子两水平取值的全部组合，试验数n=2^f 。

以三因子两水平全析因设计（2³设计）为例，2³设计共需要n=2³=8个试验，研究空间（各因子水平取值范围的几何表述形式）呈立方体，试验点（一次试验中，各因子水平的几何表述形式）是立方体的各顶点，如图1。取值-1和1分别代表因子的低水平和高水平值。在试验设计中使用规范变量-1和1对应于自然变量，一方面可以避免由于物理单位不同带来的干扰，另一方面规范变量更容易保证正交性。

图1 2³全析因设计的几何表述

带交互效应项的线性模型共2^f个参数，而2^f个试验只能求得一组确切的参数，无法估计随机误差ε_i，判断各参数估计值的统计学显著性。通过添加中心点、重复2^f个试验等手段可以得到随机误差的估计，但不引入额外试验的统计分析仍然可行，而且广泛应用。效应稀疏原则^[36]（sparsityof effectprinciple）假定模型中不为零的参数应当占少数，而其余本应为零的参数之所以在一次估计中显现出接近零而不为零的数值，是随机误差的体现，可用于估计随机误差。正态概率图、半正态概率图等定性方法结合定量方法，可以用于推断各模型参数的统计学显著性。

B. 两水平分式析因设计

两水平分式析因设计（ 2^f-rFFD，Fractional FactorialDesign）通过一套运算规则，将全析因设计分成2^r组，每组试验数为全析因设计的1/2^r。试验实际进行的组数和各组的优先顺序取决于对具体问题的理解和已经得到的试验结果。

以2^3-1FFD为例，选取因子A，B，C取值乘积为1的一组试验，这组试验数为2³试验的一半，称为生成元（generator）为I=ABC的主分式，几何表述如图2实心点。而生成元I=-ABC的设计称为I=ABC的互补（complementary）分式，几何表述如图2空心点。

图2 2^3-1全析因设计的几何表述

实心点：主分式I= ABC；空心点：互补分式I=-ABC

带交互效应项的线性模型共2^f个参数，而2^f-r个试验不可能求得一组确切的参数。FFD方法将模型中的参数按一定模式相互混淆（confound），常用分辨率（resolution）的概念评价模型一次项系数和一阶交互项系数的混淆程度。如果有把握确信部分参数的统计学显著性，则可以得到对其余参数的粗略估计。如果主分式的结果不足以得到明朗的结果，可以根据已开展试验的混淆模式，有针对地选择互补分式序贯地开展试验，消除不明朗的混淆。

C. Plackett-Burman设计

Plackett-Burman设计（PBD，Plackett-BurmanDesign）^[37]通过构造正交矩阵的方法，选取全析因设计中的部分试验，允许在试验数n为四的倍数时（如n=4,8,12,16,20,24…），研究至多n-1个因子的效应。当n=2^k=2^f^-r时，PBD等价于2^f^-r的FFD，所以PBD的应用场景在n=12,20,24,28,36的情况。

例如，36个试验的PBD可用于32、33、34和35个因子的筛选试验，但31因子的筛选试验则适用于2^31-26的FFD。

PBD要求的试验数少，保证一次项系数的正交性。等价于选用最简单的公式（1）模型来近似真实函数，精确度低。

2.1.3 响应曲面刻画设计

从筛选试验中得到对响应变量有显著影响的因子，将其中的类别型变量（如果有）取值固定在有利水平，而连续型变量参与响应曲面刻画试验，在指定的预测精确度要求下，得到这些因子与响应变量的函数关系。

响应曲面刻画试验设计与筛选试验设计的原理相同，并且可以在筛选试验的基础上序贯进行。响应曲面刻画试验的经验模型更为复杂，常采用带常数项、一次项、一阶交互效应项和的二阶响应曲面模型：

（8）

参数β₀，β_j，β_jk和β_jj分别是经验模型的常数项、一次项系数、一阶交互效应项系数和二次项系数，共p=(f²3f2)/2个。参与研究的因子一般为两到三个，因子取值水平多于两水平，所需试验数相对较多。响应曲面刻画试验的经验模型在研究空间内更接近真实函数，在评价预测误差后，可将模型用于预测研究空间内指定点处的平均响应，但不宜将模型适用性外推到研究空间之外。

A. 多水平全析因设计

多水平全析因设计（L^fFD）包含所有因子各水平取值的全部组合，试验数n=L^f。

以三因子三水平全析因设计（3³设计）为例，3³设计共需要n=3³=27个试验，研究空间呈立方体，试验点是各因子低（-1）、中（0）、高（1）三水平取值的组合，如图3。

图3 3³全析因设计的几何表述

多水平全析因设计的主要优点是正交性，缺点是试验规模庞大。例如，3³设计的模型共10个参数，用27个试验估计10个参数，不经济。

B. 中心复合设计

中心复合设计（CCD，Central CompositeDesign）是最常用的响应曲面刻画设计，可由一个两水平的全析因设计（2^f个试验）序贯产生。在两水平的全析因设计中加入星点设计（starpoint，又称为“轴点”，2f个试验）和n_c个中心点，试验数n=2^f 2fn_c。星点设计的试验点在穿过中心点的各因子轴上，取值水平为-α和α，|α|=1时，设计称为中心复合表面设计（FCCD，Face-centredCCD）。|α|=(2^f)^1/4时，设计称为可旋转的中心复合设计（RCCD，RotatableCCD）。

以三因子的CCD为例，CCD包含2³全析因设计，试验点是各因子低（-1）、高（1）两水平取值的组合。星点设计在穿过中心点的各因子轴上，取值水平为-α和α。|α|=1时为FCCD，几何表述如图4A。|α|=2^3/4时为RCCD，几何表述如图4B。

RCCD的优点是，对于研究空间内所有与中心点等距的试验点，响应变量的预测方差相等。而缺点是每个因子有五个试验水平，相比FCCD复杂。

图4 三因子中心复合表面设计和可旋转的中心复合设计的几何表述

A：中心复合表面设计；B：可旋转的中心复合设计

C. 三因子Box-Behnken设计

三因子Box-Behnken设计^[38]（BBD，Box-BehnkenDesign）试验点位于2³全析因设计所构造的立方体棱的中点，加上n_c个中心点，试验数n=12n_c。图5展示了三因子的BBD的几何表述。当立方体顶点处因条件限制不能作为试验点时，BBD就显示出优势。

图5 三因子Box-Behnken设计的几何表述

D. 均匀外壳设计

均匀外壳设计^[39]（USD，UniformShellDesign）又称为“Doehlert设计”，常见两因子和三因子的USD。两因子USD的试验点在研究空间内呈正六边形，试验数n=7。而三因子USD的试验点呈立方八面体，试验数n=13。

图6展示了两因子USD的几何表述。以正六边形外接圆圆心为试验中心点。中心点与外接圆上所有试验点等距，且圆上所有试验点之间等距。三因子USD具有类似性质。

图6 两因子均匀外壳设计的几何表述和研究空间拓展优势的示意图

USD的优点在于，其研究空间易向多个方向拓展，而不用重新开展所有试验。图6展示了两因子USD设计研究空间的拓展优势。向六个方向拓展，只需要做三个额外的试验。

2.1.4 最优设计

前文介绍的经典设计，试验点在研究空间内均有固定的分布样式。当实际情况限制使用任何经典设计时，可以从研究空间中可行的候选试验点中选取部分开展试验。一些统计学标准提供了选取试验点的依据，这些设计被称为最优设计（OD，OptimalDesign）。其中，D-最优设计^[40]最常见，遵循D-最优标准的设计对模型参数的估计有最大的“整体精度”。

β的联合置信区间衡量估计值的精确度。在给定置信度下，β的联合置信区间边界，对于两个参数为椭圆（图7），对于三个参数为椭圆体，对于三个以上参数，可想象为高维空间中的超椭圆体。超椭圆体体积衡量参数估计的整体精度。

图7 2个参数数在一次估计中构造的联合置信区间示意图

A：参数估计值间独立（正交）；B：参数估计值间相关（非正交）

在其余条件不变时，超椭圆体体积的平方正比于矩阵(X^TX)^-1的行列式|(X^TX)^-1|。从研究空间中的候选试验点中选取n个试验点，其中使得|(X^TX)^-1|最小的组合称为试验数为n时的D-最优设计。D-最优设计常用于因子筛选和响应曲面刻画。

2.1.5 混料设计

在混料设计^[41]（MD，MixtureDesign）中，因子为各成分占比。各成分占比不能在研究空间内自由取值，代数和应为100%。如果对各成分占比没有单独的约束，则最常用单纯型混料设计^[42]（SMD，SimplexMixture Design，又称为“Scheffe’s设计”）。

对于f个成分，SMD研究空间可以用（f-1）维空间的正f面体表示。例如，两成分的研究空间为一条线段，三成分为正三角形，四成分为正四面体。图8展示了三成分混料设计几何表述的坐标系统。正三角形顶点代表单一成分，三边代表两种成分的混合，正三角形内任意点代表三种成分的混合。混合物中某成分的占比等于试验点到该成分顶点对边的距离与正三角形高之比。

图8 三成分混料设计几何表述的坐标系统

SMD根据试验点的选取规则可分为两类，单纯型网格设计（simplex latticedesign）和单纯型重心设计（simplex centroid design）。

f个成分的{f,m}单纯型网格设计的试验点由每个成分以下占比的所有可能的组合构成，共n=(fm-1)/m!(f-1)!个试验点。

如{3,2}的单纯型网格设计，

六个试验点分别为：

图9A展示了{3,2}单纯型网格设计的几何表述。

f个成分的单纯型重心设计有2^f-1个试验点，对应(1,0,...,0)的f个组合，的个组合，的个组合，以此类推，最后一项为重心。图9B展示了f=3的单纯型重心设计的几何表述。

图9 三成分单纯型网格设计和单纯型重心设计的几何表述

A：{3,2}单纯型网格设计；B：f=3单纯型重心设计

混料设计常用的经验模型包括：

一阶模型：

（9）

二阶模型：

（10）

完全三阶模型：

（11）

特殊三阶模型：

（12）

所有模型均包含的约束。成分筛选时可使用一阶模型等简单模型，而成分刻画则应当选取精度更高的高阶模型。

如果各成分占比有单独约束，例如设定每个成分占比的上下限，常根据个案，用极端顶点设计（extremevertices design）和D-最优设计等方法选取试验点。

2.1.6 试验设计的其它考虑点

尽管一些计算机软件可以辅助生成试验设计方案、分析试验结果，但影响试验结论可靠性的一些关键因素取决于试验设计者而非软件，这些因素包括对配方和工艺中具体问题的理解，选取合适的响应变量、影响因子和研究空间，并选择恰当的模型和设计方案。

2.1.1至2.1.5小结综述了试验设计的基本原理以及经典的模型和设计，但可选用的模型、设计和方法论不限于此。如调优运算理论^[43][44]（evolutionaryoperation）主张可以不专门开展试验，通过正常生产中对影响因子有计划地微小调整，估计出因子的效应。超饱和设计^[45]（super-saturateddesign）允许试验数少于需要估计的参数个数，得出对参数尽量可靠的估计。需要同时优化多个响应变量时，可以用满意度函数^[46]（desirabilityfunction）等方法。

试验中如果存在的可测且可控的干扰因子，区组设计（blocking）可以检验和排除干扰，经典的区组设计包括成组t检验（paired ttest），随机化完全区组设计，拉丁方设计，希腊-拉丁方设计，平衡不完全区组设计，嵌套和裂区设计等（nested andsplit-plot design）等。试验中如果存在的可测而不可控的干扰因子，协方差分析（ANCOVA，ANalysis ofCOVAriance）等方法可用于检验和排除干扰^[47]。

2.2 统计工艺控制

统计工艺控制是“质量源于生产”阶段常用的质量管理方法。生产过程中始终存在生产工艺和产品质量的波动，这些波动可分为固有的自然波动，和因物料不良、人员疏失、机械故障等引起的异常波动。控制图（controlchart）是统计工艺控制的核心方法，用于监测和识别异常波动，指导人为调查干预或自动反馈控制，使工艺保持在仅有自然波动的受控状态，并促使工艺能力持续改进。控制图理论最早于20世纪20年代由Shewhart提出，一系列原理类似的控制图被统称为Shewhart控制图。本节综述Shewhart控制图的基本原理，以及常用的Shewhart控制图和复杂控制图。

2.2.1 基本原理

Shewhart控制图的原理是基于样本的统计推断，核心思想是方差分析。例如，考察经压片工艺得到的片芯重量y（g），假设片芯重量符合统计模型：

（13）

其中，a是取样次数，n是每次取样的样本量。x_ij是第i时刻取样的第j片片芯重量。μ是稳定工艺下的总平均片重。τ_i是第i时刻工艺相对于μ的偏移量。ε_i是随机误差项。如果取样的各个时刻没有发生异常波动，则不同时刻的样本之间，片重平均值的波动应当是自然波动以取样误差形式的体现，可以通过方差分析等方法检验。控制图理论是上述统计模型的可视化表现和发展。建立控制图的一般流程为：

（1）确定控制图类型、控制的参数h（例如样本中片重的平均值、方差、标准差、极差等）、取样间隔t、取样次数a和每次取样的样本量n；

（2）开展生产，按取样方案取样、检验并记录结果（或从历史数据中得到）；

（3）按照规程计算中心线（CL，Central Line）、控制下限（LCL，LowerControl Limit）和控制上限（UCL，Upper Control Limit）；

（4）检查是否有任何点超出控制限，或显现出有规律的图样^[48]，从而揭示可能的异常波动和异常趋势。调查确定异常波动的发生及来源，去除超出控制限的点后，重新计算CL，LCL和UCL；

（5）重复（4），直到所有点落在控制限内，完成控制图的建立；

（6）用建立的控制图监测工艺，如果后续点不存在异常波动或异常趋势，则称工艺处在“统计工艺受控状态”。

控制图理论以取样和统计推断为基础，无法避免两类统计学错误发生。第I类错误是误报错误（又称假阳性、生产者风险），即某次取样得到超出控制限的结果，但实际上工艺并无异常情况发生。得到超出控制限的结果完全是由取样误差引起的极端偶然事件，这一类错误将耗费调查异常情况的资源，将发生率记作α。第II类错误是漏报错误（又称假阴性、消费者风险），即虽然已经发生异常情况，参数h发生了大小为Δh的偏离，但取样仍然有可能得到在控制限内的结果。这一类错误可能给下游生产和最终消费者带来质量风险，将发生率记作β。

对于正态分布的ε_i，实践中常根据“3σ控制限”的原则建立控制限，即将控制上下限设定在距离中心线3σ处，此时有确定的误报率α≈0.0027。应当根据对产品和工艺的认识、质量属性的关键程度，选择恰当的取样间隔t、取样次数a和样本量n制定控制图，将两类统计学错误控制在与风险相适应的合理范围内。

2.2.2 控制图

A. Shewhart控制图

Shewhart控制图适用于监测较大工艺漂移（≥1.5σ），根据样品检验结果的变量类型可分为连续型变量的Shewhart控制图（表2）和类别型变量的Shewhart控制图（表3）。

表2 监测连续型变量、较大工艺漂移常用的Shewhart控制图
类型	观测参数	样本量	统计分布
-R	一次取样检验中工艺或质量指标观测值的均值和极差	通常1≤n≤10	（渐近）正态分布
-s	一次取样检验中工艺或质量指标观测值的均值和标准差	通常n＞10	（渐近）正态分布
I-MR	一次取样检验中工艺或质量指单独观测值和移动极差	n=1	正态分布

表3监测类别型变量、较大工艺漂移常用的Shewhart控制图
类型	观测参数	样本量	统计分布
p	一次取样得到的n个样品中，不合格样品百分比	n＞1 样本量可变	二项分布，渐近正态分布
np	一次取样得到的n个样品中的不合格样品数	n＞1 样本量固定	二项分布，渐近正态分布
c	一次取样得到的n个样品中的缺陷个数，一个样品可以存在多个缺陷	n＞1 样本量固定	泊松分布，渐近正态分布
u	单位样本量的缺陷个数，一个样品可以存在多个缺陷	n＞1 样本量可变	泊松分布，渐近正态分布

B. 其它控制图

累积和控制图^[49]（CuSum，CumulativeSum）和指数加权移动平均控制图^[50]（EWMA，Exponentially-WeightedMoving Average）用于监测微小工艺漂移^[51]（＜1.5σ），正日益受到重视。两种方法不仅计算当前样本的观测值，还将历史样本的观测值累积考虑，故对微小工艺漂移的监测比Shewhart控制图更加敏感，但对较大漂移和个别异常点而言，CuSum和EWMA控制图不如Shewhart控制图有效。

对于随机误差互不独立的自相关参数，可根据自回归移动平均模型（ARIMA，AutoregressiveIntegrated Moving Averagemodel）等时间序列模型，或移动中心线指数加权移动平均控制图（MC-EWMA，Moving Center-lineEWMA）等方法建立控制图^[52]。

对于多个相互相关的变量，可以采用多元控制图方法同时控制。多元控制图是Shewhart控制图的推广形式，基于随机向量X服从多元正态分布的假设，用类似的统计学方法可以得到相应的多元均值控制图（HotellingT²控制图）、广义方差（generalized variance）控制图^[53][54]、多元单值控制图^[55]、多元CuSum控制图^[56]和多元EWMA控制图^[57]等。在变量数目多且相关关系复杂的情况下，可以先通过主成分分析等降维方法，构造相互独立的隐性变量（latentvariable），再根据隐性变量的统计分布建立控制图。多元控制图的可靠性通常需要大量数据的支持，适用于能够在线测得大量数据的情形。

2.2.3 工艺能力

工艺能力（processcapability）衡量生产工艺满足质量标准的能力，常用工艺能力指数（process capabilityindex）和工艺性能指数（process performance index）等指标衡量^[58]。

A. 工艺能力指数

工艺能力指数又称短期工艺能力，常用C_p和C_pk两种。C_p衡量质量标准限宽度相对工艺自然波动的大小，计算公式为：

（14）

其中，LSL和USL分别是质量标准下限（LSL，Lower SpecificationLimit）和质量标准下限（USL，Upper Specification Limit）。σ是工艺自然波动的标准差。

当工艺均值处在质量标准中心线时，C_p值与工艺理论不合格率对应。C_p=1意味着质量标准限在工艺均值上下3σ的位置，即与控制图的3σ控制限重合，对应理论不合格率2700ppm（百万分之，partpermillion）。C_p=2意味着质量标准限在工艺均值上下6σ的位置，对应理论不合格率0.0018ppm，是所谓的“6σ质量”。

由于σ未知，用a次取样得到的a个样本内标准差或极差的平均值加以修正估计σ。得到工艺能力指数的估计值，

（15）

注意，是随机变量，服从特定的统计分布，所以不仅应当报告C_p的估计值，还应当通过构造C_p的置信区间等方法报告估计的精确度。

还应当注意，C_p指标能够反应真实工艺能力的前提是，工艺均值处在质量标准中心线，工艺处在统计学受控状态，且质量属性的单个观测值服从正态分布。在工艺均值偏离质量标准中心线时，C_p与理论不合格率没有对应关系，不能反映真实工艺能力，可以看作将工艺均值调整到质量标准中心线后潜在能够达到的工艺能力。当不满足统计受控和正态分布前提时，C_p指标将不能提供对真实工艺能力的估计，和对未来工艺能力的预期。

在质量标准中心线和控制图中心线不重叠时，可以用C_pk衡量工艺能力：

（16）

其中，μ是工艺均值，σ是工艺自然波动的标准差。同样注意，不仅应当报告C_pk的估计值，还应当报告估计的精确度。C_pk指标能够反应真实工艺能力的前提是，工艺处在统计学受控状态，且质量属性的单个观测值服从正态分布。

B. 工艺性能指数

工艺性能指数又称长期工艺能力，常用P_p和P_pk两种，计算公式分别与C_p和C_pk相同，区别在于估计σ的方法。P_p和P_pk进一步放弃了工艺处在统计受控状态的前提，将所有取样观测值合并，计算一个标准差，加以修正用于估计。

P_p和P_pk也是统计软件常报告的指标，但解释能力有限。在工艺不处在统计受控状态时，P_p和P_pk只能提供回顾性结论，并不能提供对未来工艺能力的预期。

2.2.4 统计工艺控制的其它考虑点

构造Shewhart控制图和评价工艺能力时，如果质量属性的单个观测值不满足正态性，在确证并非由于异常波动导致后，可以采取数据变换等手段，将原始数据变换为正态数据后处理。在无法确证非正态性的成因时采用数据变换手段处理，是不恰当的。

将Shewhart控制图结合WesternElectric等敏感化规则（例如，连续八点在控制中心线同侧，连续六点单调上升或下降等）使用于监测微小工艺飘移将增加误报率^[59]，建议仅在建立控制图阶段排除异常波动和异常趋势时使用这些规则。监测微小工艺飘移，采用CuSum和EWMA控制图更合适。

尽管一些计算机软件可以辅助生成控制图，报告工艺能力，但对工艺能力的解释应当谨慎^[60]，确保满足指标的前提，并给出工艺能力的区间估计。例如，从一个稳定的工艺中，通过若干次取样得到总共20个观测值估计得到=1.33，似乎工艺能力充足。构造其显著水平α=0.05下的置信区间0.88≤C_pk≤1.78。可以看出，基于20个观测的小样本得到=1.33的结论并不可靠，几乎不能提供关于工艺能力真实水平的任何信息。

评价工艺能力是否充足没有统一的标准^[61]，应当根据具体工艺的质量风险和对工艺的理解程度，将工艺能力控制在与之适应的水平。

除C_p，C_pk和P_p，P_pk外，还有C_pm，C_pkm，P_pm，P_pkm等工艺能力指标。但用一个单值指标综合衡量工艺相对于质量标准的中心性和稳健性两方面能力，始终会损失部分信息。这些指标对于两方面能力权重处理不同，故不同指标间通常不能相互比较。

2.3 验收取样理论

验收取样是二十世纪三十到四十年代“质量源于检验”阶段常用的质量管理方法。验收取样不能从根本上保证质量，只能作为预防严重质量偏离发生的最后一道防线。

验收取样方法是根据取样结果和预先设定的判别标准，决定放行或拒收批次的决策理论，理论依据是概率分布。验收取样方案根据质量属性的类别型或连续型可以分为计数取样（inspectionby attributes）和计量取样（inspection byvariables）。本节分别介绍一阶段计数和计量取样的基本原理。

2.3.1 计数取样

一阶段取样方案（取样一次，判断一次）：一批产品批量为N，不合格率为p（p未知），从中随机抽取n个样品检验，每个样品的检验结果为合格与不合格两种。规定取到不合格样品数d不超过某个预先设定的判别标准c则放行批次，反之拒收。

取到不合格样品数d为随机变量，可以取0,1,2, …,min(n,Np)（Np取整数）中任意值，服从超几何分布（hypergeometricdistribution）。取到小于等于c个不合格样品的概率即为放行批次的概率。在取样数n＜0.1N时，概率可以用二项分布近似：

（17）

用不合格率p对放行批次的概率P_a作图，得到验收取样特征（OC，OperationalCharacteristic）曲线，示例如图10。曲线描述取样方案在不同不合格率p时的放行决策。

图10 验收取样特征曲线示意图

每一个验收取样方案对应一条OC曲线。当批次不合格率p小于可接受质量限（AQL，Acceptable QualityLimit）时，取样方案应当保证尽可能地放行批次。当批次不合格率p大于应拒收质量限（RQL，Rejectable QualityLimit，又称为LTPD，Lot Tolerance Percent Defective；UQL，UnacceptableQuality Level；LQ，Limiting Quality）时，取样方案应当保证尽可能拒收批次。

由于取样误差存在，取样方案存在第I类和第II类统计学错误。在AQL处，因取样碰巧出现极端不利的偶然结果（可能性为α）导致批次被拒收，是统计学I类错误，又被称为“生产者风险”。在RQL处因取样碰巧出现了极端有利的偶然结果（可能性为β）导致批次被放行，是统计学II类错误，又称为“消费者风险”。质量部门应当根据质量属性的风险特征，确定AQL、RQL和相应的和，带入下式得到：

（18）

（19）

联立方程，可以计算出符合要求的n和c值的组合，进而得到取样方案。

2.3.2 计量取样

计量取样的一般理论建立在质量属性的单个观测值服从正态分布的前提上，假设一批产品质量属性服从均值μ和标准差σ的正态分布，且只有质量下限LSL。统计量Z_LSL=(μ-LSL)/σ反映均值μ与LSL以标准差σ量度的距离，对应一个不合格率p。通常情况下均值μ和标准差σ未知，从批次中取一个样本量为n的随机样本，计算均值和样本方差s，得到统计量(-LSL)/s 。设定判别标准，在k＜( -LSL)/s时放行批次，而在k＞(-LSL)/s时拒收，可以计算出在实际不合格率p时放行批次的概率P_a，进而得到OC曲线。计量取样的OC曲线计算过程复杂，可参考相关文献资料。在质量属性不服从正态分布时，不应直接使用该方法。

2.3.3 验收取样理论的其它考虑点

一阶段取样流程简单易操作，只包含一次取样和一次判别。两阶段取样、多阶段取样、连续取样等取样方案可以在保证同等统计效力下减少平均所需的样本量，但代价是流程复杂，可操作性下降，更容易犯人为错误。

取样方法应当保证随机性和代表性，否则样本检验结果不能作为推断整批次参数的依据。简单随机取样和分层随机取样是常用的取样方法，原理可以参照相关文献资料^[62]。

2.4 其它方法

2.4.1 多元统计学方法

多元统计学方法用于研究多变量之间的关系，在试验设计和多元控制图中均有运用。特别适用于以大量数据为基础，例如，工艺在线监测数据，生产全流程数据，图谱数据等场景^[63]。处理高维度数据，常有主成分分析（PCA，PrincipalComponent Analysis），多向主成分分析（MPCA，Multi-way Principal ComponentAnalysis）和偏最小二乘（PLS，Partial LeastSquare）等降维方法，聚类分析，判别分析，神经网络（ANN，Artificial NeuralNetwork），决策树等多元预测模型。原理和实例可以参考相关文献^{[64][65][66][67][68][69][70]}。

2.4.2 贝叶斯方法

关于统计推断的理论可以纳入频率学派和贝叶斯学派两个体系中。频率学派主张把需要推断的参数视作固定且未知的常数，而样本随机，有关的概率计算都是针对样本的统计分布。而贝叶斯学派主张把未知参数视作随机变量，而样本固定，从先前的研究结果、猜想的理论机理、和其它专业知识中得到对未知参数的先验分布，然后开展试验，向先验分布中补充进新的样本信息，得到未知参数的后验分布，作出推断^[71]。

频率学派和贝叶斯学派各有其理念、内在逻辑、解释力和局限性，没有绝对的优劣之分。贝叶斯方法正日渐受到重视，但也面临一些难题，例如先验分布的确定带有主观性，后验分布通常难以计算等。在应用于实践前，企业与监管部门需要就这些问题的解决方案达成共识。

例如，在工艺验证方面，2011年《工艺验证》指南结束了工艺验证只需连续三批成功生产的惯例，所需的批次数需要由生产者确定并提供依据。ISPE讨论稿^[72]和PDA技术报告中^[73]提出了供讨论的十余种统计学依据，均为频率学派方法。HarryYang提出结合工艺设计阶段数据，确定验证所需批次数的贝叶斯方法，并举实例指出其相比于频率学派方法的优势^[74]。但目前这些方法的适用性还在讨论之中，尚未在企业和监管部门达成共识。

3 常见的统计学应用

本节按照配方和工艺优化、稳定性研究和有效期确定、分析方法验证、中间控制和放行标准制定、工艺和质量监测、取样方案等具体应用方面组织。

3.1 配方和工艺优化

试验设计方法应用于配方和工艺优化中，最早可查的文献记录出现在1967年，由Marlowe和Shangraw发表的水杨酸钠片剂湿法制粒和直压工艺对溶出度的优化^[75]。此后，该领域报告的研究文献数目指数增长，至今有千余篇，涉及口服、局部给药（经皮给药、肺部给药、直肠给药、眼部给药、鼻腔给药等）、非肠道给药等给药途径，片剂（普通片、包衣片、泡腾片、水溶片、分散片等）、胶囊、液体剂型（溶液，混悬剂、乳剂、洗剂、注射剂、微乳剂、眼药剂等）、颗粒剂（丸剂等）、微粒剂（微胶囊、微球剂等）、纳米颗粒剂、囊泡运输、半固体剂型（软膏剂、乳膏剂、凝胶剂、泥敷剂、栓剂等）以及其他剂型（吸入剂、定量吸入剂、喷雾剂、造影剂、硬膏剂等）的配方和工艺优化^[76]。

表4中列举常用的试验设计方法和实例，包括D-最优，FD，FFD，PBD、CCD、BBD、EQD、MD、ANN、PCA、PLS等设计类型。

表4 配方和工艺优化中常用的试验设计方法应用实例
设计类型	成分通用名或类型	剂型	优化目标	发表年份
FD	吲哚美辛	纳米颗粒剂	颗粒分布	1995 ^[77]
FD	核黄素	丸剂	总体释放率	1996 ^[78]
FD	双氯芬酸钠	微球控释剂	溶出t₈₀	1998 ^[79]
FD	阿昔洛韦	微脂剂	包囊率	2002 ^[80]
FD	氯巴占	口腔速溶片	崩解时间	2013 ^[81]
FFD	氢溴酸右美沙芬颗粒	控释片剂	体外溶出特征	1991 ^[82]
FFD	阿霉素	纳米颗粒剂	聚合物产率、颗粒中药物浓度和药物包封率	1990 ^[83]
FFD	氯化钾	渗透泵控释片	氯化钾体外溶出速率、释药时滞和包衣破裂强度	1995^[84]
FFD	酒石酸美托洛尔	速释片剂	高剪切制粒工艺中影响溶出度、生物利用度/生物等效性	1997^[85]
FFD	某种鼠源IgG3κ单抗	静脉输液冻干粉	玻璃转化温度、单抗浓度、聚合程度、冻干产品变形转化温度和颗粒尺寸	2012^[86]
PBD	卡托普利	渗透泵控释片	12小时累计释放度	2000^[87]
PBD	萘普生	缓控释片剂	药物释放率	2001^[88]
PBD	核黄素	微脂体剂	制剂稳定比	2001^[89]
PBD	椒样薄荷油	油脂球剂	复合物物化和质构特性	2004^[90]
PBD	格列本脲	纳米颗粒剂	平均颗粒尺寸、饱和溶解度和溶出效率	2013^[91]
D-OD	PDMAEMA/DNA复合物	基因载体药物	PDMAEMA/DNA复合物尺寸	1999^[92]
D-OD	罗哌卡因	缓释片剂	在模拟胃肠道液中的药物释放	2000^[93]
D-OD	伊曲康唑	固体分散剂	扭力、玻璃转化温度和表观溶解度	2003^[94]
D-OD	尼莫地平	泡腾性控释浮片	60分钟药物释放、溶出t90和漂浮特性	2011^[95]
D-OD	他莫昔芬	磷脂有机凝胶	粘度、凝胶强度、延展性、稠度指数	2013^[96]
CCD	双氯芬酸钠	控释片剂	物理性质和溶出度	1997^[97]
CCD	醋氯芬酸	纳米胶囊剂	颗粒尺寸和包封率	2000^[98]
CCD	布美他尼	包衣丸剂	一小时、四小时、八小时释放率	2001^[99]
CCD	六甲三聚氰胺	微球剂	微球尺寸、药物包封率和药物释放率	2002^[100]
CCD	异烟肼、利福平	纳米缓释剂	颗粒尺寸、聚合物分散指数和药物包封率	2014^[101]
BBD	酮洛芬	控释片剂	溶出t₅₀	1996^[102]
BBD	阿替洛尔	渗透泵控释片	药物累积释放百分比	1997^[103]
BBD	盐酸普萘洛尔	缓释丸剂	溶出t₈₅、包衣锅粘锅程度和包衣工艺耗时	1998^[104]
BBD	泛醌	自微乳化片	药物45分钟累积乳化百分比	2002^[105]
BBD	利福平	胃漂浮片	一小时、四小时、八小时药物溶出和漂浮迟滞时间	2013^[106]
USD	神经生长因子和人血清蛋白	微球剂	包封产率	1998^[107]
USD	茶碱	缓释丸剂	药物释放率	2000^[108]
USD	泼尼松、茶碱	珠剂	药物包封率	2008^[109]
USD	苯坐卡因	脂质体剂型	药物包封率和180分钟药物渗透百分比	2008^[110]
USD	塞来考昔	结肠靶向微球剂	药物包封率和结肠介质中药物释放率	2012^[111]
MD	酮洛芬	泥罨剂	峰值应力、通量	2002^[112]
MD	托芬那酸	经皮凝胶剂	制剂粘度	2003^[113]
MD	氟	缓控释片剂	药物释放曲线	2004^[114]
MD	大胡椒	乳剂	乳剂外观、离心稳定性、乳剂渗透性	2008^[115]
MD	格列本脲	微乳剂	在550nm透光率	2011^[116]
ANN	茶碱	片剂	药物释放曲线	2003^[117]
PCA，PLS	扑热息痛	片剂	辅助连续生产工艺开发	2013^[118]

D-OD：D-最优设计；FD：析因设计；FFD：分式析因设计；PBD：Plackett-Burman设计；CCD：中心复合设计；BBD：Box-Behnken设计；USD：均匀外壳设计；MD：混料设计；ANN：神经网络；PCA：主成分分析；PLS：偏最小二乘回归。

3.2 稳定性研究和有效期确定

稳定性研究和有效期确定的原理是化学动力学模型，一级反应模型是研究药品降解最常用的模型，零级反应模型偶有使用，二级反应模型很少使用^[119]。化学动力学模型本身或经数学变换后有确定性的一次线性关系，然而存在诸如批次间产品质量属性差异、批次内产品质量属性和降解速率差异、测量误差等不确定性因素，采集的数据点不会呈现严格的线性关系。建立统计模型，用回归分析等方法可以得到参数的估计值，进而通过区间估计等方法得到有效期的估计。

FDA的Lin和Chen^[120]（2003）提出，应当通过良好的统计学设计，对有效期有准确和精确的估计。设计应当减少偏误，识别并控制预期和非预期的变异。统计学方法应当对有效期做出合理的统计学推断。

ICHQ1E指南提出建议的评估稳定性数据的统计学方法，方法将批次视作固定效应，并要求在0.25的统计学显著水平下检验不同批次数据的可混合性（poolability）。通过检验则采用混合数据估计有效期，未通过则用各批次数据单独估计，取最小的有效期估计值。

Ruberg和Stegeman（1991^[121]），Ruberg和Hsu（1992^[122]），Shao和Chow（1994^[123]），Capen等人（2012^[124]），Quinlan等人（2013^[125]）和FDA的产品质量研究所（PQRI，ProductQuality Research Institute）稳定性和有效期工作组的讨论^{[126][127][128]}认为，ICHQ1E中提出的固定效应模型、可混合性检验方法以及在未通过可混合性检验时取单独批次估计中最短有效期的做法缺乏统计学依据，且不具备将结论外推到未来批次的能力，而随机效应模型能够解决这些问题。

长期稳定性研究中可以采用括弧法（bracketing）和矩阵法（matrixing）减少试验规模，Nordbrok（1992^[129]）提出研究批次、规格和包装三个因子对稳定性影响的十种矩阵法设计，至多可以节省59.3%的检验次数。Oliva等人（2003^[130]）比较了矩阵法和进行完整试验对人用胰岛素制剂有效期的估计结果，矩阵法试验数为完整试验的62.5%，而用矩阵法得出有效期12.7月的估计，相比完整试验得出的13.3月仅少0.6月。

表5 稳定性研究和有效期确定中随机效应模型和矩阵法设计应用实例
设计类型	发表年份
随机效应模型	1989^[131]，1989^[132]，1990^[133]，1991^[134]，1994^[135]，1996^[136]，1997^[137]，1997^[138]，2001^[139]
矩阵法	1992^[140]，1992^[141]，1996^[142]

3.3 分析方法验证

表6列举了分析方法验证中所涉及的统计学方法，相关定义和要求参见ICHQ2（R1）。

表6 分析方法验证中常用的统计学方法
需要验证的项目	统计学方法
准确性	均值，置信区间
精密度——重复性	标准差
精密度——中间精密度	试验设计
线性	回归分析
耐用性	试验设计
检测限和定量限	回归分析，标准差

表6中列出的多数项目涉及的统计学流程简单且固定，而耐用性和中间精密度研究的设计较为复杂。

耐用性（robustness）的验证通常可以通过试验设计方法实现^[143][144]，表7列举了几种常见分析方法的耐用性试验设计，以高效液相色谱法（HPLC，High-performanceliquid chromatography），毛细管电泳法（CE，Capillary Electrophoresis）为主。

中间精密度（intermediateprecision）的验证通常也通过试验设计方法实现，研究因子一般固定地包括化验员、仪器和日期。中间精密度验证设计中，统计模型通常为随机效应模型，通过方差成分分析可以分别计算化验员、仪器和日期对总变异的贡献。

表7 分析方法验证中耐用性和中间精密度研究常用的试验设计方法应用实例
分析方法	影响因子	设计类型	发表年份
HPLC	流动相的pH，有机修饰剂百分比和柱温等	2³FD，PBD	1995^[145]
HPLC	四丁基硫酸氢铵浓度，起始梯度和结束梯度中乙腈百分比，流动相速率，缓冲液pH	PBD	1998^[146]
HPLC	稀释缓冲液的pH和甲醇的百分比，洗脱速率，洗脱体积，洗脱液成分等	2^9-5FFD	1999^[147]
HPLC	流动相乙腈百分比，柱温，紫外波长和流动速率	PBD	2000^[148]
HPLC	邻苯二甲酸氢钾，甲醇百分比，柱温	BBD	2001^[149]
HPLC	柱温，平衡时间，流速等	2^7-4FFD	2005^[150]
HPLC	流动相乙腈百分比，流动速率和pH	CCD，2³FD	2007^[151]
CE	电压，柠檬酸三钠含量和柠檬酸含量	CCD	1998^[152]
CE	奎宁浓度，pH，电压，温度等	2^7-3FFD	1999^[153]
CE	甲醇百分比，醋酸铵浓度和温度	2³FD	2000^[154]
CE	硼酸盐浓度，温度，进样时间和电压	PBD，CCD	2000^[155]
CE	缓冲液pH，缓冲液浓度和电压	BBD	2002^[156]
CE	磷酸缓冲液pH，缓冲液浓度，环糊精浓度，电压上升速率，进样时间，进样压力等	PBD	2005^[157]
CE	电压，缓冲液浓度，十二烷基硫酸钠浓度，乙腈浓度，正丁醇浓度，尿素浓度和pH	PBD	2013^[158]
GC	柱头压，进样温度，不分流步骤时间，检测器温度等	PBD	2004^[159]
UPLC	柱温，流速和流动相中甲醇百分比。	CCD	2013^[160]

HPLC：高效液相色谱法；CE：毛细管电泳法；GC：气相色谱法；UPLC：超高效液相色谱法；FD：析因设计；FFD：分式析因设计；PBD：Plackett-Burman设计；CCD：中心复合设计；BBD：Box-Behnken设计。

3.4 中间控制和放行标准制定

将控制图上下限作为警戒限，超出控制限但未超出质量标准限常被定义为“超趋势”（OOT，Out ofTrend），即预警工艺可能出现不良趋势，应当适当调查和控制。控制上下限的计算方法和重新计算的周期应当事先在方案中确定。

放行标准如果引用药典标准，从控制风险的角度，应当比药典标准更加严格^[161][162]。USP37版凡例中说明，对样本的检验结果是盖然性的，结论不能外推到整个批次。生产者不仅需要保证在放行时的一次检验能够符合药典标准，从药品放行到有效期期间的所有时间内，一经药典流程检验，都必须符合标准。Bergum于1990年^[163]提出一套根据药典标准制定含量均匀度、溶出度和崩解等内控放行标准的统计学方法，可以提供对未来检验仍能符合药典标准的信心。FDA于2011年在《工艺验证》指南中建议参考ASTME2709标准^[164]制定内控放行标准，ASTME2709标准提供了实现Bergum方法的一般统计学途径。表8列举了一些运用Bergum方法建立内控放行标准的实例。

表8 运用Bergum方法依据药典标准制定内控放行标准的应用实例
药典项目	发表年份
制剂单位含量均匀度，溶出度	2002^[165]
制剂单位含量均匀度	2007^[166]
制剂单位含量均匀度，溶出度，崩解，最小装量，可给药体积	2007^[167]
溶出度	2007^[168]
制剂单位含量均匀度，溶出度	2009^[169]
溶出度	2012^[170]

如果产品质量属性随时间变化显著，则需要将稳定性研究数据结合考虑。如图11所示，分析方法精确性、稳定性损失程度和稳定性研究中参数估计的确切性，将共同决定放行标准限度^[171]。

图11 质量标准限、放行标准限和统计控制限的关系示意图

3.5 工艺和质量监测

控制图方法用于工艺和质量监测。监测单一参数的控制图构造简单，实践广泛，但文献记录少。连续型变量批次内监测（如压片过程中取样监测片芯重量变异）常用-R或 -s控制图，而批次间（如不同批次间片芯重量变异）常用I-MR控制图^[172]。CuSum和EWMA控制图可以用于微小工艺漂移的监测，实践中使用尚不多，但有发展趋势。对于类别型变量的控制图，如p，np，c，u控制图，常用于包装、外观缺陷、微生物监测、环境监测等。多元控制图常用在能够在线采集多维度数据的情形，例如在线监测生物发酵过程、结晶过程等，常结合PCA等多元统计学方法使用^[173][174]。

表9 控制图方法应用实例
控制图类型	监测目标	发表年份
-s	API的混合均匀度	2006^[175]
-R	批次内片芯硬度变异	2009^[176]
I-MR	生物效价分析数据的稳定性	2009^[177]
多元控制图	发酵工艺	2001^[178]
多元控制图	原料药杂质谱的一致性	2003^[179]
多元控制图	补料分批培养生产青霉素工艺	2004^[180]
多元控制图	结晶工艺，预警成核	2006^[181]
多元控制图	色谱纯度	2010^[182]
多元控制图	吡罗昔康制剂的纯度和晶型成分	2010^[183]
多元控制图	流化床制粒工艺	2012^[184]
多元控制图	洁净室环境微生物	2012^[185]
多元控制图	盐酸非索那定流化床制粒和干燥工艺，实时预测水分含量	2013^[186]
多元控制图	片芯重量、硬度和厚度	2013^[187]
多元控制图	监测结晶工艺	2013^[188]

3.6 取样方案

美国国家标准协会（ANSI，American National StandardsInstitute），美国质量学会（ASQ，American Society forQuality），国际标准化组织（ISO，International Organization forStandardization）以及中国国家标准化管理委员会等机构均发布了计数取样和计量取样的检验程序标准文件^{[189][190][191][192][193][194][195]}，这些标准文件内容几乎相同，根源均为美国军用取样标准^[196]。标准文件指导使用者制定取样方案，保证在指定的AQL处有很高的放行概率，但并不能保证在批次不合格率高时有合理的拒收概率。还应当注意，这些标准包含一套在正常、加严和放宽三个等级检验严格程度间的转换规则，如果工厂采用整套标准作为取样方案，应当将转换规则结合使用^[197]。

一些经验的取样方案在统计学上也是合理的，如业界常用的取样方案^[198]。应当分析其OC曲线，证明其在指定情形下的适用性。

取样方案的选用以及AQL和UQL的选取没有统一的标准^[199]，但不论直接采用上述机构发布的标准，还是通过AQL、UQL和相应的风险水平设计个性化的取样方案，均需要证明方案的统计学合理性，保证方案与质量属性的风险特征相匹配。

企业实践中主要应用计数取样，而计量取样多用于药典标准制定^[200][201]。表10列举了《美国药典》附录中的两阶段和三阶段取样方案。

表10 美国药典中的两阶段和三阶段取样方案
药典附录章节	取样方案类型
<711>溶出度	三阶段
<905>制剂单位含量均匀度	两阶段
<701>崩解	两阶段
<755>最小装量	两阶段
<698>可给药体积	两阶段
<724>药物释放	三阶段

4 讨论

由于篇幅所限，本文对统计学在药学研发和生产质量管理中的应用未能结合实例充分展开。此外，这方面的中文文献^{[202][203][204][205][206][207][208][209][210][211][212][213][214]}以高校学位论文为主，绝大多数是配方和工艺研究，多数与中药有关，由于数目少且缺乏同行审评，故未在文中列出。

多元统计学方法和贝叶斯方法的理论和应用没有详细展开，是因为方法本身较为复杂，且在制药领域应用较新，缺乏同行审评。但这两套理论的应用可能有较大的发展余地。

精益生产、六西格玛等质量管理方法也重视统计学应用，但关注点在于通过持续地提高生产效率和改进产品质量，降低整体成本。而在制药业，持续改进的灵活性取决于企业对产品和工艺的理解，以及与监管部门达成的共识。近年来，美国的药品质量监管政策逐渐强调在药学研究和生产质量管理中使用基于风险的途径和基于数据的科学证据，鼓励企业应用统计学方法支持决策^[215]。这样的转变将促使统计学的应用形成规范。

本文所关注的统计学在药物配方和工艺研发和生产质量管理中的应用，从药品监管部门的角度看，就是在化学、生产和控制（CMC，Chemistry,Manufacturing andControl）以及GMP的应用。这些应用的审评都由美国FDA新成立的药品质量超级办公室^[216]（OPQ，Officeof PharmaceuticalQuality）负责。因此，为区别于临床试验相关的统计学应用分支“生物统计学”，本文所关注的CMC和GMP领域的统计学应用可以被简称为“质量统计学”。

当一个新药申请获得FDA批准后，厚达几百或上千页的审评意见就可以披露于众了。但这个披露对临床和CMC审评有很大不同。前者几乎全部披露，而后者几乎全部不披露，因为配方和工艺部分的很多内容往往属于企业的技术诀窍（knowhow），而受到行政保护。因此，企业与FDA在质量统计使用方法方面的交流与商讨是不公开的，这也许是质量统计学发展缓慢的原因之一。与此形成鲜明对照的是，生物统计学方法的讨论是临床审评中的核心内容之一，无论是在对决定是否批准新药申请至关重要的专家委员会上，还是在批准后的审评文件中，企业方面关于生物统计学的具体使用，及FDA对此的具体审评意见都是公开披露的。这种透明公开的科学讨论机制可能是生物统计学得到重视并积极发展的重要原因。本文作者希望这篇综述的发表，将有助于促进更多的关于质量统计学的学术研究和讨论^[217][218]，促使我国制药企业和监管机构系统地学习和掌握质量统计学，使双方对基本概念、方法和应用形成一定的共识，为双方在科学层面上交流和商讨提供基础，从而最终有益于保障药品质量。

志谢：作者感谢MedImmune公司HarryYang先生帮助讨论。感谢国家药典委员会张伟先生给予鼓励。感谢北京大学-海正药业QbD联合实验室、北京大学-常州四药无菌GMP联合实验室的支持。

5 参考文献(略)

来自识林“http://lib.shilinx.com/

药学统计学

爱华网本文地址 » http://www.413yy.cn/a/25101013/149184.html

统计学方法在药学研发、生产与质量管理中的应用应用统计学

更多阅读

关键绩效指标在绩效管理中的应用什么是关键绩效指标

信息技术在财务管理中的应用信息技术应用及管理

细节管理在护士长管理中的应用护士长管理培训

研究生毕业去建筑施工信息技术在建筑施工管理中的应用研究

应用统计学工程造价统计学在工程项目管理中的应用

声明:《统计学方法在药学研发、生产与质量管理中的应用应用统计学》为网友勋章分享！如侵犯到您的合法权益请联系我们删除

更多阅读

关键绩效指标在绩效管理中的应用 什么是关键绩效指标

信息技术在财务管理中的应用 信息技术应用及管理

细节管理在护士长管理中的应用 护士长管理培训

研究生毕业去建筑施工 信息技术在建筑施工管理中的应用研究