疫苗 CMC 中的过程建模:当前的挑战
随着越来越多的疫苗平台可用,制造商需要更有效的方法来执行 CMC。机器学习和人工智能有可能减少与 CMC 工作流程中的过程建模和数据分析相关的时间和成本。然而,我们认为需要对数据收集和实验方法进行重大变革,因为历史数据集不足以充分发挥这些模型的潜力。本文将讨论一些关键挑战,并提供将机器学习和人工智能纳入疫苗 CMC 的实用解决方案。
在开发疫苗时优化化学、制造和控制 (CMC) 所需的流程需要大量时间和资源。一些关键步骤包括:
优化单个操作
过程监测和控制
工艺规模放大
疫苗开发中这些任务的现有方法可能效率低下,因为它们通常需要从头了解疫苗每个成分的每个操作,具体取决于所寻求的目标产品特性。因此,人们对基于机械建模、机器学习 (ML) 和混合建模的过程模型如何增强 CMC 过程开发工作流程中的不同任务产生了浓厚的兴趣。
过程模型的优点可能包括:
在硅(计算机)工艺优化,加快开发时间并减少资源
监测和控制,通过预测演变并采取纠正措施
规模放大,以考虑早期决策中针对规模的影响
许多生物制药公司已努力在基础研究和发现以外的业务领域采用这些技术。数字化和人工智能/机器学习 (AI/ML) 引起了整个生物制药行业对这些工具如何指导所有生物制品(而不仅仅是疫苗)的 CMC 工作流程的浓厚兴趣。然而,这些努力中的大部分都集中在将机器学习、人工智能和过程建模应用于现有产品(及其相应工艺)上收集的历史数据,以试图辨别能够指导未来生物工艺开发工作的模型。
虽然这种方法适用于异常情况和异常值检测,可以作为参考标准(例如对可能的滴度或预期回收率进行初步估计),并在某种程度上评估历史数据集本身的能力。然而,在大多数情况下,历史数据往往无法提供实现这些机器引导方法对新产品和工艺的最具变革性优势所需的广度和深度。本文着重强调使用过程建模工具实现生物制药行业目标的动机和潜力,并确定当前实践中限制其应用的一些关键挑战和局限性。随后,我们将就进一步结构化的数据收集和测试方法如何在 CMC 的生物过程开发中实现人工智能增强工作流程的新功能提供一些策略指导。
疫苗 CMC 任务的简短描述:
化学、制造和控制(缩写为 CMC)的目标是确保市场上商业销售的治疗产品在所有方面都与用于临床试验的产品相似。此外,它旨在确保药物符合标准并始终如一地生产。在这个方向上,开发疫苗配方和为治疗产品建立合适的工艺是 CMC 的关键活动。
最终的治疗性疫苗产品不仅包含生物分子(例如,抗原、mRNA 或其它疫苗形式),还包含合适的佐剂、递送系统和一系列赋形剂(以确保产品的保质期和长期稳定性)。这些构成最终疫苗产品一部分的辅助物质称为其配方。
CMC 的过程方面涉及开发工艺,以确保抗原的大规模生产具有所需的质量特性和效力,以及控制工艺、以持续生产抗原的能力。
通常,此过程从特定于单元操作的关键工艺参数的筛选以及小规模和实验室规模系统的后续工艺优化开始。此后,中试规模研究和其中记录的数据用于证明可以稳定且一致地生产治疗产品。在此阶段,必须制定策略以确保产品的一致性(例如,系统的监测和控制)。最后,必须在商业规模上进一步放大、实施和验证该工艺。
使用计算机模拟方法的动机
多年来,随着治疗解决方案和全球需求的迅速增长,生物药受到越来越多的关注,特别是疫苗。该行业一直在寻找持续和大量生产这些分子的方法,同时渴望减少工艺开发的时间和成本。正如最近 COVID-19 大流行期间每个人都意识到的那样,疫苗开发和制造行业面临的这些挑战进一步加剧,尤其是在持续的大流行期间。
随着疫苗成分(和一般生物药)领域独特且新颖的治疗方式的种类越来越多,当前基于配方的过程和基于专家的决策制定和手动控制变得低效。需要复杂的方法来系统地进行工艺开发、放大、监测、控制和数字化。疫苗成分和生物药的生产是一个复杂的过程,受大量过程参数的影响,这些参数以一种尚未完全理解的方式相互作用。基于 AI/ML(单独或由物理约束支持)的过程建模方法有望在更高维度的过程参数空间中学习这些复杂的模式和交互。
生物制药行业正在意识到这种方法的潜力,并希望采用它们来回答以下问题:“用于生产疫苗成分的最佳培养条件(pH 值、温度、溶氧)是什么?”、“什么是纯化产生的 mRNA 或抗原的最佳填料?”,“我如何实时确保该过程按预期进行并做出自动化决策来控制它?”等。
然而,为了充分利用这些技术的优势来实现生物制药行业的目标,目前在数据收集、访问和模型应用方面存在一些挑战。
识别挑战
挑战 1:历史数据集存在内在“偏见”
在传统环境中,工艺开发一直独立于计算机建模并依赖于基于经验的决策。历史上计划的实验和收集的数据扰乱了设计空间,影响工艺科学家或工程师对收集的数据的解释。生物工艺开发中的大多数实验旨在根据 (i) 先前知识或 (ii) 可能产生最佳结果的条件的专家意见,生成关于一个或两个工艺参数对产品质量属性影响的具体见解。这种方法意味着历史数据仅涉及设计空间的一个非常狭窄的区域(图 1)。
图 1 A) 与生物工艺参数和目标(滴度、质量)相关的大多数历史数据中涵盖的设计空间示意图。B) 历史数据中测试的不同工艺参数的分布以箱形图表示,并通过工艺参数和目标之间的散点图说明基于级别(低、中、高)的实验测试,其中不同的点表示在不同的实验中量化的过程结果。
即使在进行筛选分析时,它们通常也基于基本合理的科学方法,这些方法可能允许训练有素的科学家或工程师进行直接解释,例如一次一个因素 (OFAT) 测试(即,仅改变一个过程参数,同时修复其它参数)。这种方法留下了一个非常大的未开发设计空间,并且对多个因素或变量如何相互作用、以改变结果(或输出)的见解有限。尽管在该领域广泛使用实验设计 (DoE) 方法,但这些方法本质上仅限于推断输入和输出之间的线性和二次关系。此外,这些方法是静态设计,需要进行一定数量的实验。表 1 总结了常见的 DoE 方法和所需的相应实验次数。随着过程参数数量的增加,执行完整 DoE 所需的实验数量、相关资源和时间显著增加,从而导致处理非常高维空间的效率低下。因此,业界采用 DoE 仅测试选定的参数,同时限制许多其它参数,忽略它们在过程中的潜在影响。这种方法必然平衡了测试所有可能状态所需的成本和时间,以及此类结果的可解释性,以提供对相互作用参数之间某些关系的理解。
然而,基于此类数据构建的模型对于行业应用目标的实用性较低,因为该模型已经根据狭窄且有偏见的数据集学习了模式。例如,使用研究不同 pH 值在固定溶氧、温度和其它条件下的影响的数据集,不可能回答运行生物反应器的最佳培养条件是什么。或者构建一个基于模型的控制器,可以预测由于溶氧突然下降导致的异常行为。随后,模型对广义稳健预测的适用性受到损害,因为使用的数据集没有呈现相关的多变量交互(存在于真实系统中但未被数据捕获)。
因此,在所谓的历史数据上测试不同的建模方法通常会产生具有狭窄预测值或稳健性的模型,这些模型受构建模型时观察到的条件的限制。这种限制随后阻碍了它对新产品或其它工艺条件组合的适用性,即使是对同一产品也是如此。
挑战 2:对“最佳”过程模型算法的误解
偏最小二乘回归 (PLSR) 等简单统计模型已被广泛用作生物制药行业的“首选”模型。这现在作为基准建模方法,用于比较业界寻求采用的新的高级非线性建模技术。疫苗成分和生物制品的生产是一个受多种过程参数影响的复杂过程,这些过程参数以尚未完全理解的方式相互作用并且无法使用线性方法完全捕获,这一事实证明了向更复杂的非线性建模方法的过渡是合理的统计模型,例如 PLSR。
然而,当建立在历史数据集上时,非线性模型的性能通常可能与基于 PLSR 的模型相当。这个结果是否意味着所测试的系统具有有限的非线性或没有非线性?从这种本质上试图强加这种关系的方法得出系统是线性的结论是否合理?
模型的解释自然受到用于创建模型的数据的限制。如上所述,数据通常是在设计空间的一个非常狭窄的区域收集的,和(或)使用已经本质上假设线性(参数)响应函数的统计 DoE 策略。前者导致非线性表面的一个小区域的线性近似,该区域可以描述过程参数和结果的多变量空间;后者本质上对收集的数据施加了类似线性的关系(图 2)。
因此,即使可以对历史数据实施非线性模型,通常基于 ML(或混合建模)的非线性过程模型的更广泛的好处或潜在的附加值也很少从这种有偏见的历史数据集中实现,例如该数据本质上是为了捕捉线性趋势而收集的(图 2)。
挑战3:数据采集不一致
除了所收集数据的可变性和范围有限之外,历史数据集的成员和结构也常常不一致。这些不一致是由不同开发阶段的不同实验目标、使用的设备或执行工作的人员以及其它外在因素造成的。随后,建模方法的目标没有统一设定,可能会限制通用模型的开发以及此类模型在生产规模(例如,实验室规模到中试规模和商业
例如,在细胞培养的筛选研究中,动态过程变量(例如,活细胞密度、代谢物浓度)和滴度可能仅在高通量板中培养的最后一天记录(图 3)。然而,在实验室规模的生物反应器和中试规模系统中,这些参数的演变通常在整个培养过程中被记录下来。同样,在筛选研究期间,质量属性通常仅针对特定条件进行记录:例如,那些已知会产生可接受滴度的条件。这种测量类型和频率的不一致也会影响蛋白质回收中收集的数据。例如,高通量筛选研究通常只记录每个步骤的最终馏分,用于为记录阶段动态色谱图的小规模柱层析研究选择特定条
这种方法将可用的、信息丰富的数据(例如,过程的动态演变)限制为仅过程条件/设计空间的某个子集。这种约束导致丢失了关于设计空间其它区域的知识,这些知识对于理解此类数据在生产或纯化的物理规模之间的连通性可能至关重要。这些选择对于流程合理设计的传统方法来说可能是合理的,以最大限度地提高人类解释和最大限度地减少资源利用,因此,只深入研究那些确定有希望优化目的结果的条件。
然而,采用 AI/ML 等先进技术需要重新考虑工作流程,以生成必要的数据,从而充分发挥这些方法的潜力。因此,在确保收集信息丰富的数据集的同时,考虑其它有效使用资源的策略变得很重要。一种策略是主动学习或强化学习。这种方法的一个优点是它固有地结合了在初始计划和改进实验期间创建预测模型的意图,以映射过程参数和目的输出之间的关系。
挑战 4:数据(和元数据)报告不一致以及数据存储效率低下
典型历史数据提出的第4个挑战是数据和相关元数据的报告、记录和存储。值得注意的是,这一挑战可能不会阻碍建模方法本身的开发和应用,但往往需要时间和资源来收集和组织过去项目的历史数据集。在大多数情况下,没有使用集中、统一的格式来记录所有产品和过程的数据。即使存在已建立的协议 [通常以多个电子表格的形式(图 4A)],其组织中也常常存在广泛的主观性(图 4B)。此外,随着运营团队的变化,格式会被重新调整和应用,从而导致程序或产品之间的不一致。这种自然差异会导致信息的多种格式,甚至可能会随着时间的推移,使用和记录不同的变量或数据缩减方法。
此外,与每个实验相关的所有数据通常都没有存储或一致映射。如图 4C 中的示意图所示,通常只有分析的派生属性被记录在电子表格中,而分析的实际采集既没有存储也没有映射。换句话说,只有可以在单个单元格(对应一个实验和一个属性)中汇总的结构化数据可以被记录,而非结构化数据(例如,时间相关的配置文件信息、图像等)不被存储或与还原的数据点分开归档。从某种意义上说,这种做法已经在分析和建模中引入了偏差,因为特定的特征或属性是从基于特定计算或指标的预想值(可能是该领域的标准)执行的分析中提取的。
当在过程级别查看数据的整体同步时,这种二分法被进一步夸大,超出了单个单元操作的数据。在许多组织中,过程中每个步骤的数据和优化都是由组织中的不同团队(例如,发酵/细胞培养开发团队、分离开发团队、分析团队等)生成和处理的,并且生成的数据保留在每个阶段,通常驻留在特定团队的领域内(图 5)。
图 5 跨团队的有限数据传输以及由此产生的相同分子和过程的多个未映射数据库的示意图演示。
这些方面使得以自动化方式获取/解析以及利用此类数据具有挑战性且耗时,因为由于记录和报告数据的主观性,需要大量的手动工作来重新调整格式并从根本上解释不同事物的含义。
挑战 5:缺乏透明度和后续的可重复性
最后,与计算机视觉、机器人甚至基于 ML 的方法的临床应用等其它领域相比,没有通用的基准数据集/数据库可用于训练和测试所提出的不同竞争算法的性能。由于对知识产权和专利权的担忧,生物制药行业的大部分数据都是公司专有的,很少在公共论坛上共享。通常这些数据集永远不会发布。因此,大多数算法都是在以下任一方面开发和演示的:
在计算机中收集的综合数据;在研究实验室收集的有限数据或;匿名行业数据,包含有关过程或变量范围的极简信息。随后,每种建议的建模方法都在一个完全不同的数据集上进行测试,无法将一种方法与另一种方法进行比较,以确定哪种方法表现更好,也无法评估不同方法的相对优势和劣势。因此,无法得出关于“最佳”建模方法的一般性结论。换句话说,缺乏可作为基准的通用数据集阻碍了生物制药行业应用于化学、制造和控制 (CMC) 相关活动的算法(或建模方法)的普遍发展。
解决这一缺点的一种潜在方法可能是该领域的各种利益相关者(生物制药公司、CDMO、政府机构和非政府组织以及学术机构)共同努力创建一个共同的数据库或生态系统,来存储在该领域CMC 工作流程的不同阶段收集的某些数据。生成对开发和测试算法最有用的数据的深度和广度的最佳方法,将涉及以去标识化方式或受控访问方式存储数据,这对于 NCBI 或 Db-GAP(临床相关基因组数据)等基因组数据集很常见)。在制药领域,MELLODY 联盟是一个例子,它作为几个制药公司存储其药物分子信息的共同生态系统。然而,对于疫苗成分或生物制品,不存在这样的系统 - 无论是分子信息还是 CMC 相关数据。替代方法可以调用公共政策来实现数据透明度或开放访问使用政府资金生成的数据。通常应考虑可以平衡专有知识对商业竞争力的重要性与收集足够的信息以使疫苗等生物制品生产受益的策略。
原文:H.Narayanan, C.Love, Process modeling in the CMC of vaccines: are we doing it right? Vaccine Insights 2022; 1(5), 299–314.
文章来源: 生物工艺与技术
本网站刊载的所有内容,包括文字、图片、音频、视频、软件等,如非标注为“原创”,则相关版权归原作者所有,如原作者不愿意在本网站刊登相关内容,请及时通知本站,我们将第一时间予以删除。