本模块作者
本模块由浙江中医药大学郑老师、陈老师团队开发
(1)景方圆 浙江树人大学医学院
(2)卢肇骏 杭州市疾病预防控制中心
(3)郑卫军 浙江中医药大学公共卫生学院
b站样本量计算视频
郑老师团队统计培训与服务
统计分析服务
我们团队支持,提供医学公共数据库、自有课题数据的统计分析服务,提供较详细统计报告和R语言源代码
(1)公共数据库分析,Nhanes, 孟德尔随机化、GBD、SEER等数据库
(2)医院数据、自己调查数据、毕业论文数据
(3)研究项目、药企赞助项目全流程设计到数据分析
郑老师团队精品科研设计与统计课程
郑老师团队每年面向医学相关人士均开设各式统计分析培训课程,由浅入深、结合风暴统计和R语言,非常有助于论文数据分析与写作
重复测量资料分析、临床试验设计与数据分析
临床预测模型、真实世界临床研究
孟德尔随机化方法、Nhanes公共数据库挖掘
问卷与量表分析、结构方程模型
R语言、python 语言机器学习
全球疾病负担数据库(GBD)、meta与网状Meta
轨迹增长模型、全球老年健康随访数据库
目前所有课程均有回放视频,大部分课程已经有全套高清录屏
课程返现政策
凡是利用风暴统计平台发表科研论文,并在统计学方法写明【风暴统计】或者软件名称Zstats者, 我们将赠送(或全部返现)一门课程(英文论文)或者赠送一门课程50%(中文论文)优惠券(或返现)
Data processing and analysis were performed using R (最新版本号), along with Zstats v1.0 (www.zstats.net)
计算结果
α:一类错误,对应公式Zα,一般取α为0.05,双侧检验=1.96,单侧检验=1.64
β:二类错误,对应公式Zβ,单侧检验,把握度(检验效能)为1-β,当β=0.1时,把握度为0.9;当β=0.2时,把握度为0.8
σ:合并标准差,一般可以假定为两组标准差相似,则该值可直接设置为对照组的标准差
δ:容许误差,一般根据经验计算,但不能太大
Δ:优效、等效或非劣效性界值,可正、负值
参考文献Chow SC, Shao J, Wang H. Sample Size Calculation in Clinical Research. New York: MarcelDekker, 2003
计算来源基于R TrialSize包开展
计算结果
α:一类错误。对应公式Zα,一般取α为0.05,双侧检验=1.96,单侧检验=1.64
β:二类错误,对应公式Zβ,单侧检验,把握度(检验效能)为1-β,当β=0.1时,把握度为0.9;当β=0.2时,把握度为0.8
Pt:试验组发生率可源于预试验、专家估计或文献
Pc:对照组发生率可源于预试验、专家估计或文献
Δ:优效、等效或非劣效性界值,可正、负值
参考文献Chow SC, Shao J, Wang H. Sample Size Calculation in Clinical Research. New York: MarcelDekker, 2003
计算来源基于R TrialSize包开展
计算结果
总体人数N:现况调查分为有限总体和无限总体,如果是无限总体,则空缺该值
误差估计形式:绝对差值absolute, 相对比relative,一般都是absolute
总体均数μ、π:一个现况调查,根据分析目的需要根据文献查到该群体总体参数
合并标准差σ,一般可以假定为两组标准差相似,则该值可直接设置为对照组的标准差
容许误差δ:一般根据经验计算,但不能太大!;Δ:优效、等效或非劣效性界值,可正、负值
置信区间:置信区间=1-α,一般默认95%
灵敏度se、特异度sp:默认取值1.0,不要去修改
参考文献Chow SC, Shao J, Wang H. Sample Size Calculation in Clinical Research. New York: MarcelDekker, 2003
计算来源基于R TrialSize包开展
计算结果
置信区间:置信区间=1-α,一般默认95%
β对应公式Zβ,单侧检验,把握度(检验效能)为1-β,当β=0.1时,把握度为0.9;当β=0.2时,把握度为0.8
总体人数N:若不填则默认无限总体
暴露组发生率P1,非暴露组发生率P2:可源于预试验、专家估计或文献
两组总人数n:一般不填,保留空值
总人群暴露率:一般不填
参考文献
(计数资料)Kelsey JL, Thompson WD, Evans AS (1986). Methods in Observational Epidemiology. Oxford
University Press, London, pp. 254- 284.
WoodwardM(2014). Epidemiology Study Design and Data Analysis. Chapman & Hall/CRC, New
York, pp. 295- 329.
(风险时间资料) Lemeshow S, Hosmer D, Klar J, Lwanga S (1990). Adequacy of Sample Size in Health Studies.
John Wiley and Sons, New York.
Lwanga S, Lemeshow S (1991). Sample Size Determination in Health Studies. World Health
Organization, Geneva
基于R epiR包开展
计算结果
置信区间:置信区间=1-α,一般默认95%
β:二类错误对应公式Zβ,单侧检验,把握度(检验效能)为1-β,当β=0.1时,把握度为0.9;当β=0.2时,把握度为0.8
总体人数N:若不填则默认无限总体;两组总人数:病例、对照两组人数之和,可不填
预期OR:病例对照研究的效应值
病例组暴露率Pe,在OR值法中可不填;对照组暴露率Pc:可源于预试验、专家估计或文献,必填
两组总人数n:一般不填,保留空值
组间关联性ρ:匹配病例对照研究中,病例组与对照组暴露指标的关联性;
fleiss调整:默认不调整,若OR值法(非匹配)中病例组暴露率Pe不空缺的话,就得TURE
参考文献
T Dupont WD (1988) Power calculations for matched case-control studies. Biometrics 44: 1157
1168.
Fleiss JL, Levin B, Paik MC (2003). Statistical Methods for Rates and Proportions. John Wiley and
Sons, New York.
Kelsey JL, Thompson WD, Evans AS (1986). Methods in Observational Epidemiology. Oxford
University Press, London, pp. 254- 284.
WoodwardM(2014). Epidemiology Study Design and Data Analysis. Chapman & Hall/CRC, New
York, pp. 295- 329.
基于R epiR包开展
计算结果
置信区间对应α值,α=1-置信区间
效能估计值:估计的灵敏度或特异度的总体值
预估差异:预估效能与实际样本值的差异
估计发生率:可源于预试验、专家估计或文献
误差:来源于预试验、专家估计或文献,可默认
两组样本量比值:组2:组1
参考文献
(单样本) Hajian-Tilaki K (2014). Sample size estimation in diagnostic test studies of biomedical informatics.
Journal of Biomedical Informatics 48: 193- 204. DOI: 10.1016/j.jbi.2014.02.013.
(双样本) Georgiadis M, Johnson W, Gardner I (2005) Sample size determination for estimation of the accu
racy of two conditionally independent tests in the absence of a gold standard. Preventive Veterinary
Medicine 71, 1- 10. DOI: 10.1016/j.prevetmed.2005.04.004.
Hui SL, Walter SD (1980) Estimating the error rates of diagnostic tests. Biometrics 36, 167- 171.
Nielsen SS, Gronbaek C, Agger JF, Houe H (2002) Maximum-likelihood estimation of sensitivity
and specificity of ELISAs and faecal culture for diagnosis of paratuberculosis. Preventive Veteri
nary Medicine 53, 191- 204. DOI: 10.1016/s0167-5877(01)00280-x.
基于R epiR包开展
计算结果
公式法:基于相关统计学论文开展预测模型样本量计算
总自变量数:预期建模的自变量个数
R^2、Cox-Snell R^2:取值范围在0-1之间,越接近1,表示模型对观测数据的拟合程度越好。来源于既往相关预测模型
C指数:衡量在所有可能的观察对象中,模型预测结果与实际结果相一致的比例。来源于既往相关预测模型
预估结局均数、标准差、发生率:来源于既往研究
二分类结局需在Cox-Snell R^2与C指数中任选一个填入,不可都填
预测时间点:模型预测时间点(如3年、5年);计划随访时间:预期随访时长(如3.5年、5.5年)。两个时间单位需统一(如年、人年)
模型收敛:在开发新模型后,内部验证时所期望的收敛程度,数值越高表示过拟合程度越低,默认0.9
二分类和生存结局的最大Cox-Snell R^2需要满足一定条件: 最大Cox-Snell R^2=1-exp((2(E*log(E/n)+(n-E)*log(1-E/n)))/n),n=100,E为100人中预期发病人数(E=100*预期结局发生率)
参考文献
Riley RD, Ensor J, Snell KIE, Harrell FE, Martin GP, Reitsma JB, et al. Calculating the sample size
required for developing a clinical prediction model. BMJ (Clinical research ed). 2020.
Riley RD, Snell KIE, Ensor J, Burke DL, Harrell FE, Jr., Moons KG, Collins GS. Minimum sample
size required for developing a multivariable prediction model: Part I continuous outcomes. Statistics
in Medicine. 2018 (in-press).
Riley RD, Snell KIE, Ensor J, Burke DL, Harrell FE, Jr., Moons KG, Collins GS. Minimum sample
size required for developing a multivariable prediction model: Part II binary and time-to-event
outcomes. Statistics in Medicine. 2018 (in-press).
Riley, RD, Van Calster, B, Collins, GS. A note on estimating the Cox-Snell R2 from a reported
C statistic (AUROC) to inform sample size calculations for developing a prediction model with a
binary outcome. Statistics in Medicine. 2020.
基于R pmsampsize包开展
计算结果
EPV法:主要基于经验根据纳入模型变量数开展预测模型样本量计算
总自变量数:预期建模的自变量个数
EPV:events per variable,默认为10EPV,可根据需求填写
训练集样本量比例:训练集样本量/总样本量
发生率:若阳性事件发生率<0.5,则填阳性事件发生率;反之则填1-阳性事件发生率
预期事件发生率:预期结局事件的发生率
参考文献
Vittinghoff E, McCulloch C.E. Relaxing the rule of ten events per variable in logistic and Cox regression. Am J Epidemiol. 2007;165(6):710–718.
Yuan X, Xu Q, Du F,et al. Development and validation of a model to predict cognitive impairment in traumatic brain injury patients: a prospective observational study. EClinicalMedicine. 2025 Jan 2;80:103023.