上传数据(目前支持10 M 以内的的各种格式数据集)
表格内容:
Loading...
数据库变量概览
一、基本情况
本平台数据导入格式为csv、excel、rds,也包括常见的SPSS软件格式、SAS软件的数据格式,数据集大小不超过10M.
Excel格式的数据集可自建,也可基于SPSS导出
CSV格式一般可以从excel导出或者基于SPSS导出;
初学者我建议从SPSS导出,因为SPSS具有固定的数据集格式,而EXCEL没有.
二、对数据集格式的要求
无论是CSV,还是excel格式,它的格式基本是相同的!
1.首行是变量名,一般是英文或者拼音,不建议用汉字,更不要有其它符合例如 (、*、%等。
2.从第二行开始,每一行都代表着一个研究对象的所有变量信息。
3.每一列都代表所有人一个变量的变量值
4.一般建议,CSV和excel中的变量值,建议用数字表示,比如男性=1,女性=2;血型(1、2、3、4),这种做法比较灵活,而且可以保证数据集在各统计软件通行无阻;对于数据集赋值不清者,请列一份变量赋值表
5.缺失值默认处理,一般是空白代替,不要写NA
6.除非特殊字符串(比如姓名),数据库变量值不要出现汉字或者英文字符串,会导致后续分析被卡。
三、如何整理出规范的数据集
如果你是数据分析高手,数据整理方法请自便,我觉得初学者最好将原始数据集导入到SPSS进行整理。
SPSS整理的特点是:
它具有固定的数据集格式、他有一些固定的计算、转换功能,对于初学者是足够用; 不像EXCEL一样不小心修改了数据值而你不知情。
当然我有些时候也会借助EXCEL进行修改。
记住了,SPSS数据集中变量值一般都是数字赋值。
如果需要转换变量类型 请在上表中进行转换,然后点击开始转换
1. 请输入新变量的名称(建议英文,不含特殊符号)
2. 请根据条件添加新变量值:
选择正态分布的变量后:超过Mean+3SD将直接赋值为Mean+3SD,同样低于Mean-3SD的数据将会赋值Mean-3SD
选择偏态分布的变量后:超过99.9%的数据将赋值第99.9%分位数,同样低于0.1%的数据将会赋值0.1%分位数
如果需要处理异常值, 请选择变量后点击开始处理
散点设置
适用分类或连续变量
适用分类或连续变量
适用分类变量
颜色分组变量
大小分组变量
仅适用于定量变量:
形状分组变量
散点颜色
散点形状
坐标轴设置
刻度加粗
标题加粗
X轴标题
Y轴标题
坐标轴转换
刻度以0为起点
下载设置
保存的类型
曲线页面
英文字体
图像预览
图例设置
仅在分组下显示图例
图例位置
散点颜色风格
配色方案选择
统计功能
是否拟合方程
开展相关性分析