Amazon SageMaker是亚马逊AWS提供的一项托管式机器学习服务,旨在简化和加速机器学习开发的整个生命周期。它为机器学习工程师和数据科学家提供了一套完整的工具和功能,用于构建、训练、调优和部署机器学习模型。本文将会通过一个简单的例子,来介绍Sagemaker的使用,并且完成一个简单的深度学习任务
官方例子中的代码由于调用了一些SageMaker专用的SDK,因此需要在SageMaker的JupyterNotebook实例下进行。创建的操作如下:
进入后选择Amazon SageMaker
之后选择左侧边栏的笔记本->笔记本实例
点击创建笔记本实例。
之后选择打开Jupyter就可以进入Jupyter Notebook实例内
亚马逊创建Jupyter notebook实例相关内容
这里选择一个sagemake预测用户流失的例子,进行训练和部署的操作。
amazon-sagemaker-examples\introduction_to_applying_machine_learning\xgboost_customer_churn
进入JupyterNotebook实例中,点击Upload,将xgboost_customer_chun.ipynb上传到实例中。
点击这个ipynb文件,进入到实例中按步骤执行即可。
例子所有的代码都在xgboost_customer_chun.ipynb文件中,例子的前半部分都是对数据进行分析和清理,就不详细讲解。直接从清理之后的部分开始
将数据分成了训练集,验证集,测试集。并且将训练集和验证集保存成train.csv,validation.csv文件
train_data, validation_data, test_data = np.split(
model_data.sample(frac=1, random_state=1729),
[int(0.7 * len(model_data)), int(0.9 * len(model_data))],
)
train_data.to_csv("train.csv", header=False, index=False)
validation_data.to_csv("validation.csv", header=False, index=False)
之后将这两个数据上传到s3服务器中
boto3.Session().resource("s3").Bucket(bucket).Object(
os.path.join(prefix, "train/train.csv")
).upload_file("train.csv")
boto3.Session().resource("s3").Bucket(bucket).Object(
os.path.join(prefix, "validation/validation.csv")
).upload_file("validation.csv")
然后创建xgboost的容器
container = sagemaker.image_uris.retrieve("xgboost", sess.boto_region_name, "1.7-1")
display(container)
然后读取之前上传的两个csv文件作为训练的输入
s3_input_train = TrainingInput(
s3_data="s3://{}/{}/train".format(bucket, prefix), content_type="csv"
)
s3_input_validation = TrainingInput(
s3_data="s3://{}/{}/validation/".format(bucket, prefix), content_type="csv"
)
然后设置完超参数进行训练
sess = sagemaker.Session()
xgb = sagemaker.estimator.Estimator(
container,
role,
instance_count=1,
instance_type="ml.m4.xlarge",
output_path="s3://{}/{}/output".format(bucket, prefix),
sagemaker_session=sess,
)
xgb.set_hyperparameters(
max_depth=5,
eta=0.2,
gamma=4,
min_child_weight=6,
subsample=0.8,
verbosity=0,
objective="binary:logistic",
num_round=100,
)
xgb.fit({"train": s3_input_train, "validation": s3_input_validation})
等待训练完成之后,就可以把这个预测器进行部署
xgb_predictor = xgb.deploy(
initial_instance_count=1, instance_type="ml.m4.xlarge", serializer=CSVSerializer()
)
部署完成后就可以调用predict接口将一开始分出来的测试集进行预测
def predict(data, rows=500):
split_array = np.array_split(data, int(data.shape[0] / float(rows) + 1))
predictions = ""
for array in split_array:
predictions = "".join([predictions, xgb_predictor.predict(array).decode("utf-8")])
return predictions.split("\n")[:-1]
predictions = predict(test_data.to_numpy()[:, 1:])
最后就是对预测的结果正确性进行对比。
pd.crosstab(index=test_data.iloc[:, 0],columns=np.round(predictions),rownames=["actual"],colnames=["predictions"],)
下面是预测后的结果,绿色方框均为预测正确结果,红色方案内为预测错误的结果。正确率为94.6%
附上官方教程,教程内显示执行后的整个输出。(里面部分代码在真实环境中可能会报错,实际还是要用放在github上的代码)
创作不易,如果觉得这篇文章对你有所帮助,可以动动小手,点个赞哈,ღ( ´・ᴗ・` )比心