实习总结篇
大家好,我们是西安理工大学理学院“数据科学与大数据技术”专业大三的学生宇文子璇,向嘉欣,许星晨,非常开心参与了由学院与行业领先企业美林数据联合举办的“数据分析项目实战特训营”。
特训营首日,在学院曲桢老师和韩涛老师的带领下,我们去到美林数据进行了企业参观,这也是我们第一次走出校园、走进大数据企业,通过沉浸式大数据展厅参观和行业认知专题讲座,我们对行业的发展和岗位要求及未来职业定位有了进一步的了解。集中实习中,我们以小组为单位选定了项目主题,在探索数据价值期间大家遇到各种问题和挑战,美林数据数智研究院副院长郭田奇老师也通过线上/线下方式,严谨细致地解答了我们的疑惑,同时分享了他在行业内项目落地的经验以及如何将理论知识应用到实际工作中的技巧。
经过两周的紧张筹备迎来了成果展示时刻,美林数据产业导师史旭栋老师、程浪老师和学院胡钢教授、曲桢老师、韩涛老师共同组成专家评审团,对我们小组汇报的《基于shapley值的风电设备齿轮油温组合预测》专题内容进行了细致点评,评审团从多个角度综合考量,最终评选出我们小组成为优秀项目小组。项目成果汇报获得认可,我们感到无比激动和自豪,这次经历不仅提升了我们的专业技能,更让我们对未来的职业道路充满了信心。
通过这次集中特训,我们深刻体会到了理论与实践相结合的重要性。书本上的知识为我们提供了坚实的理论基础,但实际项目中会遇到各类复杂的问题往往需要灵活运用所学知识才能解决。这种理论与实践的结合让我们更加深入地理解了风电行业相关设备的运作机制和数据分析等工具在企业的实际应用。
项目实战篇
小组选题:《风电设备齿轮箱油温预测》
小组组长:王萌萌
小组组员:向嘉欣、许星晨、宇文子璇、史锦轩、刘佳洋、孙志恒、孙建宝、张云博、李政道、魏嘉乐、范鑫
在紧张学习与实践演练中,我们进行了小组自由分组和项目主题选择,基于对预测分析类项目的兴趣,我们小组共同选定了《风电设备齿轮箱油温预测》主题,之后在美林数据资深数据分析师李金红老师的带领下,详细了解了该项目的背景和业务痛点。
项目初期,我们小组进行了大量关于风电设备齿轮油温监测、预测方法及PySpark在大数据分析中应用的相关文献研读。然而,很快我们便意识到项目数据集中潜藏的复杂性,例如数据逻辑错误(如最小值大于最大值)、统计异常(平均值偏离合理区间)、算法计算差异以及缺失值与异常值。经咨询产业导师和查阅资料了解到,由于设备在运行过程中存在多个传感器或传感器位置不同导致传回的数据存在着理解角度的误差,在真实工业环境中实属常态,这让我们真实感受到理论环境数据和真实产业环境数据存在的差距。我们选择采用KNNImputer填补了数据列的缺失值,并替换变量的异常值为各自均值,有效改善了数据质量。
在建模阶段,为避免模型地偶然性,我们运用了多种模型进行实验,通过计算MSE(均方误差)、MAE(平均绝对误差)和R²(决定系数)等关键性能指标,在不同模型中选择MAE最小的前三个模型—BP神经网络模型、DNN模型、Stacking回归,对其进行shapley值加权,旨在构建油温预测模型。为确保模型的有效性,我们将训练数据集按7:3的比例划分为训练集与测试集,以此评估模型的准确性、稳定性和泛化性。
通过这次集中特训,我们深刻体会到了理论与实践相结合的重要性。书本上的知识为我们提供了坚实的理论基础,但实际项目中会遇到各类复杂的问题往往需要灵活运用所学知识才能解决。这种理论与实践的结合让我们更加深入地理解了风电行业的运作机制和数据分析的实际应用。
集训期间,我们小组精心策划并分工合作,共同撰写了一篇专题论文和一篇项目成果汇报。这些内容尚显青涩,但我们诚挚地将其分享给大家,期待它能够成为一粒种子,对更多同学们的学习带来一些启发。
关注【数字工匠】微信公众号后台回复“西安理工大学理学院”即可领取详细论文和成果汇报全文。