项目实训1——数据开发部分の技术选型 环境搭建

张开发
2026/5/19 16:51:57 15 分钟阅读
项目实训1——数据开发部分の技术选型  环境搭建
CodeQ是一个面向代码数据整理与分析场景的代码质量评估平台主要解决在收集大规模开源代码时难以快速判断代码质量高低的问题。在大模型训练或代码分析任务中低质量代码如结构混乱、注释缺失、复杂度过高会直接影响后续模型效果但目前多数筛选仍依赖人工经验或简单规则效率较低。本项目以 GitHub 开源仓库为主要数据来源用户输入仓库地址后系统自动完成代码拉取、解析和基础质量分析并给出多维度的质量评估结果。平台重点关注代码可读性、复杂度、规范性和维护性等可量化指标而不是试图给出“绝对好坏”的主观判断。在实现过程中项目采用分布式数据处理框架对仓库中的代码文件进行批量解析提取如函数长度、圈复杂度、注释率等结构化特征并基于这些特征训练代码质量分类模型。评估结果通过 Web 页面进行展示支持按仓库和文件维度查看分析结果并辅助定位可能存在问题的代码区域。本项目的目标并非构建通用商业级平台而是通过完整实现“数据采集—特征工程—模型训练—系统展示”这一流程完成一次贴近真实工程场景的综合实践为后续从事数据工程或 AI 相关方向打下基础技术选型介绍由于需要批量拉去github的仓库内容进行分析涉及到的文件量较大且由于项目对实时性要求不高因此采用Spark对仓库代码分析模块进行操作。考虑到与SpringBoot2.7.0的兼容性此次Spark的环境为Spark3.0Scala2.12.10Java11Hadoop3.34环境搭建该项目的数据开发部分与原项目使用模块相同因此采用以下promt让trae根据原有的pom.xml进行新项目的构建请帮我从原有项目读取pom.xml配置并基于这些配置创建新的GitHub代码质量分析项目。 ## 原项目信息 - 原项目根目录D:\develop\project\logAnalysisJob - 原项目包含以下pom文件 - 根pomD:\develop\project\logAnalysisJob\pom.xml - backend子模块D:\develop\project\logAnalysisJob\backend\pom.xml ## 新项目信息 - 新项目路径D:\develop\project\githubCodeAnalysisJob - 技术栈要求 - Java 11 - Scala 2.12.10 - Spark 3.0.0使用spark-core、spark-sql、spark-mllib不使用spark-streaming - Spring Boot 2.7.0 - MySQL 8.0 ## 需要完成的任务 ### 第一步读取并分析原项目配置 1. 读取原项目根pom.xmlD:\develop\project\logAnalysisJob\pom.xml提取 - 所有properties中的版本号scala.version、spark.version、spring-boot.version等 - dependencyManagement中的所有依赖定义 - pluginManagement中的所有插件配置 2. 读取原项目backend/pom.xmlD:\develop\project\logAnalysisJob\backend\pom.xml提取 - Spring Boot相关依赖配置 ### 第二步创建新项目目录结构 在新项目路径下创建以下目录 D:\develop\project\githubCodeAnalysisJob ├── pom.xml ├── common ├──>## 项目环境配置信息 ### 环境变量路径 - JAVA_HOME: D:\Java\jdk-11.0.15.1 - MAVEN_HOME: D:\develop\apache-maven-3.6.3 - HADOOP_HOME: D:\develop\hadoop-3.3.4 - GITHUB_TOKEN: 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 ### 项目路径 - 项目根目录: D:\develop\project\githubCodeAnalysisJob ### 注意事项 - SCALA_HOME: 不需要设置Maven插件管理 - SPARK_HOME: 不需要设置通过Maven依赖引入 - HADOOP_HOME已配置用于解决Windows下Spark读写本地文件的问题 ### 验证命令 bash java -version mvn -version hadoop version项目环境搭建后的目录如下环境测试基础环境测试基于以下的promt对配置好的环境进行测试该测试为极简测试包含清理、编译、打包请帮我执行以下命令验证 D:\develop\project\githubCodeAnalysisJob 项目 1. mvn clean compile 2. mvn test-compile 3. mvn package -DskipTests 请输出每个命令的执行结果如果有失败请指出具体模块和错误原因。这是测试结果进行简单的Spark任务测试基于SparkSQLpromt如下## 测试2Spark SQL功能测试 请读取 D:\develop\trae\env_config.txt 中的环境配置然后测试Spark SQL功能 在 />总结基于上述搭建 测试该项目数据开发的基础环境已经部署成功。下一篇将对github爬虫API SparkSQL分析进行测试。

更多文章