常见的 GKE Enterprise 用户角色和任务
在 GKE Enterprise 内容中,每个文档通常都是针对特定需求或帮助解决您可能遇到的业务问题而编写的。这些需求通常是由组织中的各种团队和角色共同承担的责任。本文档列出了我们内容中引用的一些常见用户角色、责任和任务。
此示例用户角色列表并不详尽,因为每个组织各不相同。您的角色、责任和任务可能与以下常见示例不完全一致。将您的独特角色和责任映射到本文档中介绍的角色和责任,可帮助您更好地识别适用于您的文档。
常见的角色原型
我们的内容中经常会提及常见用户角色的以下简要领域:
管理员和架构师
管理员和架构师负责管理和构建云平台和产品。以下常见用户角色属于高级管理员和架构师领域:
- 云架构师
- IT 管理员
- 身份和账号管理员
本部分介绍属于管理员和架构师的常见用户角色。
云架构师
云架构师负责确定实现产品和业务目标所需的 IaaS、PaaS、SaaS 和本地组件的适当组合。他们在设计解决方案架构时会考虑效率、费用、安全性和治理限制条件。
云架构师的常见任务包括以下示例:
- 根据公司策略与主要利益相关方协调定义 IT 解决方案和系统架构。
- 优化系统架构和资源,以确保公司或业务部门的总拥有成本最低。
- 重新设计其当前架构,以确保他们可以与现有集成和第三方服务无缝迁移。
- 定义迁移到云端(包括应用和数据库)的策略和系统架构。
IT 管理员
IT 管理员负责组织的计算机系统、服务器和数据安全系统的维护、配置和可靠运行。他们可确保组织的 IT 基础设施安全、高效且处于最新状态。
IT 管理员的常见任务包括以下示例:
- 设置、监控和管理云基础设施,包括备份基础设施。
- 定义并强制执行组织级备份政策。
- 设置提醒并监控 IT 系统是否存在性能问题和漏洞。
- 管理组织政策、用户和群组预配,以及设置资源层次结构、配额政策。
- 接收并响应跨平台的合规性问题和审核情况。
- 评估备份解决方案,并与 IT 和基础设施所有者协作以选择解决方案。
- 通过提供并维护自动化来强制执行合规性(例如备份政策),确保在云平台中运行的所有资源都符合组织合规性要求。
身份和账号管理员
身份和账号管理员负责管理组织政策、用户政策和用户访问权限。他们管理公司中的身份环境(例如 Active Directory),并预配用户和群组以根据角色和功能政策访问平台、工具和资源。
身份和账号管理员的常见任务包括以下示例:
- 创建用户账号并管理与 IT 工具(例如 Google Cloud 和组织应用)的集成。
- 在应用与身份工具之间构建和部署集成。
- 管理和控制身份基础设施工具。
- 排查、诊断和修复与 IAM 工具相关的问题或服务中断。
- 手动为关键或高风险应用预配访问权限。
- 管理与身份和访问权限预配相关的流程。
- 管理基于作业的用户群组和群组设置。
- 根据需要定义和创建自定义用户角色。
- 创建和管理与用户权限相关的政策。
运算符
运维人员管理和优化应用的部署和运营。以下常见用户角色属于高级运维人员领域:
- 平台管理员和运维人员
- 应用运维人员和站点可靠性工程 (SRE)
- DevOps
本部分介绍了运维人员领域中的常见用户角色。
平台管理员和运维人员
平台管理员和运维人员负责为应用团队预配和创建资源,以及管理其组织的中央基础设施。
平台管理员和运维人员的常见任务包括以下示例:
- 系统管理。
- 底层技术基础设施的生命周期管理。
- GitOps 的实现。
应用运维人员和 SRE
应用运维人员和站点可靠性工程 (SRE) 负责确保软件系统可靠、可扩缩、性能高。他们使用软件和自动化功能来管理和监控系统,并与开发者密切合作,以确保对代码的更改不会影响可靠性。
应用运维人员和 SRE 的常见任务包括以下示例:
- 设置
- 发布和管理其应用或服务的 API。
- 规划容量和基础设施需求。
- 创建提醒政策。
- 监控
- 监控已部署应用或服务的运行状况(例如为了实现服务等级目标 [SLO] 合规性),有时还会维护其底层基础设施。
- 监控持续发布的版本的运行状况。
- 当 SLO 或应用出现故障时,响应提醒和页面。
- 通过调试查找根本原因。
- 部署
- 将应用和服务部署到生产环境。
- 授予将应用或服务部署到生产环境的权限。
- 测试和部署新的服务实例、版本、问题修复或安全补丁。
- 构建和使用发布流水线和持续集成 / 持续开发 (CI/CD) 堆栈。
DevOps
DevOps 的作用是将开发和运营相结合,以提高软件开发和交付的速度、安全性和效率。他们负责确保云应用的可靠性和性能,例如制定服务等级目标 (SLO)、评估服务等级指标 (SLI),以及识别和解决可能影响 SLO 目标的问题。
DevOps 的常见任务包括以下示例:
- 设置 DevOps 流水线和基础设施。
- 维护 DevOps 流水线并对其进行现代化改造。
- 自动部署。
- 生成声明式配置的模板。
- 持续监控部署。
开发者
开发者编写代码来构建应用和平台基础设施。以下常见用户角色属于高级开发者领域:
- 应用开发者
- 平台工程师
本部分介绍了开发者领域中的常见用户角色。
应用开发者
应用开发者为最终在 Google Cloud 等云平台上运行的应用编写代码。组织依靠开发者向其数字平台添加功能并为最终用户增加价值。
应用开发者的常见任务包括以下示例:
- 编写应用和测试代码。
- 调试代码并排查问题。
- 查看其他开发者的代码。
- 向应用添加新功能,并将其提交到版本控制。
- 创建设计文档并将其展示给工程和产品同事。
- 了解和评估新技术。
根据组织的规模和成熟度,他们可能还负责以下任务:
- 管理 DevOps 流水线和流程。
- 管理应用安全。
- 预配和配置云资源。
- 对应用执行数据管理,例如截取快照或备份数据,以及在发生故障时恢复应用。
- 研究和评估新技术。
- 发现并修复生产环境中的问题。
- 响应系统运行状况提醒,例如值班职责。
- 定义和维护数据库架构以进行数据存储和检索。
- 查询要在应用和服务中使用的数据库。
平台工程师
平台工程师负责构建服务和工具的集中式平台,以帮助使开发流程更高效、可靠、安全且符合法规。
平台工程师的常见任务包括以下示例:
- 评估组织的新技术。
- 监督其组织的云、应用或平台架构。
- 为应用团队创建可重复使用的流水线、流程、信息中心和工具。
- 控制应用团队可以和不能使用哪些技术来开发应用和服务。
- 测试和发布新版本的平台和基础设施。
- 容量管理和费用优化。
- 确定组织将为应用团队提供的基础设施服务。
- 预配并配置新的数据库资源,以确保可用性、性能和合规性,以及管理费用。
- 在数据库与需要数据的应用和服务之间建立和维护连接。
安全专家
安全专家定义、治理并实施政策和程序,以保护组织的数据免遭未经授权的访问。以下常见用户角色属于高级安全专家领域:
- 安全工程师
本部分介绍了安全专家领域中的常见用户角色。
安全工程师
安全工程师与其他用户角色协作,以根据行业和区域法规确定合规性要求。他们管理多个安全功能,并负责实现系统配置以满足定义的要求。
安全工程师的常见任务包括以下示例:
- 定义系统的配置方式以确保符合法规和要求。
- 实现对系统的更改和更新。
- 制定并维护安全政策。
- 支持解决需要策略帮助的安全问题或漏洞,例如从支持部门上报的突发事件和问题。
- 运行扫描并管理持续的安全监控。
- 管理多个安全功能和工具。
网络专家
网络专家定义、实现和维护网络架构。以下常见用户角色属于高级网络专家领域:
- 网络架构师
- 网络管理员
- 网络工程师
本部分介绍网络专家领域中的常见用户角色。
网络架构师
网络架构师是设计、构建和维护云端网络的技术专业人员。他们负责确保云网络的可靠、安全、可扩缩性和高性能。网络架构师通常对云网络技术、服务和最佳做法有深入了解。
网络架构师的常见任务包括以下示例:
- 为他们的组织设计和构建网络。
- 制定网络规范。
- 规划网络安全。
- 网络维护。
网络管理员
网络管理员负责安装、配置、维护和排查计算机网络。他们在确保组织的网络顺畅、高效运行,使员工能够访问完成工作所需的资源方面起着至关重要的作用。
网络管理员的常见任务包括以下示例:
- 为他们的组织设计和构建网络。
- 监控网络性能。
- 设置新网络。
- 管理网络安全。
- 排查和解决网络问题。
网络工程师
网络工程师负责网络实现,包括构建基础设施和网络、更换设备、添加新设备,以及满足新要求和提供新服务。
网络工程师的常见任务包括以下示例:
- 安装、配置和支持网络设备。
- 通过设计系统配置和指导系统安装建立网络环境。
- 实现防火墙等数据安全系统。
- 执行网络维护。
- 分析和解决网络性能问题。
数据和 AI 专家
数据和 AI 专家会收集、整理和分析数据,以帮助做出明智的业务决策以及开发具有竞争力的 AI 解决方案。以下常见用户角色属于高级数据和 AI 专家领域:
- 数据工程师
- 数据管理员
- 数据科学家
- 机器学习 (ML) 工程师
本部分介绍数据和 AI 专家领域中的常见用户角色。
数据工程师
数据工程师从数据源获取数据,并将其提供给合适的人员。他们还可能负责构建自助式工具,让其他人能够自行获取所需的数据。
数据工程师的常见任务包括以下示例:
- 设置和运营数据基础设施。
- 构建、维护和监控数据流水线。
- 将数据写入企业数据仓库 (EDW) 和数据库以及从企业数据仓库 (EDW) 和数据库读取数据。
- 编排不同的数据工作负载。
- 开发和实现数据模型以及执行数据转换。
- 构建工具和流程,使数据使用者能够独立访问所需的数据。
- 部署可直接用于生产的工作负载,例如机器学习 (ML)、商业智能 (BI) 或 ETL(提取、转换和加载)和 ELT(提取、加载、转换)。
数据管理员
数据管理员确保其公司的数据解决方案富有成效、高效且经济实惠。
数据管理员的常见任务包括以下示例:
- 配置数据环境。
- 管理数据备份和恢复。
- 优化系统以提升容量和效率。
- 监控性能指标并排查问题。
- 管理和优化费用。
- 运行审核。
- 管理元数据和其他数据资产。
- 管理和实施数据政策。
- 管理访问权限和权限。
- 对相关数据应用安全标记。
数据科学家
数据科学家的技能水平各不相同,从浅层机器学习(XGBoost、Scikit)到使用 PyTorch 和 TensorFlow 的深度机器学习,不一而足。他们的目标是构建最优模型来解决业务问题。他们重视速度和协作,并与数据科学同行和业务专家密切合作。
数据科学家的常见任务包括以下示例:
- 分析数据,创建统计和机器学习模型。
- 创建、训练和改善机器学习算法和模型。
- 评估第三方机器学习 API 的价格和质量。
- 清理要在统计模型中使用的数据集。
- 商讨如何利用机器学习技术来定义业务目标。
机器学习 (ML) 工程师
机器学习 (ML) 工程师是核心 MLOps 用户,拥有代码、机器学习和部署方面的专业知识。他们的目标是标准化机器学习做法并将模型付诸使用。
机器学习 (ML) 工程师的常见任务包括以下示例:
- 环境设置
- 部署
- 后期制作
- 治理
存储专家
存储专家在云和备份基础设施中预配和管理存储空间。以下常见用户角色属于高级存储专家领域:
- 存储管理员
- 备份和灾难恢复 (DR) 管理员
- 现场运维
本部分介绍存储专家领域中的常见用户角色。
存储管理员
存储管理员预配和管理存储基础设施以确保数据安全性和合规性,同时监控性能、使用情况和支出。作为这些责任的一部分,他们负责管理与存储相关的组织政策、权限和配额。
存储管理员的常见任务包括以下示例:
- 创建并分配存储空间。
- 配置和管理数据安全、保护以及访问权限和权限。
- 配置和管理生命周期政策与配额。
- 监控存储性能、使用情况和支出。
- (帮助)将存储空间与其他服务(例如 Google Cloud)连接。
备份和灾难恢复 (DR) 管理员
备份和灾难恢复 (DR) 管理员可以为其项目中的所有资源定义、实施、监控和排查基准数据保护政策。
备份和灾难恢复 (DR) 管理员的常见任务包括以下示例:
- 根据组织政策和法律政策,确保备份安全且受到保护。
- 为所有应用和数据库定义并创建备份方案。
- 在整个组织中管理和执行备份和恢复。
- 使应用团队能够在特定的保护措施内执行备份和恢复。
- 与身份和账号管理员协作,控制谁可以在备份和恢复方面执行哪些操作。
- 监控失败备份并进行问题排查。
- 为应用设计和执行灾难恢复计划。
- 组织并参与灾难恢复测试和练习。
- 创建报告以与集中式治理团队协调记录合规性。
- 创建 playbook 和准则,以供应用团队预配和保护其资源。
- 确保数据受到充分保护,可以防范灾难和意外删除。
现场运维
现场运维在数据中心或服务器机房中设置数据设备,以便成功转移数据。此角色还有助于设备维护,以便工程师可以成功移动和部署应用和模型。
现场运维的常见任务包括以下示例:
- 在设备到达客户现场时接收设备,并验证硬件和软件的完整性,以确保它们未被篡改。
- 在现场启动、连接并设置设备,以便团队可以成功移动数据。
- 在现场监控设备或设备状态,并帮助维护硬件和排查问题。
- 在数据迁移完成后或在设备生命周期结束时,准备设备并将其返还给 Google。