此页面由 Cloud Translation API 翻译。

收集 Censys 日志

支持的语言：

Google SecOps SIEM

本文档介绍了如何使用 Amazon S3 将 Censys 日志注入到 Google Security Operations。Censys 通过其 API 提供全面的攻击面管理和互联网情报。通过此集成，您可以从 Censys ASM 收集主机发现事件、风险事件和资产变更，并将它们转发到 Google SecOps 以进行分析和监控。解析器会将原始日志转换为符合 Google SecOps UDM 的结构化格式。它从原始日志消息中提取字段，执行数据类型转换，并将提取的信息映射到相应的 UDM 字段，从而使用更多上下文和标签来丰富数据。

准备工作

请确保满足以下前提条件：

Google SecOps 实例
对 Censys ASM 的特权访问权限
对 AWS（S3、IAM、Lambda、EventBridge）的特权访问权限

收集 Censys 前提条件（API 凭据）

前往 app.censys.io，登录 Censys ASM 控制台。
前往页面顶部的集成。
复制并保存您的 API 密钥和组织 ID。
请注意 API 基准网址：https://api.platform.censys.io

为 Google SecOps 配置 AWS S3 存储桶和 IAM

按照以下用户指南创建 Amazon S3 存储桶：创建存储桶
保存存储桶名称和区域以供日后参考（例如 censys-logs）。
按照以下用户指南创建用户：创建 IAM 用户。
选择创建的用户。
选择安全凭据标签页。
在访问密钥部分中，点击创建访问密钥。
选择第三方服务作为使用情形。
点击下一步。
可选：添加说明标记。
点击创建访问密钥。
点击 Download CSV file（下载 CSV 文件），保存访问密钥和不公开的访问密钥以供日后使用。
点击完成。
选择权限标签页。
在权限政策部分中，点击添加权限。
选择添加权限。
选择直接附加政策
搜索并选择 AmazonS3FullAccess 政策。
点击下一步。
点击添加权限。

为 S3 上传配置 IAM 政策和角色

在 AWS 控制台中，依次前往 IAM > 政策 > 创建政策 > JSON 标签页。

输入以下政策：

{
  "Version": "2012-10-17",
  "Statement": [
    {
      "Sid": "AllowPutObjects",
      "Effect": "Allow",
      "Action": "s3:PutObject",
      "Resource": "arn:aws:s3:::censys-logs/*"
    },
    {
      "Sid": "AllowGetStateObject",
      "Effect": "Allow",
      "Action": "s3:GetObject",
      "Resource": "arn:aws:s3:::censys-logs/censys/state.json"
    }
  ]
}

如果您输入了其他存储桶名称，请替换 censys-logs。

依次点击下一步 > 创建政策。
依次前往 IAM > 角色 > 创建角色 > AWS 服务 > Lambda。
附加新创建的政策和 AWSLambdaBasicExecutionRole 受管政策（用于 CloudWatch Logs 访问权限）。
将角色命名为 censys-lambda-role，然后点击创建角色。

创建 Lambda 函数

在 AWS 控制台中，依次前往 Lambda > 函数 > 创建函数。
点击从头开始创作。
提供以下配置详细信息：

设置	值
名称	`censys-data-collector`
运行时	Python 3.13
架构	x86_64
执行角色	`censys-lambda-role`

创建函数后，打开 Code 标签页，删除桩代码并输入以下代码 (censys-data-collector.py)：

import json
import boto3
import urllib3
import gzip
import logging
import os
from datetime import datetime, timedelta, timezone
from typing import Dict, List, Any, Optional
from urllib.parse import urlencode

# Configure logging
logger = logging.getLogger()
logger.setLevel(logging.INFO)

# AWS S3 client
s3_client = boto3.client('s3')
# HTTP client
http = urllib3.PoolManager()

# Environment variables
S3_BUCKET = os.environ['S3_BUCKET']
S3_PREFIX = os.environ['S3_PREFIX']
STATE_KEY = os.environ['STATE_KEY']
CENSYS_API_KEY = os.environ['CENSYS_API_KEY']
CENSYS_ORG_ID = os.environ['CENSYS_ORG_ID']
API_BASE = os.environ.get('API_BASE', 'https://api.platform.censys.io')

class CensysCollector:
    def __init__(self):
        self.headers = {
            'Authorization': f'Bearer {CENSYS_API_KEY}',
            'X-Organization-ID': CENSYS_ORG_ID,
            'Content-Type': 'application/json'
        }

    def get_last_collection_time(self) -> Optional[datetime]:
        """Get the last collection timestamp from S3 state file."""
        try:
            response = s3_client.get_object(Bucket=S3_BUCKET, Key=STATE_KEY)
            state = json.loads(response['Body'].read().decode('utf-8'))
            return datetime.fromisoformat(state.get('last_collection_time', '2024-01-01T00:00:00Z'))
        except Exception as e:
            logger.info(f"No state file found or error reading state: {e}")
            return datetime.now(timezone.utc) - timedelta(hours=1)

    def save_collection_time(self, collection_time: datetime):
        """Save the current collection timestamp to S3 state file."""
        state = {'last_collection_time': collection_time.strftime('%Y-%m-%dT%H:%M:%SZ')}
        s3_client.put_object(
            Bucket=S3_BUCKET,
            Key=STATE_KEY,
            Body=json.dumps(state),
            ContentType='application/json'
        )

    def collect_logbook_events(self, cursor: str = None) -> List[Dict[str, Any]]:
        """Collect logbook events from Censys ASM API using cursor-based pagination."""
        events = []
        url = f"{API_BASE}/v3/logbook"

        # Use cursor-based pagination as per Censys API documentation
        params = {}
        if cursor:
            params['cursor'] = cursor

        try:
            query_string = urlencode(params) if params else ''
            full_url = f"{url}?{query_string}" if query_string else url

            response = http.request('GET', full_url, headers=self.headers)

            if response.status != 200:
                logger.error(f"API request failed with status {response.status}: {response.data}")
                return []

            data = json.loads(response.data.decode('utf-8'))
            events.extend(data.get('logbook_entries', []))

            # Handle cursor-based pagination
            next_cursor = data.get('next_cursor')
            if next_cursor:
                events.extend(self.collect_logbook_events(next_cursor))

            logger.info(f"Collected {len(events)} logbook events")
            return events

        except Exception as e:
            logger.error(f"Error collecting logbook events: {e}")
            return []

    def collect_risks_events(self) -> List[Dict[str, Any]]:
        """Collect risk events from Censys ASM API."""
        events = []
        url = f"{API_BASE}/v3/risks"

        try:
            response = http.request('GET', url, headers=self.headers)

            if response.status != 200:
                logger.error(f"API request failed with status {response.status}: {response.data}")
                return []

            data = json.loads(response.data.decode('utf-8'))
            events.extend(data.get('risks', []))

            logger.info(f"Collected {len(events)} risk events")
            return events

        except Exception as e:
            logger.error(f"Error collecting risk events: {e}")
            return []

    def save_events_to_s3(self, events: List[Dict[str, Any]], event_type: str):
        """Save events to S3 in compressed NDJSON format."""
        if not events:
            return

        timestamp = datetime.now(timezone.utc).strftime('%Y%m%d_%H%M%S')
        filename = f"{S3_PREFIX}{event_type}_{timestamp}.json.gz"

        try:
            # Convert events to newline-delimited JSON
            ndjson_content = 'n'.join(json.dumps(event, separators=(',', ':')) for event in events)

            # Compress with gzip
            gz_bytes = gzip.compress(ndjson_content.encode('utf-8'))

            s3_client.put_object(
                Bucket=S3_BUCKET,
                Key=filename,
                Body=gz_bytes,
                ContentType='application/gzip',
                ContentEncoding='gzip'
            )

            logger.info(f"Saved {len(events)} {event_type} events to {filename}")

        except Exception as e:
            logger.error(f"Error saving {event_type} events to S3: {e}")
            raise

def lambda_handler(event, context):
    """AWS Lambda handler function."""
    try:
        collector = CensysCollector()

        # Get last collection time for cursor state management
        last_collection_time = collector.get_last_collection_time()
        current_time = datetime.now(timezone.utc)

        logger.info(f"Collecting events since {last_collection_time}")

        # Collect different types of events
        logbook_events = collector.collect_logbook_events()
        risk_events = collector.collect_risks_events()

        # Save events to S3
        collector.save_events_to_s3(logbook_events, 'logbook')
        collector.save_events_to_s3(risk_events, 'risks')

        # Update state
        collector.save_collection_time(current_time)

        return {
            'statusCode': 200,
            'body': json.dumps({
                'message': 'Censys data collection completed successfully',
                'logbook_events': len(logbook_events),
                'risk_events': len(risk_events),
                'collection_time': current_time.strftime('%Y-%m-%dT%H:%M:%SZ')
            })
        }

    except Exception as e:
        logger.error(f"Lambda execution failed: {str(e)}")
        return {
            'statusCode': 500,
            'body': json.dumps({
                'error': str(e)
            })
        }

依次前往配置 > 环境变量 > 修改 > 添加新的环境变量。

输入以下环境变量，并替换为您的值：

键	示例值
`S3_BUCKET`	`censys-logs`
`S3_PREFIX`	`censys/`
`STATE_KEY`	`censys/state.json`
`CENSYS_API_KEY`	`<your-censys-api-key>`
`CENSYS_ORG_ID`	`<your-organization-id>`
`API_BASE`	`https://api.platform.censys.io`

创建函数后，请停留在其页面上（或依次打开 Lambda > 函数 > 您的函数）。
选择配置标签页。
在常规配置面板中，点击修改。
将超时更改为 5 分钟（300 秒），然后点击保存。

创建 EventBridge 计划

依次前往 Amazon EventBridge > 调度程序 > 创建计划。
提供以下配置详细信息：
- 周期性安排：费率 (1 hour)。
- 目标：您的 Lambda 函数 censys-data-collector。
- 名称：censys-data-collector-1h。
点击创建时间表。

可选：为 Google SecOps 创建只读 IAM 用户和密钥

在 AWS 控制台中，依次前往 IAM > 用户 > 添加用户。
点击 Add users（添加用户）。
提供以下配置详细信息：
- 用户：secops-reader。
- 访问类型：访问密钥 - 以程序化方式访问。
点击创建用户。
附加最低限度的读取政策（自定义）：用户 > secops-reader > 权限 > 添加权限 > 直接附加政策 > 创建政策。

在 JSON 编辑器中，输入以下政策：

{
  "Version": "2012-10-17",
  "Statement": [
    {
      "Effect": "Allow",
      "Action": ["s3:GetObject"],
      "Resource": "arn:aws:s3:::censys-logs/*"
    },
    {
      "Effect": "Allow",
      "Action": ["s3:ListBucket"],
      "Resource": "arn:aws:s3:::censys-logs"
    }
  ]
}

将名称设置为 secops-reader-policy。
依次前往创建政策 > 搜索/选择 > 下一步 > 添加权限。
依次前往安全凭据 > 访问密钥 > 创建访问密钥。
下载 CSV（这些值会输入到 Feed 中）。

在 Google SecOps 中配置 Feed 以注入 Censys 日志

依次前往 SIEM 设置> Feed。
点击 + 添加新 Feed。
在Feed 名称字段中，输入 Feed 的名称（例如 Censys logs）。
选择 Amazon S3 V2 作为来源类型。
选择 CENSYS 作为日志类型。
点击下一步。
为以下输入参数指定值：
- S3 URI：s3://censys-logs/censys/
- 来源删除选项：根据您的偏好设置选择删除选项。
- 文件存在时间上限：包含在过去指定天数内修改的文件。默认值为 180 天。
- 访问密钥 ID：有权访问 S3 存储桶的用户访问密钥。
- 私有访问密钥：具有 S3 存储桶访问权限的用户私有密钥。
- 资源命名空间：资源命名空间。
- 注入标签：应用于此 Feed 中事件的标签。
点击下一步。
在最终确定界面中查看新的 Feed 配置，然后点击提交。

UDM 映射表

日志字段	UDM 映射	逻辑
assetId	read_only_udm.principal.asset.hostname	如果 assetId 字段不是 IP 地址，则会映射到 principal.asset.hostname。
assetId	read_only_udm.principal.asset.ip	如果 assetId 字段是 IP 地址，则会映射到 principal.asset.ip。
assetId	read_only_udm.principal.hostname	如果 assetId 字段不是 IP 地址，则会映射到 principal.hostname。
assetId	read_only_udm.principal.ip	如果 assetId 字段是 IP 地址，则会映射到 principal.ip。
associatedAt	read_only_udm.security_result.detection_fields.value	associatedAt 字段映射到 security_result.detection_fields.value。
autonomousSystem.asn	read_only_udm.additional.fields.value.string_value	autonomousSystem.asn 字段会转换为字符串，并映射到 additional.fields.value.string_value，键为“autonomousSystem_asn”。
autonomousSystem.bgpPrefix	read_only_udm.additional.fields.value.string_value	autonomousSystem.bgpPrefix 字段映射到 additional.fields.value.string_value，键为“autonomousSystem_bgpPrefix”。
横幅	read_only_udm.principal.resource.attribute.labels.value	横幅字段映射到键为“banner”的 principal.resource.attribute.labels.value。
云	read_only_udm.metadata.vendor_name	云字段映射到 metadata.vendor_name。
comments.refUrl	read_only_udm.network.http.referral_url	comments.refUrl 字段映射到 network.http.referral_url。
data.cve	read_only_udm.additional.fields.value.string_value	data.cve 字段映射到键为“data_cve”的 additional.fields.value.string_value。
data.cvss	read_only_udm.additional.fields.value.string_value	data.cvss 字段映射到具有键“data_cvss”的 additional.fields.value.string_value。
data.ipAddress	read_only_udm.principal.asset.ip	如果 data.ipAddress 字段不等于 assetId 字段，则会映射到 principal.asset.ip。
data.ipAddress	read_only_udm.principal.ip	如果 data.ipAddress 字段不等于 assetId 字段，则会将其映射到 principal.ip。
data.location.city	read_only_udm.principal.location.city	如果 location.city 字段为空，则将 data.location.city 字段映射到 principal.location.city。
data.location.countryCode	read_only_udm.principal.location.country_or_region	如果 location.country 字段为空，则 data.location.countryCode 字段会映射到 principal.location.country_or_region。
data.location.latitude	read_only_udm.principal.location.region_coordinates.latitude	如果 location.coordinates.latitude 和 location.geoCoordinates.latitude 字段为空，则将 data.location.latitude 字段转换为浮点数，并映射到 principal.location.region_coordinates.latitude。
data.location.longitude	read_only_udm.principal.location.region_coordinates.longitude	如果 location.coordinates.longitude 和 location.geoCoordinates.longitude 字段为空，则将 data.location.longitude 字段转换为浮点数，并映射到 principal.location.region_coordinates.longitude。
data.location.province	read_only_udm.principal.location.state	如果 location.province 字段为空，则 data.location.province 字段会映射到 principal.location.state。
data.mailServers	read_only_udm.additional.fields.value.list_value.values.string_value	data.mailServers 数组中的每个元素都会映射到单独的 additional.fields 条目，其中键为“Mail Servers”，value.list_value.values.string_value 设置为相应元素的值。
data.names.forwardDns[].name	read_only_udm.network.dns.questions.name	data.names.forwardDns 数组中的每个元素都会映射到单独的 network.dns.questions 条目，并将 name 字段设置为相应元素的 name 字段。
data.nameServers	read_only_udm.additional.fields.value.list_value.values.string_value	data.nameServers 数组中的每个元素都会映射到单独的 additional.fields 条目，其中键为“Name nameServers”，value.list_value.values.string_value 设置为相应元素的值。
data.protocols[].transportProtocol	read_only_udm.network.ip_protocol	如果 data.protocols[].transportProtocol 字段是 TCP、EIGRP、ESP、ETHERIP、GRE、ICMP、IGMP、IP6IN4、PIM、UDP 或 VRRP 之一，则会映射到 network.ip_protocol。
data.protocols[].transportProtocol	read_only_udm.principal.resource.attribute.labels.value	data.protocols[].transportProtocol 字段映射到 principal.resource.attribute.labels.value，键为“data_protocols {index}”。
http.request.headers[].key, http.request.headers[].value.headers.0	read_only_udm.network.http.user_agent	如果 http.request.headers[].key 字段为“User-Agent”，则相应的 http.request.headers[].value.headers.0 字段会映射到 network.http.user_agent。
http.request.headers[].key, http.request.headers[].value.headers.0	read_only_udm.network.http.parsed_user_agent	如果 http.request.headers[].key 字段为“User-Agent”，则相应的 http.request.headers[].value.headers.0 字段会被解析为用户代理字符串并映射到 network.http.parsed_user_agent。
http.request.headers[].key, http.request.headers[].value.headers.0	read_only_udm.principal.resource.attribute.labels.key、read_only_udm.principal.resource.attribute.labels.value	对于 http.request.headers 数组中的每个元素，key 字段会映射到 principal.resource.attribute.labels.key，value.headers.0 字段会映射到 principal.resource.attribute.labels.value。
http.request.uri	read_only_udm.principal.asset.hostname	提取 http.request.uri 字段的主机名部分，并将其映射到 principal.asset.hostname。
http.request.uri	read_only_udm.principal.hostname	提取 http.request.uri 字段的主机名部分，并将其映射到 principal.hostname。
http.response.body	read_only_udm.principal.resource.attribute.labels.value	http.response.body 字段映射到 principal.resource.attribute.labels.value，键为“http_response_body”。
http.response.headers[].key, http.response.headers[].value.headers.0	read_only_udm.target.hostname	如果 http.response.headers[].key 字段为“Server”，则相应的 http.response.headers[].value.headers.0 字段会映射到 target.hostname。
http.response.headers[].key, http.response.headers[].value.headers.0	read_only_udm.principal.resource.attribute.labels.key、read_only_udm.principal.resource.attribute.labels.value	对于 http.response.headers 数组中的每个元素，key 字段会映射到 principal.resource.attribute.labels.key，而 value.headers.0 字段会映射到 principal.resource.attribute.labels.value。
http.response.statusCode	read_only_udm.network.http.response_code	http.response.statusCode 字段会转换为整数并映射到 network.http.response_code。
ip	read_only_udm.target.asset.ip	ip 字段已映射到 target.asset.ip。
ip	read_only_udm.target.ip	ip 字段映射到 target.ip。
isSeed	read_only_udm.additional.fields.value.string_value	isSeed 字段会转换为字符串，并映射到键为“isSeed”的 additional.fields.value.string_value。
location.city	read_only_udm.principal.location.city	location.city 字段会映射到 principal.location.city。
location.continent	read_only_udm.additional.fields.value.string_value	location.continent 字段映射到键为“location_continent”的 additional.fields.value.string_value。
location.coordinates.latitude	read_only_udm.principal.location.region_coordinates.latitude	location.coordinates.latitude 字段转换为浮点数，并映射到 principal.location.region_coordinates.latitude。
location.coordinates.longitude	read_only_udm.principal.location.region_coordinates.longitude	location.coordinates.longitude 字段会转换为浮点数，并映射到 principal.location.region_coordinates.longitude。
location.country	read_only_udm.principal.location.country_or_region	location.country 字段会映射到 principal.location.country_or_region。
location.geoCoordinates.latitude	read_only_udm.principal.location.region_coordinates.latitude	如果 location.coordinates.latitude 字段为空，则将 location.geoCoordinates.latitude 字段转换为浮点数，并映射到 principal.location.region_coordinates.latitude。
location.geoCoordinates.longitude	read_only_udm.principal.location.region_coordinates.longitude	如果 location.coordinates.longitude 字段为空，则将 location.geoCoordinates.longitude 字段转换为浮点数，并映射到 principal.location.region_coordinates.longitude。
location.postalCode	read_only_udm.additional.fields.value.string_value	location.postalCode 字段映射到键为“Postal code”的 additional.fields.value.string_value。
location.province	read_only_udm.principal.location.state	location.province 字段映射到 principal.location.state。
操作	read_only_udm.security_result.action_details	操作字段会映射到 security_result.action_details。
perspectiveId	read_only_udm.principal.group.product_object_id	perspectiveId 字段映射到 principal.group.product_object_id。
端口	read_only_udm.principal.port	端口字段会转换为整数并映射到 principal.port。
risks[].severity、risks[].title	read_only_udm.security_result.category_details	将 risks[].severity 字段与 risks[].title 字段串联，并映射到 security_result.category_details。
serviceName	read_only_udm.network.application_protocol	如果 serviceName 字段为“HTTP”或“HTTPS”，则会映射到 network.application_protocol。
sourceIp	read_only_udm.principal.asset.ip	sourceIp 字段映射到 principal.asset.ip。
sourceIp	read_only_udm.principal.ip	sourceIp 字段映射到 principal.ip。
时间戳	read_only_udm.metadata.event_timestamp	时间戳字段会被解析为时间戳，并映射到 metadata.event_timestamp。
transportFingerprint.id	read_only_udm.metadata.product_log_id	transportFingerprint.id 字段转换为字符串并映射到 metadata.product_log_id。
transportFingerprint.raw	read_only_udm.additional.fields.value.string_value	transportFingerprint.raw 字段映射到 additional.fields.value.string_value，键为“transportFingerprint_raw”。
类型	read_only_udm.metadata.product_event_type	type 字段会映射到 metadata.product_event_type。
-	read_only_udm.metadata.product_name	值“CENSYS_ASM”已分配给 metadata.product_name。
-	read_only_udm.metadata.vendor_name	值“CENSYS”已分配给 metadata.vendor_name。
-	read_only_udm.metadata.event_type	事件类型根据特定字段的存在情况来确定：如果 has_princ_machine_id 和 has_target_machine 为 true 且 has_network_flow 为 false，则为 NETWORK_CONNECTION；如果 has_network_flow 为 true，则为 NETWORK_DNS；如果 has_princ_machine_id 为 true，则为 STATUS_UPDATE；否则为 GENERIC_EVENT。