Auf dieser Seite wird beschrieben, wie Sie eine Cloud Data Fusion-Instanz mit einer internen IP-Adresse erstellen. Sie erstellen die Instanz in einem VPC-Netzwerk oder einem gemeinsam genutzten VPC-Netzwerk.
Eine private Cloud Data Fusion-Instanz bietet folgende Vorteile:
Verbindungen zur Instanz werden über ein privates VPC-Netzwerk in Ihrem Google Cloud Projekt hergestellt. Der Traffic über das Netzwerk wird nicht über das öffentliche Internet geleitet.
Die Instanz kann eine Verbindung zu Ihren lokalen Ressourcen wie relationalen Datenbanken herstellen, da Ihr lokales Netzwerk über Google Cloud Cloud VPN oder Cloud Interconnect mit dem privaten VPC-Netzwerk verbunden ist. Sie können über das private Netzwerk sicher auf Ihre lokalen Ressourcen wie Datenbanken zugreifen, ohne den Zugriff auf zu ermöglichen Google Cloud.
Ziele
- VPC-Netzwerk oder gemeinsam genutzte VPC einrichten.
- Einen IP-Bereich zuweisen, der zum Bereitstellen der Cloud Data Fusion-Instanz im Mandantenprojekt verwendet wird.
- Private Cloud Data Fusion-Instanz erstellen.
- VPC-Netzwerk-Peering zwischen der VPC, die die Cloud Data Fusion-Instanz enthält, und der VPC, die das zugehörige Mandantenprojekt enthält, einrichten.
- Für gemeinsam genutzte VPC-Netzwerke IAM-Berechtigungen (Identity and Access Management) einrichten.
- Wenn Ihre private Instanz Cloud Data Fusion Version 6.2.0 oder früher verwendet, eine Firewallregel erstellen.
- Aktivieren Sie den privater Google-Zugriff im Subnetz von Managed Service for Apache Spark, damit verschiedene Google Cloud Dienste intern miteinander kommunizieren können.
Hinweis
- Informationen zur Bereitstellungsarchitektur von Cloud Data Fusion finden Sie unter Netzwerke.
VPC-Netzwerk einrichten
Erstellen Sie ein VPC-Netzwerk oder ein gemeinsam genutztes VPC-Netzwerk, falls noch nicht geschehen.
Zum Einrichten Ihres VPC-Netzwerk müssen Sie einen IP-Adressbereich zuweisen.
IP-Bereich zuweisen
VPC-Netzwerk
Wenn Sie kein freigegebene VPC-Netzwerk verwenden, weist Cloud Data Fusion beim Erstellen einer Instanz standardmäßig einen IP-Bereich zu.
Freigegebene VPC-Netzwerk
Wenn Sie eine freigegebene VPC verwenden möchten, müssen Sie einen IP-Bereich für Ihre Cloud Data Fusion-Instanz zuweisen.
Führen Sie die folgenden Schritte aus, um Ihrer Cloud Data Fusion-Instanz einen IP-Bereich zuzuweisen:
Rufen Sie in der Google Cloud Console die Seite VPC-Netzwerke auf.
Klicken Sie in der Spalte Name auf das VPC-Netzwerk, in dem Sie eine private Cloud Data Fusion-Instanz erstellen möchten.
Die Seite VPC-Netzwerkdetails wird geöffnet.
Klicken Sie auf Private Dienstverbindung. Aktivieren Sie bei entsprechender Aufforderung die Service Networking API, indem Sie auf API aktivieren klicken.

Klicken Sie auf IP-Bereich zuweisen.
Geben Sie einen Namen für den IP-Bereich ein.
Klicken Sie für IP-Bereich auf Automatisch.
Geben Sie eine Präfixgröße von
22an.Klicken Sie auf Zuweisen.

Private Instanz erstellen
Erstellen Sie die private Cloud Data Fusion-Instanz in einem VPC-Netzwerk oder einem freigegebene VPC-Netzwerk.
VPC-Netzwerk
Verwenden Sie zum Erstellen der Instanz in einem VPC-Netzwerk entweder die Google Cloud Console oder cURL.
Wenn Sie die Google Cloud Console verwenden, um Ihre private Instanz zu erstellen,
weist Cloud Data Fusion standardmäßig den IP-Adressbereich /22 zu. Wenn Sie einen anderen IP-Bereich auswählen möchten, müssen Sie den cURL-Befehl verwenden.
Console
Rufen Sie die Seite Cloud Data Fusion-Instanz erstellen auf.
Geben Sie einen Instanznamen und eine Beschreibung für die Instanz ein.
Wählen Sie die Region aus, in der die Instanz erstellt werden soll.
Wählen Sie eine Version und Edition von Cloud Data Fusion aus.
Geben Sie das Dienstkonto für Managed Service for Apache Spark an, das zum Ausführen Ihrer Cloud Data Fusion-Pipeline in Managed Service for Apache Spark verwendet werden soll. Das Compute Engine-Standardkonto ist bereits ausgewählt.
Maximieren Sie das Menü Erweiterte Optionen und klicken Sie auf Private IP aktivieren.
Wählen Sie im Feld Netzwerk ein Netzwerk aus, in dem die Instanz erstellt werden soll.
Klicken Sie auf Erstellen. Es kann bis zu 30 Minuten dauern, bis die Instanz erstellt ist.
cURL
Sie können die folgenden Variablen exportieren oder diese Werte direkt in die folgenden Befehle einsetzen:
export PROJECT=PROJECT_ID
export LOCATION=REGION
export DATA_FUSION_API_NAME=datafusion.googleapis.com
Rufen Sie die
create()
Methode auf, um die Instanz zu erstellen:
curl -H "Authorization: Bearer $(gcloud auth print-access-token)" -H "Content-Type: application/json" https://$DATA_FUSION_API_NAME/v1/projects/$PROJECT/locations/$LOCATION/instances?instance_id=INSTANCE_ID -X POST -d '{"description": "Private CDF instance created through REST.", "type": "ENTERPRISE", "privateInstance": true, "networkConfig": {"network": "NETWORK_NAME", "ipAllocation": "IP_RANGE"}}'
Ersetzen Sie Folgendes:
INSTANCE_ID: Die ID-String, die die neue Instanz erhalten soll.NETWORK_NAME: Der Name des VPC-Netzwerk, in dem Sie die private Instanz erstellen möchten.IP_RANGE: Der zugewiesene IP Bereich. Sie finden den IP-Bereich in der Google Cloud Console unter VPC-Netzwerkdetails > Private Service Connect > Interner IP-Bereich .
Freigegebene VPC-Netzwerk
Verwenden Sie cURL, um die Instanz in einem freigegebene VPC-Netzwerk zu erstellen, nicht die Google Cloud Console.
cURL
Sie können die folgenden Variablen exportieren. Alternativ können Sie diese Werte direkt in die folgenden Befehle einsetzen:
export PROJECT=PROJECT_ID export LOCATION=REGION export DATA_FUSION_API_NAME=datafusion.googleapis.com
Rufen Sie die Methode create()
auf, um die Instanz zu erstellen:
curl -H "Authorization: Bearer $(gcloud auth print-access-token)" -H "Content-Type: application/json" https://$DATA_FUSION_API_NAME/v1/projects/$PROJECT/locations/$LOCATION/instances?instanceId=INSTANCE_ID -X POST -d '{"description": "Private CDF instance created through REST.", "type": "ENTERPRISE", "privateInstance": true, "networkConfig": {"network": "projects/SHARED_VPC_HOST_PROJECT_ID/global/networks/NETWORK_NAME", "ipAllocation": "IP_RANGE"}}'
Ersetzen Sie Folgendes:
INSTANCE_ID: Die ID-String, die die neue Instanz erhalten soll.SHARED_VPC_HOST_PROJECT_ID: Die ID des Projekts, das das freigegebene VPC hostet.NETWORK_NAME: Der Name des VPC-Netzwerk, in dem Sie die private Instanz erstellen möchten.IP_RANGE: Der zugewiesene IP-Bereich. Sie finden den IP-Bereich in der Google Cloud Console auf der Seite VPC-Netzwerkdetails unter Private Service Connect > Interner IP-Adressbereich.
VPC-Netzwerk-Peering einrichten
Cloud Data Fusion-Dienste, die Sie in Ihrer Entwicklungsumgebung verwenden (z. B. Wrangler, Connection Manager und Schema Validation), initiieren Netzwerkverbindungen von der VPC des Mandantenprojekts zu den Quellsystemen. Cloud Data Fusion setzt VPC-Netzwerk-Peering ein, um eine Netzwerk verbindung zur VPC oder freigegebene VPC herzustellen, die Ihre Instanz enthält. Mit dem VPC-Netzwerk-Peering kann Cloud Data Fusion über interne IP-Adressen auf Ressourcen in Ihrem Netzwerk zugreifen, indem Ihre eigene VPC und ihre Steuerelemente verwendet werden. Informationen zum Herstellen einer Verbindung zu einer Ressource in einem anderen Netzwerk finden Sie in den Schritten für Anwendungsfälle für Verbindungen.
Im folgenden Abschnitt wird beschrieben, wie Sie eine Peering-Konfiguration zwischen Ihrem Netzwerk und dem Cloud Data Fusion Mandantenprojekt erstellen.
Mandantenprojekt-ID abrufen
Sie benötigen die Mandantenprojekt-ID, um eine Peering-Konfiguration zu erstellen.
Rufen Sie die Seite Instanzen von Cloud Data Fusion auf.
Wählen Sie in der Spalte Instanzname die Instanz aus.
Kopieren Sie auf der Seite Instanzdetails die Mandantenprojekt-ID. Sie benötigen sie, wenn Sie in den folgenden Schritten eine Peering-Verbindung erstellen.
Peering-Verbindung erstellen
Rufen Sie die Seite VPC-Netzwerk-Peering auf.
Klicken Sie auf Verbindung erstellen > Weiter.
Führen Sie auf der Seite Peering-Verbindung erstellen die folgenden Schritte aus:
- Geben Sie einen Namen für die Peering-Verbindung ein.
- Wählen Sie unter Mein VPC-Netzwerk das Netzwerk aus, das Ihre Cloud Data Fusion-Instanz enthält.
- Wählen Sie unter Peering-VPC-Netzwerk die Option In einem anderen Projekt aus.
- Geben Sie unter Projekt-ID die zuvor in diesem Tutorial ermittelte Mandantenprojekt-ID ein.
Wählen Sie unter VPC-Netzwerkname ein Netzwerk aus oder geben Sie INSTANCE_REGION-INSTANCE_ID ein.
Ersetzen Sie Folgendes:
- INSTANCE_REGION: die Region, in der Sie die Cloud Data Fusion-Instanz erstellt haben.
- INSTANCE_ID: die ID Ihrer Cloud Data Fusion-Instanz.
Wählen Sie die Internetprotokollversion für die Peering-Verbindung aus, um IPv4- und IPv6-Routen zwischen Ihrem VPC-Netzwerk und dem Peering-VPC-Netzwerk auszutauschen. Weitere Informationen finden Sie unter VPC-Netzwerk-Peering.
Wählen Sie Benutzerdefinierte Routen exportieren aus, damit benutzerdefinierte Routen aus Ihrem VPC-Netzwerk in das VPC-Netzwerk des Mandanten exportiert werden können.
Wählen Sie aus, ob Subnetzrouten mit öffentlicher IPv4-Adresse in Ihr VPC-Netzwerk importiert oder daraus exportiert werden dürfen.
Klicken Sie auf Erstellen.
Das VPC-Netzwerk-Peering wird kurz nach der Erstellung aktiviert.
IAM-Berechtigungen einrichten
VPC-Netzwerk
Überspringen Sie diesen Schritt und fahren Sie mit Firewallregel erstellen fort.
Freigegebene VPC-Netzwerk
Wenn Sie Ihre Cloud Data Fusion-Instanz in einem freigegebene VPC-Netzwerk erstellen, müssen Sie den folgenden Dienstkonten die Rolle „Compute-Netzwerknutzer“ zuweisen. Wenn Sie allen Subnetzen Berechtigungen erteilen möchten, weisen Sie die Rolle dem Hostprojekt der freigegebene VPC zu.
Um den Zugriff weiter zu steuern, weisen Sie die Rolle stattdessen einem bestimmten Subnetz und die Rolle „Netzwerkbetrachter“ dem Hostprojekt zu.
- Cloud Data Fusion-Dienstkonto:
service-PROJECT_NUMBER@gcp-sa-datafusion.iam.gserviceaccount.com - Dienstkonto für Managed Service for Apache Spark:
service-PROJECT_NUMBER@dataproc-accounts.iam.gserviceaccount.com
PROJECT_NUMBER ist die Nummer des
Google Cloud Projekts, das Ihre Cloud Data Fusion
Instanz enthält.
Weitere Informationen finden Sie unter Zugriff gewähren auf die erforderlichen Dienstkonten.
Firewallregel erstellen
Erstellen Sie eine Firewallregel für Ihr VPC-Netzwerk, die eingehende SSH-Verbindungen aus dem IP-Bereich zulässt, den Sie bei der Erstellung Ihrer privaten Cloud Data Fusion-Instanz angegeben haben.
Dieser Schritt ist für Cloud Data Fusion-Versionen vor 6.2.0 erforderlich. Er ermöglicht die Kommunikation zwischen Cloud Data Fusion und Managed Service for Apache Spark-Clustern, die Pipelines ausführen.
Sie können die Firewallregel mit der Google Cloud Console oder mit der gcloud CLI erstellen.
Console
Weitere Informationen finden Sie unter Firewallregeln erstellen.
gcloud
Führen Sie dazu diesen Befehl aus:
gcloud compute firewall-rules create FIREWALL_NAME-allow-ssh --allow=tcp:22 --source-ranges=IP_RANGE --network=NETWORK_NAME --project=PROJECT_ID
Ersetzen Sie Folgendes:
FIREWALL_NAME: Der Name der zu erstellenden Firewallregel.IP_RANGE: Der zugewiesene IP-Bereich.NETWORK_NAME: Der Name des Netzwerks, an das die Firewallregel angehängt ist. Das ist der Name des VPC-Netzwerks, in dem Sie die private Instanz erstellt haben.PROJECT_ID: Die ID des Projekts, das das VPC-Netzwerk hostet.
Schritte für Anwendungsfälle für Verbindungen
In den folgenden Abschnitten werden Anwendungsfälle für Verbindungen für private Instanzen beschrieben.
Privaten Google-Zugriff aktivieren
Um über interne IP-Adressen auf Ressourcen zuzugreifen, muss Cloud Data Fusion die Managed Service for Apache Spark-Cluster erstellen und die Datenpipelines in einem Subnetz mit privater Google-Zugriff ausführen. Sie müssen den privater Google-Zugriff für das Subnetz aktivieren, das die Managed Service for Apache Spark-Cluster enthält.
- Wenn in der Region, in der die Managed Service for Apache Spark-Cluster gestartet werden, nur ein Subnetz vorhanden ist, wird der Cluster in diesem Subnetz gestartet.
Wenn in einer Region mehrere Subnetze vorhanden sind, müssen Sie Cloud Data Fusion so konfigurieren, dass das Subnetz mit privater Google-Zugriff für den Start von Managed Service for Apache Spark-Clustern ausgewählt wird.
Informationen zum Aktivieren des privater Google-Zugriff für das Subnetz finden Sie unter Konfiguration des privaten Google-Zugriffs.
Optional: Mit anderen Quellen verbinden
Nachdem Sie eine private Instanz in Cloud Data Fusion erstellt haben, können Sie eine Verbindung zu anderen Quellen herstellen, z. B. in den folgenden Anwendungsfällen:
- Lokale Datenbanken und Systeme, die in anderen VPC-Netzwerken ausgeführt werden
- Andere Google Cloud Dienste, die im privaten Modus in einem eigenen Netzwerk ausgeführt werden, z. B. Cloud SQL
- Quellen im öffentlichen Internet
Optional: DNS-Peering aktivieren
Aktivieren Sie DNS-Peering in den folgenden Fällen:
- Wenn Cloud Data Fusion eine Verbindung zu Systemen über Hostnamen und nicht über IP-Adressen herstellt
- Wenn das Zielsystem hinter einem Load-Balancer bereitgestellt wird, wie es bei einigen SAP-Bereitstellungen der Fall ist
Nächste Schritte
- Informationen zu Sicherheitskonzepten in Cloud Data Fusion
- Informationen zum Herstellen einer Verbindung zu Ressourcen in externen Netzwerken.
- Informationen über die wichtigsten Konzepte und Features von Cloud Data Fusion Konzepte und Features.
- Preise für Cloud Data Fusion