Cyber Valley Forschende steigern Analyse-Qualität von großen Netzwerken
Mit einer kürzlich entwickelten algorithmischen Sampling-Methode helfen Nicolò Ruggeri und Caterina de Bacco Sozialwissenschaftler/innen, die Beziehungen zwischen Knoten in großen Netzwerken – wie beispielweise Facebook oder Twitter – besser zu verstehen.
Tübingen, 3. November 2020 – Um genauere Analysen in der angewandten Netzwerkwissenschaft zu ermöglichen, haben Forschende des Max-Planck-Instituts für Intelligente Systeme (MPI-IS) in Tübingen kürzlich das Theoretical Criterion for Eigenvector Centrality (TCEC), eine quantitative Sampling-Methode, entwickelt. Die Methode zielt darauf ab, repräsentative Netzwerkeigenschaften innerhalb kleiner Datenproben zu erhalten, indem der Einfluss eines einzelnen Knotens in einem Netzwerk gemessen wird. Jetzt erweitern Nicolò Ruggeri und Caterina De Bacco das Modell um einen neuen Sampling-Algorithmus, der die Schätzungen der PageRank-Zentralität (PR) verbessert. Google Search verwendet diesen Algorithmus, um Webseiten in den Suchmaschinenergebnissen zu platzieren.
In dem Paper mit dem Titel „Sampling on networks: estimating spectral centrality measures and their impact in evaluating other relevant network measures“ stellen sie ihre Forschung vor. Das Paper wurde kürzlich im Fachjournal Applied Network Science veröffentlicht. Ruggeri, der Hauptautor des Papers, ist Doktorand in der Cyber Valley Forschungsgruppe Physics for Inference and Optimization am MPI-IS in Tübingen und an der ETH Zürich. De Bacco, die Zweitautorin des Papers, ist Gruppenleiterin.
Die Forschung von Ruggeri und De Bacco kann einen entscheidenden Beitrag in einem breiten Spektrum von Forschungsfeldern leisten, zum Beispiel bei sozialwissenschaftlichen Analysen, die auf die Beziehung zwischen Knoten in einem Netzwerk, wie etwa Social-Media-Kanälen, schließen wollen.
„Unsere Arbeit wurde durch ein Gespräch mit einer Soziologin inspiriert, deren Forschung sich auf die Analyse der Dynamik von Hassrede auf Twitter konzentriert“, so Ruggeri. Bei solchen Analysen liegt eine große Herausforderung in der Bewertung von Datenproben, die aus komplexen Netzwerken gezogen werden. In den meisten Fällen sind nicht alle relevanten Informationen in der Stichprobe verfügbar, was zu Verzerrungen bei der Analyse der untersuchten Netzwerkeigenschaften führen kann. Sozialwissenschaftler/innen, die beispielsweise versuchen, eine genaue Analyse der einflussreichsten Nutzer/innen in einem ganzen Netzwerk durchzuführen, bräuchten eine Datenprobe, die den Einfluss exakt widerspiegelt.
An dieser Stelle kommt das TCEC-Stichprobenmodell ins Spiel. Mit ihm haben es Ruggeri und De Bacco ermöglicht, repräsentative Momentaufnahmen der Benutzerdynamik in großen Netzwerken wie Facebook und Twitter zu gewinnen. Dies geschieht durch die Auswahl von Teilstichproben, die ein gutes Maß für den Einfluss einzelner Knoten im Netzwerk darstellen, was auch als Eigenvektorzentralität bekannt ist. „Wenn Forschende Netzwerknutzer/innen nach dem Zufallsprinzip auswählen, wird das untersuchte Netz wahrscheinlich sehr unterschiedlich vom tatsächlichen Gesamtnetz sein. Jede Analyse wird dann eine Verzerrung der Realität sein. Mit TCEC können Forschende, die ein Netzwerk mit Millionen von Nutzern wie Twitter untersuchen, eine Stichprobe von 10.000 Knoten auswählen. Diese Stichprobe ist repräsentativer für das Ganze, was den Einfluss der Nutzer/innen gemessen an der Eigenvektor-Zentralität betrifft“, sagt De Bacco.
Durch die Erweiterung des Modells um PageRank Centrality hoffen Ruggeri und De Bacco, die Datenstichproben weiter zu verbessern und damit die Netzwerkanalysen noch genauer zu machen. Bisher haben die theoretischen Ergebnisse ihrer Forschung jedoch gezeigt, dass eine Stichprobenziehung für PR die Leistung des ursprünglichen TCEC-Algorithmus verringern würde. In einem nächsten Schritt planen die Forschenden, ihre Methode weiter zu verfeinern und in Zusammenarbeit mit Soziolog/innen anzuwenden, um zu untersuchen, wie der Einfluss auf soziale Online-Netzwerke mit realen Ereignissen zusammenhängt.
Die ursprüngliche TCEC-Stichprobenmethode steht zur Anwendung zur Verfügung. Ruggeri und De Bacco haben den Code hier veröffentlicht: https://github.com/cdebacco/tcec_sampling