Коефіцієнт кластеризації — Вікіпедія

В теорії графів коефіцієнт кластеризації є мірою ступеня, в якій вузли в графі мають тенденцію групуватися разом. Наявні дані свідчать про те, що в більшості реальних мереж, і, зокрема, в соціальних мережах, вузли, як правило, створюють тісно пов'язані групи, що характеризуються відносно високою щільністю зв'язків; ця ймовірність більше ніж середня ймовірність випадкового зв'язку між двома вузлами (Holland і Leinhardt, 1971;^[1] Watts and Strogatz, 1998^[2]).

Існують два варіанти цього терміну: глобальний і локальний. Глобальний варіант було створено для загального уявлення про кластеризацію в мережі, в той час як локальний описує вкладеність окремих вузлів.

Глобальний коефіцієнт кластеризації[ред. | ред. код]

Глобальний коефіцієнт кластеризації заснований на трійках вузлів. Трійка складається з трьох з'єднаних вузлів. Тому трикутник включає в себе три замкнуті трійки, по одній по центру на кожному з вузлів (n.b. це означає, що три трійки в трикутнику відбуваються водночас з перекриттям вибору вузлів). Глобальний коефіцієнт кластеризації — це число замкнутих трійок (або 3-х трикутників) над загальним числом трійок (відкритих і закритих). Перша спроба виміряти цей коефіцієнт була зроблена Луче і Перрі (1949).^[3] Цей термін дає вказівку на кластеризацію у всій мережі (глобальну), і може бути застосований до обох типів мереж: ненаправлених і спрямованих(часто званих транзитивними див. Вассерман і Фауст, 1994, стор. 243^[4]).

Глобальний коефіцієнт кластеризації визначається наступним чином:

C={\frac {3\times {\mbox{number of triangles}}}{\mbox{number of connected triplets of vertices}}}={\frac {\mbox{number of closed triplets}}{\mbox{number of connected triplets of vertices}}}.

У цій формулі, зв'язана трійка визначається як зв'язний підграф, що складається з трьох вершин і двох ребер. Таким чином, кожен трикутник утворює три з'єднаних трійки, пояснюючи множення на три у формулі. Узагальнення на зважені мережі^[en] було запропоноване Опсахлем і Панзарасою (2009),^[5] і перевизначення, двох режимів мереж(як бінарних так і вагових) було запропоноване Опсахлем (2009).^[6]

Локальний коефіціент кластеризації[ред. | ред. код]

Локальний коефіціент кластеризації з вершиною (вузлом) в графі рахує, наскільки близько його сусіди повинні бути угруповані (повний граф). Дункан Уоттс^[en] і Стівен Строгац ввели цей термін в 1998 році, щоб визначити, чи є граф графом «Світ тісний».

Граф $G=(V,E)$ формально складається з безлічі вершин $V$ і набору ребер $E$ між ними. Ребро $e_{ij}$ з'єднує вершину $v_{i}$ з вершиною $v_{j}$ .

окіл $N_{i}$ для вершини <математика> $v_{i}$ визначається за допомогою її сусідів, що пов'язані наступним чином:

N_{i}=\{v_{j}:e_{ij}\in E\lor e_{ji}\in E\}.

Визначимо $k_{i}$ як число вершин, $|N_{i}|$ , як околицю, $N_{i}$ , як вершину.

Локальний коефіцієнт кластеризації $C_{i}$ для вершини $v_{i}$ далі визначається як зв'язки між вершинами в межах його околиць, розділені на кількість посилань, які могли б існувати між ними. Для орієнтованого графа, $e_{ij}$ відрізняється від $e_{ji}$ , і, отже, для кожної околиці $N_{i}$ є $k_{i}(k_{i}-1)$ посиланнь, які можуть існувати серед вершин в околиці ( $k_{i}$ це число сусідів вершини). Таким чином, Локальний коефіціент кластеризації для орієнтованих графів задається як^[2]

C_{i}={\frac {|\{e_{jk}:v_{j},v_{k}\in N_{i},e_{jk}\in E\}|}{k_{i}(k_{i}-1)}}.

Неорієнтовані граф володіє такою властивістю, що $e_{ij}$ і $e_{ji}$ вважаються однаковими. Тому, якщо вершина $v_{i}$ має $k_{i}$ сусідів, ${\frac {k_{i}(k_{i}-1)}{2}}$ ребер може існувати серед вершин в межах околиці. Таким чином, Локальний коефіціент кластеризації для неорієнтованих графів може бути визначений як

C_{i}={\frac {2|\{e_{jk}:v_{j},v_{k}\in N_{i},e_{jk}\in E\}|}{k_{i}(k_{i}-1)}}.

Нехай $\lambda _{G}(v)$ — це кількість трикутників на множині вершин $v\in V(G)$ для неорієнтованого графа $G$ . Тобто, $\lambda _{G}(v)$ це число підграфів $G$ з 3-ма ребрами і 3-ма вершинами, одна з яких $v$ . Нехай $\tau _{G}(v)$ — це число трійок на $v\in G$ . Тобто, $\tau _{G}(v)$ — це число підграфів (не обов'язково інддукованих) з 2-ма ребрами і 3-ма вершинами, одна з яких є $v$ і таке, що $v$ інцидентна на обох краях. Тоді ми можемо визначити коефіцієнт кластеризації як

C_{i}={\frac {\lambda _{G}(v)}{\tau _{G}(v)}}.

Легко показати, що два попередніх визначення є однаковими, так як

\tau _{G}(v)=C({k_{i}},2)={\frac {1}{2}}k_{i}(k_{i}-1).

Ці міри є рівними 1, якщо кожен сусід зв'язаний із $v_{i}$ також пов'язаний з будь-якою іншою вершиною в околиці, і ці міри дорівнюють 0, якщо жодна з вершин, що пов'язана з $v_{i}$ зв'яжеться з будь-якою іншою вершиною, що пов'язана з $v_{i}$ .

Мережевий середній коефіцієнт кластеризації[ред. | ред. код]

Як альтернатива глобального коефіцієнта кластеризації, загальний рівень кластеризації в мережі був виміряний Уоттсом та Строгацом^[2] як середнє значення локальних коефіцієнтів кластеризації всіх вершин $n$ :^[7]

{\bar {C}}={\frac {1}{n}}\sum _{i=1}^{n}C_{i}.

Варто зазначити, що ця метрика розміщує більше ваги на низьких вузлів ступеня, в той час як співвідношення транзитивності поміщає більше ваги на високих вузлах ступеня. Насправді, зважене середнє, де кожна локальна оцінка кластеризації зважуються по $k_{i}(k_{i}-1)$ збігається з глобальним коефіцієнтом кластеризації.

Граф вважається графом «Світ тісний», якщо його середній локальний коефіцієнт кластеризації ${\bar {C}}$ значно вище, ніж у випадкового графа, побудованого на той самій множині вершин, а також якщо граф має приблизно таку ж відстань- найбільш коротку довжину шляху як і відповідний випадковий граф.

Узагальнення терміну зважені мережі^[en] було запропоновано Барратом та ін. (2004),^[8] і перевизначення до двочасткових графів S (названих також дворежимними мережами) було запропоноване Латапу та ін. (2008)^[9] і Опсахлем (2009).^[6]

Ця формула не є визначеною для графів з ізольованими вершинами; див. Кайзер (2008)^[10] та Бармпотіусом та ін.^[11]. Мережі з максимально можливим середнім коефіцієнтом кластеризації мають модульну структуру, і в той же час, вони мають найменшу можливу середню відстань між різними вузлами.^[11]

Перколяції кластерних мереж[ред. | ред. код]

Для вивчення стійкості кластерних мереж був розроблений перколяційний підхід.^[12]^[13] ^[14]

Примітки[ред. | ред. код]

↑ P. W. Holland and S. Leinhardt (1971). Transitivity in structural models of small groups. Comparative Group Studies. 2: 107—124.
↑ ^а ^б ^в D. J. Watts and Steven Strogatz (June 1998). Collective dynamics of 'small-world' networks. Nature. 393 (6684): 440—442. Bibcode:1998Natur.393..440W. doi:10.1038/30918. PMID 9623998. Архів оригіналу за 25 Грудня 2010. Процитовано 27 Травня 2017.
↑ R. D. Luce and A. D. Perry (1949). A method of matrix analysis of group structure. Psychometrika. 14 (1): 95—116. doi:10.1007/BF02289146. PMID 18152948.
↑ Stanley Wasserman, Kathrine Faust, 1994. Social Network Analysis: Methods and Applications. Cambridge: Cambridge University Press.
↑ Tore Opsahl and Pietro Panzarasa (2009). Clustering in Weighted Networks. Social Networks. 31 (2): 155—163. doi:10.1016/j.socnet.2009.02.002. Архів оригіналу за 1 Липня 2019. Процитовано 27 Травня 2017.
↑ ^а ^б Tore Opsahl (2009). Clustering in Two-mode Networks. Conference and Workshop on Two-Mode Social Analysis (Sept 30-Oct 2, 2009). Архів оригіналу за 21 Березня 2016. Процитовано 27 Травня 2017.
↑ Kemper, Andreas (2009). Valuation of Network Effects in Software Markets: A Complex Networks Approach. Springer. с. 142. ISBN 9783790823660. Архів оригіналу за 15 Травня 2019. Процитовано 27 Травня 2017.
↑ Barrat, A.; Barthelemy, M.; Pastor-Satorras, R.; Vespignani, A. (2004). The architecture of complex weighted networks. Proceedings of the National Academy of Sciences. 101 (11): 3747—3752. arXiv:cond-mat/0311416. Bibcode:2004PNAS..101.3747B. doi:10.1073/pnas.0400087101. PMC 374315. PMID 15007165.
↑ Latapy, M.; Magnien, C.; Del Vecchio, N. (2008). Basic Notions for the Analysis of Large Two-mode Networks. Social Networks. 30 (1): 31—48. doi:10.1016/j.socnet.2007.04.006.
↑ Kaiser, Marcus (2008). Mean clustering coefficients: the role of isolated nodes and leafs on clustering measures for small-world networks. New Journal of Physics. 10 (8): 083042. arXiv:0802.2512. Bibcode:2008NJPh...10h3042K. doi:10.1088/1367-2630/10/8/083042.
↑ ^а ^б Barmpoutis, D.; Murray, R. M. (2010). «Networks with the Smallest Average Distance and the Largest Average Clustering». arXiv:1007.4031 [q-bio.MN].
↑ Newman, M. E. J. (2009). Random Graphs with Clustering. Physical Review Letters. 103 (5). doi:10.1103/PhysRevLett.103.058701. ISSN 0031-9007.
↑ Huang, Wei-Min; Zhang, Li-Jie; Xu, Xin-Jian; Fu, Xinchu (2016). Contagion on complex networks with persuasion. Scientific Reports. 6: 23766. doi:10.1038/srep23766. ISSN 2045-2322.
↑ Huang, Xuqing; Shao, Shuai; Wang, Huijuan; Buldyrev, Sergey V.; Eugene Stanley, H.; Havlin, Shlomo (2013). The robustness of interdependent clustered networks. EPL (Europhysics Letters). 101 (1): 18002. doi:10.1209/0295-5075/101/18002. ISSN 0295-5075.

[1] P. W. Holland and S. Leinhardt (1971). Transitivity in structural models of small groups. Comparative Group Studies. 2: 107—124.

[WattsStrogatz1998-2] а ^б ^в D. J. Watts and Steven Strogatz (June 1998). Collective dynamics of 'small-world' networks. Nature. 393 (6684): 440—442. Bibcode:1998Natur.393..440W. doi:10.1038/30918. PMID 9623998. Архів оригіналу за 25 Грудня 2010. Процитовано 27 Травня 2017.

[3] R. D. Luce and A. D. Perry (1949). A method of matrix analysis of group structure. Psychometrika. 14 (1): 95—116. doi:10.1007/BF02289146. PMID 18152948.

[4] Stanley Wasserman, Kathrine Faust, 1994. Social Network Analysis: Methods and Applications. Cambridge: Cambridge University Press.

[5] Tore Opsahl and Pietro Panzarasa (2009). Clustering in Weighted Networks. Social Networks. 31 (2): 155—163. doi:10.1016/j.socnet.2009.02.002. Архів оригіналу за 1 Липня 2019. Процитовано 27 Травня 2017.

[Tore_Opsahl_2009-6] а ^б Tore Opsahl (2009). Clustering in Two-mode Networks. Conference and Workshop on Two-Mode Social Analysis (Sept 30-Oct 2, 2009). Архів оригіналу за 21 Березня 2016. Процитовано 27 Травня 2017.

[7] Kemper, Andreas (2009). Valuation of Network Effects in Software Markets: A Complex Networks Approach. Springer. с. 142. ISBN 9783790823660. Архів оригіналу за 15 Травня 2019. Процитовано 27 Травня 2017.

[8] Barrat, A.; Barthelemy, M.; Pastor-Satorras, R.; Vespignani, A. (2004). The architecture of complex weighted networks. Proceedings of the National Academy of Sciences. 101 (11): 3747—3752. arXiv:cond-mat/0311416. Bibcode:2004PNAS..101.3747B. doi:10.1073/pnas.0400087101. PMC 374315. PMID 15007165.

[9] Latapy, M.; Magnien, C.; Del Vecchio, N. (2008). Basic Notions for the Analysis of Large Two-mode Networks. Social Networks. 30 (1): 31—48. doi:10.1016/j.socnet.2007.04.006.

[10] Kaiser, Marcus (2008). Mean clustering coefficients: the role of isolated nodes and leafs on clustering measures for small-world networks. New Journal of Physics. 10 (8): 083042. arXiv:0802.2512. Bibcode:2008NJPh...10h3042K. doi:10.1088/1367-2630/10/8/083042.

[BarmpoutisMurray2010-11] а ^б Barmpoutis, D.; Murray, R. M. (2010). «Networks with the Smallest Average Distance and the Largest Average Clustering». arXiv:1007.4031 [q-bio.MN].

[Newman2009-12] Newman, M. E. J. (2009). Random Graphs with Clustering. Physical Review Letters. 103 (5). doi:10.1103/PhysRevLett.103.058701. ISSN 0031-9007.

[HuangZhang2016-13] Huang, Wei-Min; Zhang, Li-Jie; Xu, Xin-Jian; Fu, Xinchu (2016). Contagion on complex networks with persuasion. Scientific Reports. 6: 23766. doi:10.1038/srep23766. ISSN 2045-2322.

[HuangShao2013-14] Huang, Xuqing; Shao, Shuai; Wang, Huijuan; Buldyrev, Sergey V.; Eugene Stanley, H.; Havlin, Shlomo (2013). The robustness of interdependent clustered networks. EPL (Europhysics Letters). 101 (1): 18002. doi:10.1209/0295-5075/101/18002. ISSN 0295-5075.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]