https:/.../hd.mp4

0:04 - 0:23

Сейчас мы поработаем с различными функциями для Gephi. И сначала обсудим лабораторию данных. И панели, что вообще у нас здесь есть.
0:23 - 0:31

В верхнем углу левом вы видите три вкладки: это обработка, лаборатория данных и просмотр. Начнём с лаборатории данных, в которой находится
0:31 - 0:41

в общем-то наш dataset. Чуть ниже вкладок вы видите вкладку "Узлы" и "Рёбра", щёлкните по ним и обратите внимание на разницу между этими вкладками.
0:41 - 0:51

Мы импортировали таблицу смежности, в общем-то таблицу рёбер, Gephi также автоматически создаст таблицу узлов. И ID и Label здесь совсем не отличаются.
0:51 - 1:03

Эта таблица содержит всех героев, которых мы адаптировали в таблице рёбер. Затем взгляните на таблицу рёбер. Здесь снова можно увидеть "Источник" и "Цель".
1:03 - 1:12

Gephi автоматически создал таблицу "Тип" и "Идентификатор". Также мы видим столбец "Вес", который показывает как часто
1:12 - 1:25

те или иные герои встречались в разных выпусках. Ну что ж, давайте перейдём на панель обработки данных. В нашем верхнем левом углу это основное рабочее
1:25 - 1:33

пространство, как я уже сказал, для визуализации нашей сети. Давайте разберём различные панели на этой вкладке, чтобы понять что делает каждая из них.
1:33 - 1:47

Appearance - внешний вид, здесь вы можете определить цвет и размер узлов, рёбер и меток. Внешний вид разделён на две вкладки: узлы и рёбра (nodes and edges).
1:47 - 2:00

На этих вкладках есть ещё три вкладки: уникальные, разделённые и рейтинг. Схема. Здесь вы определите алгоритм, в общем-то слой, укладка.
2:00 - 2:09

Везде он называется почему-то по-разному, который вы будете использовать в сети, который придаст её форму. График - здесь отображается ваша сеть.
2:09 - 2:20

Сейчас это чёрный квадрат. Но это изменится, не беспокойтесь. Кроме того, левая и нижняя строка меню позволяет вам вносить изменения в визуализацию.
2:20 - 2:28

Удерживая правую кнопку мыши перетаскиваем мышь, чтобы перемещаться по графику. Увеличение можно выполнить с помощью колеса прокрутки.
2:28 - 2:39

Если график теряется в пустоте, используйте значок зеркала в левом нижнем углу, точнее значок лупы. И он отцентрирует всё по вашему графику.
2:39 - 2:47

Контекст. Здесь отображается количество рёбер и количество узлов, которые есть в вашем графе. Пока они показаны все, но это можно
2:47 - 2:54

регулировать с помощью фильтров, о которых я расскажу чуть позже. Фильтры и статистика. Вы можете использовать фильтры для фильтрации
2:54 - 2:59

определённых узлов, рёбер или атрибутов в установке различных параметров для этих фильтров. На вкладке статистики вы можете
2:59 - 3:13

применить алгоритм для анализа набора данных. И запросы. Здесь отображаются использованные фильтры. И здесь кроме того вы можете настроить
3:13 - 3:21

все фильтры и применить их к визуализации. Что ж, давайте приступим к визуализации и изучению набора наших данных. Начнём с применения
3:21 - 3:40

алгоритма компоновки ForceAtlas к набору данных. Его можно выбрать здесь. Дальше вы нажимаете пуск. И он запускается.
3:40 - 3:53

В правом нижнем углу вы можете видеть, что алгоритм работает. Вот здесь вот. Через пару минут, мы дадим поработать ему около 5ти минут.
3:53 - 4:05

И через пару минут чёрный квадрат изменится на что-то вроде этого. Возможно у вас он будет выглядеть немного по-другому, но это вполне
4:05 - 4:17

возможно, т.к. у каждого Gephi работает по-своему. Поэтому важно записывать то что вы делаете. Как работает алгоритм ForceAtlas?
4:17 - 4:24

Алгоритм определяет положение узлов в сети относительно других узлов. Узлы с большим количеством связей располагаются ближе друг к другу.
4:24 - 4:34

Если связи между ними меньше, то они отталкиваются. И так у нас получается то, что вы сейчас видите на моём экране. Затем под выбором алгоритма
4:34 - 4:40

находится меню, в котором вы можете настроить свойства визуализации, такие как масштабирование, гравитация. Можно навести указатель мыши
4:40 - 4:48

на любое свойство и вы поймёте за что он отвечает. Например, мы не хотим чтобы одни узлы перекрывали другие и мы можем выбрать
4:48 - 5:03

запрет перекрытия, что поможет нам видеть каждый узел лучше. Как вы заметили, при импорте набора данных, данные изначально
5:03 - 5:11

отображаются в виде чёрного ящика. В Gephi есть невидимая рамка, в которой будут отображаться ваши данные. Это означает,
5:11 - 5:19

что данные также могут выходить за эти границы. Можно изменить настройки алгоритма, особенно масштаб, чтобы убедиться что график
5:19 - 5:29

полностью находится внутри квадрата. Чтобы никакие узлы не терялись в пустоте. Давайте оставим ForceAtlas пока запущенным и отметим поле LinLog,
5:29 - 5:45

которое покажет нам кластеры которые будут образовываться и разряженность можем им поставить на 3, что поможет нам лучше ориентироваться в графе.
5:45 - 6:41

После этого мы можем сохранить алгоритм ещё раз и перейти к статистикам, внешнему виду и фильтрам.
6:41 - 6:53

Отлично. Мы получили что-то вроде большого квадрата. И можем обратиться к статистикам. Вы можете видеть, что на визуализации уже есть несколько
6:53 - 7:04

кластеров, например здесь, здесь, здесь. И теперь можем перейти к статистикам. Вы сразу получите отчёт о степени с результатами.
7:04 - 7:15

Вы можете закрыть этот отчёт или сохранить его на свой компьютер. Обратите внимание, что на вкладке узла в лаборатории данных,
7:15 - 7:30

если мы зайдём убавляется как раз таки столбец "суммарная мощность", который мы только что рассчитали. Ну что же, давайте перейдём обратно в обработку
7:30 - 7:45

и кое-что посмотрим. Мы заходим в "внешний вид", "узлы" -> "вид" и мы можем выбрать атрибут, по которому мы хотим ранжировать.
7:45 - 7:57

В нашем случае есть "Degree" и "Суммарная мощность". И мы можем выбрать как раз минимальный размер, который мы хотим, пусть он будет 20.
7:57 - 8:15

И максимальный размер, который мы хотим, пусть 500. Дальше нажмём "применить". И некоторые узлы станут более явными. Что нам это даёт?
8:15 - 8:26

Допустим, нас интересуют наиболее известные герои в этой вселенной и мы хотим выделить их на диаграмме. Благодаря внешности и ранжированию
8:26 - 8:38

мы можем выбрать размер, изменить параметр по которому будут изменяться узлы и применить это к графику. Некоторые узлы, как мы заметили,
8:38 - 8:48

стали больше, потому что это узлы с наименьшей степенью и следовательно наиболее популярные герои. График всё ещё немного запутан,
8:48 - 8:56

мы можем повысить читаемость, применив фильтр. На правой панели перейдите в "фильтры", найдите "атрибуты", "диапазон". И здесь должна быть
8:56 - 9:06

суммарная мощность, которую можно перетащить в фильтр. Здесь у нас теперь мы видим, что есть диапазон, от 0 идёт до 1905.
9:06 - 9:18

И здесь например можно написать 30, чтобы все узлы в которых степень меньше 30ти не отображались. Выбрали 30. Нажимаем "отфильтровать".
9:18 - 9:30

И если посмотреть, то график стал немного прозрачнее. И здесь в контексте можем посмотреть, что мы видим только 37% всех узлов и 72% всех рёбер.
9:30 - 9:39

Важно что понимать, что фильтры полезны для обеспечения удобочитаемости, визуализации или фильтрации любых данных, которые вам не интересны.
9:39 - 9:45

И для более внимательного изучения интересующих вас данных. С помощью фильтра вы можете определить информацию, которую вы хотите
9:45 - 9:51

представить визуализации. Кроме того, Gephi позволяет применять отфильтрированный контент к новому рабочему пространству, выбирая второй значок
9:51 - 10:05

прямо под вкладкой. Затем снова давайте запустим ForceAtlas и посмотрим, что произойдёт. Смысл в том, что можно вносить изменения в граф
10:05 - 10:32

даже во время работы алгоритма. Что интересно, при выделении графа в рабочем пространстве также выделяются все узлы, с которыми он связан.
10:32 - 10:47

В нашем случае можно предположить, что этот узел связан почти со всеми другими узлами. Чтобы увидеть, кого представляет узел, мы можем добавить имена.
10:47 - 11:01

И также отобразить степень на экране графика. Можно щёлкнуть стрелку на правом нижнем углу, выбрать Label. Настроить что мы хотим отображать.
11:01 - 11:17

Мы хотим отображать label и суммарную мощность, степень. Сейчас лучше остановить. И мы можем нажать "текст". Текстом, ну как вы можете видеть,
11:17 - 11:31

что вроде бы ничего не появилось. Поэтому нам нужно поработать с размером текста. Отлично. Мы уже что-то увидели. И теперь с цветом.
11:31 - 11:45

Посмотрим что получится. Отлично. Что-то мы увидели. Но теперь это какой-то бардак и как раз таки мы можем поработать с функцией "Спрятать невыделенное",
11:45 - 11:59

которая уберёт всё что нам не нужно. И когда мы будем кого-то выделять одного, мы сможем увидеть кто это и степень узла.
11:59 - 12:06

Самый большой узел у нас представлен пока Капитаном Америка. А если мы хотим узнать больше, то мы можем напрямую обратиться
12:06 - 12:18

к лаборатории данных, мы нажали "выбрать" и мы видим всю информацию о нём. Кроме того, мы можем извлекать кластеры в нашей сети,
12:18 - 12:24

для этого Gephi реализует алгоритм обнаружения сообществ. Для измерения модулярности перейдите к статистике в правом верхнем углу,
12:24 - 12:37

как мы уже говорили. И здесь должна быть модулярность или modularity, если вы используете Gephi на английском. Запуск. Рандомизировать.
12:37 - 12:54

Использовать веса. Нажимаем ОК. Здесь мы можем увидеть, что у нас появилось 12 сообществ всего. Можно закрыть отчёт. Или сохранить, если вы хотите.
12:54 - 13:06

Дальше мы можем перейти во вкладку "внешний вид". Выбрать цвет. Выбрать разделение. И выбрать модулярность.
13:06 - 13:20

Если вас не устраивают цвета, то в Gephi есть встроенный генератор цветов, пресеты можно не менять. Нажмём на кнопку "generate" и он создаст для вас новые цвета.
13:20 - 13:33

Дальше нажать ОК и применить. Что мы можем увидеть на этом графе? Во-первых, наша визуализация стала более красочной. И давайте обсудим,
13:33 - 13:38

что же такое модулярность. С помощью модулярности вы можете находить сообщества в сети и измерять их силу. Высокая модулярность
13:38 - 13:44

означает, что группы узлов прочно связаны, создавая плотное сообщество, в котором герои в основном взаимодействуют только друг с другом,
13:44 - 13:51

а не с другими героями. И сообществами в этой сети, которая у нас получилась. Сообщества с низкой модулярностью менее плотные
13:51 - 14:02

и больше взаимодействуют с другими сообществами. Gephi реализует алгоритм. Давайте немного поговорим о числах, которые у нас находятся слева и справа.
14:02 - 14:08

Левое число - это случайное число, присвоенное сообществом, по сути это число мало что говорит. Однако правый процент важнее, например
14:08 - 14:24

класс модулярности 3 имеет процент 21. Таким образом, это сообщество довольно большое. И например класс модулярности 5 имеет всего 5%.
14:24 - 14:32

Что в общем-то уже в сравнении не так много. В таком сценарии, когда вы запускаете модулярность на фильтрованном графе, Gephi
14:32 - 14:39

будет вычислять модулярность фильтрованного графа, а не всей исходной сети. Мы раскрасили 8 крупнейших сообществ. Остальные сообщества
14:39 - 14:46

окрашены в серый цвет. Как вы можете заметить, их всего осталось 4. Во-первых, остановим ForceAtlas. Теперь главное сохранить свой проект,
14:46 - 14:55

потому что если что-то пойдёт не так и визуализация вам не понравится, мы всё равно сможем вернуться к нашему старому сохранению.
14:55 - 15:10

Советую вам всегда сохранить несколько файлов, чтобы вы сохраняли разный этап процесса. Грани в этой визуализации и рёбра довольно маленькие.
15:10 - 15:36

Поэтому можем сделать их чуть-чуть пошире. Используя этот ползунок, вы можете делать рёбра шире или уже. Так как мы дошли до границ квадрата,
15:36 - 15:44

который был виден нам до этого, я предлагаю вам уменьшить разряженность. Если у вас она была 1, то так и оставьте. У меня она была 3,
15:44 - 15:54

поэтому мой граф пришёл ко всем границам и теперь мне приходится это исправлять. Мой граф выглядит примерно так. Ваш может выглядеть по-другому.
15:54 - 16:02

И что из этого можно извлечь? Gephi - это инструмент, позволяющий исследовать сети в нашем наборе данных различными способами.
16:02 - 16:09

Сейчас мы используем одно рабочее пространство, мы можем создать другие, чтобы рассмотреть его поближе. Зайдите в "фильтры" и нажмите на этот значок.
16:09 - 16:16

И у нас появляется вторая рабочая область. Точно с таким же графиком. Если вы хотите поэкспериментировать с разными фильтрами,
16:16 - 16:21

всегда рекомендуется делать это в новом рабочем пространстве. Если вы отключите фильтры в нашей первой исходной рабочей области,
16:21 - 16:36

все узлы снова станут видимыми. К примеру вот так. Их стало даже больше. Давайте запустим ещё одну статистику в нашем новом рабочем пространстве,
16:36 - 16:59

которая называется "диаметры графа" или Network Diameter. Выберите ненаправленный. Запуск. И нормировать результаты.
16:59 - 17:08

Это займёт какое-то время, потому что граф у нас большой. В нём 2000 узлов, и рёбер ещё 120 тысяч, поэтому нам придётся немного подождать.
17:08 - 17:19

Вы можете видеть процесс расчёта вот здесь. Что мы в итоге получим? Во-первых, эта статистика будет добавлена в лабораторию данных
17:19 - 17:30

и она измеряет 3 вещи: это центральность по посредничеству, центральность по близости и центральность по эксцентричности.
17:30 - 17:37

Что они все значат? Центральность по посредничеству - это измерение, основанное на количестве кратчайших путей между двумя узлами.
17:37 - 17:44

Это показатель центральности или важности узла в сети. Высокое значение предполагает, что узел соединяет части сетей вместе.
17:44 - 17:49

Меньшее значение означает, что узлы не являются центральными в сети. Центральность по близости, эта мера указывает
17:49 - 17:56

на близость узла к другим узлам. Более высокое значение означает, что среднее расстояние от узла до других узлов сети больше.
17:56 - 18:04

Меньшее значение означает, что среднее расстояние короче. Это может быть индикатором скорости, с которой информация течёт по сети.
18:04 - 18:12

И центральность по эксцентричности - эта мера подразумевает расстояние от узла до самого дальнего от него узла.
18:12 - 18:20

Высокое значение означает, что это расстояние большое. Низкое значение означает, что расстояние небольшое. Что мы можем сделать
18:20 - 18:29

с этими измерениями? Чтобы увидеть какие узлы являются центральными в этой сети, мы можем ранжировать узлы по размерам.
18:29 - 18:39

Для этого перейдите в Appearance, выберите Nodes. Изменение по размеру. Ranking. И вместо Degree можно выбрать центральность по посредничеству
18:39 - 18:50

или Betweenness Centrality. И также оставить минимальный размер 20, максимальный размер - 500. Нажать "применить".
18:50 - 18:56

Центральные узлы в нашей сети теперь стали больше. Вместо того чтобы придать размеры узлов в соответствии с их степенью,
18:56 - 19:04

они теперь имеют размер в соответствии с центральностью по посредничеству. Давайте запустим алгоритм ForceAtlas ещё раз, только не забудьте
19:04 - 19:19

выбрать LinLog режим. И можно запускать. Давайте поговорим про диаметры сети, которые также вычисляются вместе с тремя метриками
19:19 - 19:26

центральности, о которых мы говорили до этого. Эта статистика измеряет длину самого длинного пути между двумя узлами в сети.
19:26 - 19:41

В данном случае диаметр у нас равен четырём. Давайте поговорим про то что у нас получилось. Установим алгоритм. И посмотрим на те узлы,
19:41 - 19:48

которые у нас являются самыми большими, так как это новое рабочее пространство, то у нас все настройки немного сбились. Мы можем вернуться
19:48 - 20:11

в это меню. Выбрать Label. Настроить. Также можно выбрать суммарную мощность. Не забыть выбрать шрифт побольше. Выбрать узел.
20:11 - 20:24

Скрыть невыделенное. И посмотреть кто это такой. Всё ещё Капитан Америка, скорее всего потому что он считается одним из самых первых героев.
20:24 - 20:41

Здесь есть Тор. И это Человек-паук. Теперь что можно сделать для подготовки нашего графика к экспорту? Мы можем нажать просмотр.
20:41 - 20:52

Здесь у меня уже открыт график. Вы можете нажать кнопку "обновить". И теперь у нас будет первая версия для работы. В настройках мы можем
20:52 - 21:03

регулировать то что мы хотим видеть на визуализации или что не хотим. Например, мы можем выбрать пункт "отобразить рёбра кривыми".
21:03 - 21:18

И нажать "обновить", чтобы увидеть как меняет график этот параметр. Но самое важное, чтобы вы пытались настроить его так,
21:18 - 21:30

чтобы вы могли передавать информацию о наборе данных. Таким образом нужно подумать о том что мы хотим рассказать этой визуализацией и на чём нам надо сделать акцент.

Title:: https:/.../hd.mp4
Video Language:: Russian
Duration:: 21:30

	Mary3006 edited Russian subtitles for https:/.../hd.mp4
	Mary3006 edited Russian subtitles for https:/.../hd.mp4
	Mary3006 edited Russian subtitles for https:/.../hd.mp4
	Mary3006 edited Russian subtitles for https:/.../hd.mp4

Russian subtitles

Revisions

Revision 4 Edited

Mary3006

https:/.../hd.mp4

Revisions

Our website uses cookies

Operating cookies (Required)