Return to Video

https:/.../hd.mp4

  • 0:04 - 0:23
    Сейчас мы поработаем с различными функциями для Gephi. И сначала обсудим лабораторию данных. И панели, что вообще у нас здесь есть.
  • 0:23 - 0:31
    В верхнем углу левом вы видите три вкладки: это обработка, лаборатория данных и просмотр. Начнём с лаборатории данных, в которой находится
  • 0:31 - 0:41
    в общем-то наш dataset. Чуть ниже вкладок вы видите вкладку "Узлы" и "Рёбра", щёлкните по ним и обратите внимание на разницу между этими вкладками.
  • 0:41 - 0:51
    Мы импортировали таблицу смежности, в общем-то таблицу рёбер, Gephi также автоматически создаст таблицу узлов. И ID и Label здесь совсем не отличаются.
  • 0:51 - 1:03
    Эта таблица содержит всех героев, которых мы адаптировали в таблице рёбер. Затем взгляните на таблицу рёбер. Здесь снова можно увидеть "Источник" и "Цель".
  • 1:03 - 1:12
    Gephi автоматически создал таблицу "Тип" и "Идентификатор". Также мы видим столбец "Вес", который показывает как часто
  • 1:12 - 1:25
    те или иные герои встречались в разных выпусках. Ну что ж, давайте перейдём на панель обработки данных. В нашем верхнем левом углу это основное рабочее
  • 1:25 - 1:33
    пространство, как я уже сказал, для визуализации нашей сети. Давайте разберём различные панели на этой вкладке, чтобы понять что делает каждая из них.
  • 1:33 - 1:47
    Appearance - внешний вид, здесь вы можете определить цвет и размер узлов, рёбер и меток. Внешний вид разделён на две вкладки: узлы и рёбра (nodes and edges).
  • 1:47 - 2:00
    На этих вкладках есть ещё три вкладки: уникальные, разделённые и рейтинг. Схема. Здесь вы определите алгоритм, в общем-то слой, укладка.
  • 2:00 - 2:09
    Везде он называется почему-то по-разному, который вы будете использовать в сети, который придаст её форму. График - здесь отображается ваша сеть.
  • 2:09 - 2:20
    Сейчас это чёрный квадрат. Но это изменится, не беспокойтесь. Кроме того, левая и нижняя строка меню позволяет вам вносить изменения в визуализацию.
  • 2:20 - 2:28
    Удерживая правую кнопку мыши перетаскиваем мышь, чтобы перемещаться по графику. Увеличение можно выполнить с помощью колеса прокрутки.
  • 2:28 - 2:39
    Если график теряется в пустоте, используйте значок зеркала в левом нижнем углу, точнее значок лупы. И он отцентрирует всё по вашему графику.
  • 2:39 - 2:47
    Контекст. Здесь отображается количество рёбер и количество узлов, которые есть в вашем графе. Пока они показаны все, но это можно
  • 2:47 - 2:54
    регулировать с помощью фильтров, о которых я расскажу чуть позже. Фильтры и статистика. Вы можете использовать фильтры для фильтрации
  • 2:54 - 2:59
    определённых узлов, рёбер или атрибутов в установке различных параметров для этих фильтров. На вкладке статистики вы можете
  • 2:59 - 3:13
    применить алгоритм для анализа набора данных. И запросы. Здесь отображаются использованные фильтры. И здесь кроме того вы можете настроить
  • 3:13 - 3:21
    все фильтры и применить их к визуализации. Что ж, давайте приступим к визуализации и изучению набора наших данных. Начнём с применения
  • 3:21 - 3:40
    алгоритма компоновки ForceAtlas к набору данных. Его можно выбрать здесь. Дальше вы нажимаете пуск. И он запускается.
  • 3:40 - 3:53
    В правом нижнем углу вы можете видеть, что алгоритм работает. Вот здесь вот. Через пару минут, мы дадим поработать ему около 5ти минут.
  • 3:53 - 4:05
    И через пару минут чёрный квадрат изменится на что-то вроде этого. Возможно у вас он будет выглядеть немного по-другому, но это вполне
  • 4:05 - 4:17
    возможно, т.к. у каждого Gephi работает по-своему. Поэтому важно записывать то что вы делаете. Как работает алгоритм ForceAtlas?
  • 4:17 - 4:24
    Алгоритм определяет положение узлов в сети относительно других узлов. Узлы с большим количеством связей располагаются ближе друг к другу.
  • 4:24 - 4:34
    Если связи между ними меньше, то они отталкиваются. И так у нас получается то, что вы сейчас видите на моём экране. Затем под выбором алгоритма
  • 4:34 - 4:40
    находится меню, в котором вы можете настроить свойства визуализации, такие как масштабирование, гравитация. Можно навести указатель мыши
  • 4:40 - 4:48
    на любое свойство и вы поймёте за что он отвечает. Например, мы не хотим чтобы одни узлы перекрывали другие и мы можем выбрать
  • 4:48 - 5:03
    запрет перекрытия, что поможет нам видеть каждый узел лучше. Как вы заметили, при импорте набора данных, данные изначально
  • 5:03 - 5:11
    отображаются в виде чёрного ящика. В Gephi есть невидимая рамка, в которой будут отображаться ваши данные. Это означает,
  • 5:11 - 5:19
    что данные также могут выходить за эти границы. Можно изменить настройки алгоритма, особенно масштаб, чтобы убедиться что график
  • 5:19 - 5:29
    полностью находится внутри квадрата. Чтобы никакие узлы не терялись в пустоте. Давайте оставим ForceAtlas пока запущенным и отметим поле LinLog,
  • 5:29 - 5:45
    которое покажет нам кластеры которые будут образовываться и разряженность можем им поставить на 3, что поможет нам лучше ориентироваться в графе.
  • 5:45 - 6:41
    После этого мы можем сохранить алгоритм ещё раз и перейти к статистикам, внешнему виду и фильтрам.
  • 6:41 - 6:53
    Отлично. Мы получили что-то вроде большого квадрата. И можем обратиться к статистикам. Вы можете видеть, что на визуализации уже есть несколько
  • 6:53 - 7:04
    кластеров, например здесь, здесь, здесь. И теперь можем перейти к статистикам. Вы сразу получите отчёт о степени с результатами.
  • 7:04 - 7:15
    Вы можете закрыть этот отчёт или сохранить его на свой компьютер. Обратите внимание, что на вкладке узла в лаборатории данных,
  • 7:15 - 7:30
    если мы зайдём убавляется как раз таки столбец "суммарная мощность", который мы только что рассчитали. Ну что же, давайте перейдём обратно в обработку
  • 7:30 - 7:45
    и кое-что посмотрим. Мы заходим в "внешний вид", "узлы" -> "вид" и мы можем выбрать атрибут, по которому мы хотим ранжировать.
  • 7:45 - 7:57
    В нашем случае есть "Degree" и "Суммарная мощность". И мы можем выбрать как раз минимальный размер, который мы хотим, пусть он будет 20.
  • 7:57 - 8:15
    И максимальный размер, который мы хотим, пусть 500. Дальше нажмём "применить". И некоторые узлы станут более явными. Что нам это даёт?
  • 8:15 - 8:26
    Допустим, нас интересуют наиболее известные герои в этой вселенной и мы хотим выделить их на диаграмме. Благодаря внешности и ранжированию
  • 8:26 - 8:38
    мы можем выбрать размер, изменить параметр по которому будут изменяться узлы и применить это к графику. Некоторые узлы, как мы заметили,
  • 8:38 - 8:48
    стали больше, потому что это узлы с наименьшей степенью и следовательно наиболее популярные герои. График всё ещё немного запутан,
  • 8:48 - 8:56
    мы можем повысить читаемость, применив фильтр. На правой панели перейдите в "фильтры", найдите "атрибуты", "диапазон". И здесь должна быть
  • 8:56 - 9:06
    суммарная мощность, которую можно перетащить в фильтр. Здесь у нас теперь мы видим, что есть диапазон, от 0 идёт до 1905.
  • 9:06 - 9:18
    И здесь например можно написать 30, чтобы все узлы в которых степень меньше 30ти не отображались. Выбрали 30. Нажимаем "отфильтровать".
  • 9:18 - 9:30
    И если посмотреть, то график стал немного прозрачнее. И здесь в контексте можем посмотреть, что мы видим только 37% всех узлов и 72% всех рёбер.
  • 9:30 - 9:39
    Важно что понимать, что фильтры полезны для обеспечения удобочитаемости, визуализации или фильтрации любых данных, которые вам не интересны.
  • 9:39 - 9:45
    И для более внимательного изучения интересующих вас данных. С помощью фильтра вы можете определить информацию, которую вы хотите
  • 9:45 - 9:51
    представить визуализации. Кроме того, Gephi позволяет применять отфильтрированный контент к новому рабочему пространству, выбирая второй значок
  • 9:51 - 10:05
    прямо под вкладкой. Затем снова давайте запустим ForceAtlas и посмотрим, что произойдёт. Смысл в том, что можно вносить изменения в граф
  • 10:05 - 10:32
    даже во время работы алгоритма. Что интересно, при выделении графа в рабочем пространстве также выделяются все узлы, с которыми он связан.
  • 10:32 - 10:47
    В нашем случае можно предположить, что этот узел связан почти со всеми другими узлами. Чтобы увидеть, кого представляет узел, мы можем добавить имена.
  • 10:47 - 11:01
    И также отобразить степень на экране графика. Можно щёлкнуть стрелку на правом нижнем углу, выбрать Label. Настроить что мы хотим отображать.
  • 11:01 - 11:17
    Мы хотим отображать label и суммарную мощность, степень. Сейчас лучше остановить. И мы можем нажать "текст". Текстом, ну как вы можете видеть,
  • 11:17 - 11:31
    что вроде бы ничего не появилось. Поэтому нам нужно поработать с размером текста. Отлично. Мы уже что-то увидели. И теперь с цветом.
  • 11:31 - 11:45
    Посмотрим что получится. Отлично. Что-то мы увидели. Но теперь это какой-то бардак и как раз таки мы можем поработать с функцией "Спрятать невыделенное",
  • 11:45 - 11:59
    которая уберёт всё что нам не нужно. И когда мы будем кого-то выделять одного, мы сможем увидеть кто это и степень узла.
  • 11:59 - 12:06
    Самый большой узел у нас представлен пока Капитаном Америка. А если мы хотим узнать больше, то мы можем напрямую обратиться
  • 12:06 - 12:18
    к лаборатории данных, мы нажали "выбрать" и мы видим всю информацию о нём. Кроме того, мы можем извлекать кластеры в нашей сети,
  • 12:18 - 12:24
    для этого Gephi реализует алгоритм обнаружения сообществ. Для измерения модулярности перейдите к статистике в правом верхнем углу,
  • 12:24 - 12:37
    как мы уже говорили. И здесь должна быть модулярность или modularity, если вы используете Gephi на английском. Запуск. Рандомизировать.
  • 12:37 - 12:54
    Использовать веса. Нажимаем ОК. Здесь мы можем увидеть, что у нас появилось 12 сообществ всего. Можно закрыть отчёт. Или сохранить, если вы хотите.
  • 12:54 - 13:06
    Дальше мы можем перейти во вкладку "внешний вид". Выбрать цвет. Выбрать разделение. И выбрать модулярность.
  • 13:06 - 13:20
    Если вас не устраивают цвета, то в Gephi есть встроенный генератор цветов, пресеты можно не менять. Нажмём на кнопку "generate" и он создаст для вас новые цвета.
  • 13:20 - 13:33
    Дальше нажать ОК и применить. Что мы можем увидеть на этом графе? Во-первых, наша визуализация стала более красочной. И давайте обсудим,
  • 13:33 - 13:38
    что же такое модулярность. С помощью модулярности вы можете находить сообщества в сети и измерять их силу. Высокая модулярность
  • 13:38 - 13:44
    означает, что группы узлов прочно связаны, создавая плотное сообщество, в котором герои в основном взаимодействуют только друг с другом,
  • 13:44 - 13:51
    а не с другими героями. И сообществами в этой сети, которая у нас получилась. Сообщества с низкой модулярностью менее плотные
  • 13:51 - 14:02
    и больше взаимодействуют с другими сообществами. Gephi реализует алгоритм. Давайте немного поговорим о числах, которые у нас находятся слева и справа.
  • 14:02 - 14:08
    Левое число - это случайное число, присвоенное сообществом, по сути это число мало что говорит. Однако правый процент важнее, например
  • 14:08 - 14:24
    класс модулярности 3 имеет процент 21. Таким образом, это сообщество довольно большое. И например класс модулярности 5 имеет всего 5%.
  • 14:24 - 14:32
    Что в общем-то уже в сравнении не так много. В таком сценарии, когда вы запускаете модулярность на фильтрованном графе, Gephi
  • 14:32 - 14:39
    будет вычислять модулярность фильтрованного графа, а не всей исходной сети. Мы раскрасили 8 крупнейших сообществ. Остальные сообщества
  • 14:39 - 14:46
    окрашены в серый цвет. Как вы можете заметить, их всего осталось 4. Во-первых, остановим ForceAtlas. Теперь главное сохранить свой проект,
  • 14:46 - 14:55
    потому что если что-то пойдёт не так и визуализация вам не понравится, мы всё равно сможем вернуться к нашему старому сохранению.
  • 14:55 - 15:10
    Советую вам всегда сохранить несколько файлов, чтобы вы сохраняли разный этап процесса. Грани в этой визуализации и рёбра довольно маленькие.
  • 15:10 - 15:36
    Поэтому можем сделать их чуть-чуть пошире. Используя этот ползунок, вы можете делать рёбра шире или уже. Так как мы дошли до границ квадрата,
  • 15:36 - 15:44
    который был виден нам до этого, я предлагаю вам уменьшить разряженность. Если у вас она была 1, то так и оставьте. У меня она была 3,
  • 15:44 - 15:54
    поэтому мой граф пришёл ко всем границам и теперь мне приходится это исправлять. Мой граф выглядит примерно так. Ваш может выглядеть по-другому.
  • 15:54 - 16:02
    И что из этого можно извлечь? Gephi - это инструмент, позволяющий исследовать сети в нашем наборе данных различными способами.
  • 16:02 - 16:09
    Сейчас мы используем одно рабочее пространство, мы можем создать другие, чтобы рассмотреть его поближе. Зайдите в "фильтры" и нажмите на этот значок.
  • 16:09 - 16:16
    И у нас появляется вторая рабочая область. Точно с таким же графиком. Если вы хотите поэкспериментировать с разными фильтрами,
  • 16:16 - 16:21
    всегда рекомендуется делать это в новом рабочем пространстве. Если вы отключите фильтры в нашей первой исходной рабочей области,
  • 16:21 - 16:36
    все узлы снова станут видимыми. К примеру вот так. Их стало даже больше. Давайте запустим ещё одну статистику в нашем новом рабочем пространстве,
  • 16:36 - 16:59
    которая называется "диаметры графа" или Network Diameter. Выберите ненаправленный. Запуск. И нормировать результаты.
  • 16:59 - 17:08
    Это займёт какое-то время, потому что граф у нас большой. В нём 2000 узлов, и рёбер ещё 120 тысяч, поэтому нам придётся немного подождать.
  • 17:08 - 17:19
    Вы можете видеть процесс расчёта вот здесь. Что мы в итоге получим? Во-первых, эта статистика будет добавлена в лабораторию данных
  • 17:19 - 17:30
    и она измеряет 3 вещи: это центральность по посредничеству, центральность по близости и центральность по эксцентричности.
  • 17:30 - 17:37
    Что они все значат? Центральность по посредничеству - это измерение, основанное на количестве кратчайших путей между двумя узлами.
  • 17:37 - 17:44
    Это показатель центральности или важности узла в сети. Высокое значение предполагает, что узел соединяет части сетей вместе.
  • 17:44 - 17:49
    Меньшее значение означает, что узлы не являются центральными в сети. Центральность по близости, эта мера указывает
  • 17:49 - 17:56
    на близость узла к другим узлам. Более высокое значение означает, что среднее расстояние от узла до других узлов сети больше.
  • 17:56 - 18:04
    Меньшее значение означает, что среднее расстояние короче. Это может быть индикатором скорости, с которой информация течёт по сети.
  • 18:04 - 18:12
    И центральность по эксцентричности - эта мера подразумевает расстояние от узла до самого дальнего от него узла.
  • 18:12 - 18:20
    Высокое значение означает, что это расстояние большое. Низкое значение означает, что расстояние небольшое. Что мы можем сделать
  • 18:20 - 18:29
    с этими измерениями? Чтобы увидеть какие узлы являются центральными в этой сети, мы можем ранжировать узлы по размерам.
  • 18:29 - 18:39
    Для этого перейдите в Appearance, выберите Nodes. Изменение по размеру. Ranking. И вместо Degree можно выбрать центральность по посредничеству
  • 18:39 - 18:50
    или Betweenness Centrality. И также оставить минимальный размер 20, максимальный размер - 500. Нажать "применить".
  • 18:50 - 18:56
    Центральные узлы в нашей сети теперь стали больше. Вместо того чтобы придать размеры узлов в соответствии с их степенью,
  • 18:56 - 19:04
    они теперь имеют размер в соответствии с центральностью по посредничеству. Давайте запустим алгоритм ForceAtlas ещё раз, только не забудьте
  • 19:04 - 19:19
    выбрать LinLog режим. И можно запускать. Давайте поговорим про диаметры сети, которые также вычисляются вместе с тремя метриками
  • 19:19 - 19:26
    центральности, о которых мы говорили до этого. Эта статистика измеряет длину самого длинного пути между двумя узлами в сети.
  • 19:26 - 19:41
    В данном случае диаметр у нас равен четырём. Давайте поговорим про то что у нас получилось. Установим алгоритм. И посмотрим на те узлы,
  • 19:41 - 19:48
    которые у нас являются самыми большими, так как это новое рабочее пространство, то у нас все настройки немного сбились. Мы можем вернуться
  • 19:48 - 20:11
    в это меню. Выбрать Label. Настроить. Также можно выбрать суммарную мощность. Не забыть выбрать шрифт побольше. Выбрать узел.
  • 20:11 - 20:24
    Скрыть невыделенное. И посмотреть кто это такой. Всё ещё Капитан Америка, скорее всего потому что он считается одним из самых первых героев.
  • 20:24 - 20:41
    Здесь есть Тор. И это Человек-паук. Теперь что можно сделать для подготовки нашего графика к экспорту? Мы можем нажать просмотр.
  • 20:41 - 20:52
    Здесь у меня уже открыт график. Вы можете нажать кнопку "обновить". И теперь у нас будет первая версия для работы. В настройках мы можем
  • 20:52 - 21:03
    регулировать то что мы хотим видеть на визуализации или что не хотим. Например, мы можем выбрать пункт "отобразить рёбра кривыми".
  • 21:03 - 21:18
    И нажать "обновить", чтобы увидеть как меняет график этот параметр. Но самое важное, чтобы вы пытались настроить его так,
  • 21:18 - 21:30
    чтобы вы могли передавать информацию о наборе данных. Таким образом нужно подумать о том что мы хотим рассказать этой визуализацией и на чём нам надо сделать акцент.
Title:
https:/.../hd.mp4
Video Language:
Russian
Duration:
21:30

Russian subtitles

Revisions