Як працювати з відкритими даними Верховної Ради України, використовуючи Excel
Громадянська мережа ОПОРА в рамках реалізації проекту “Портал відкритих даних Верховної Ради України” за підтримки Програми розвитку ООН розробила відео-урок про роботу з відкритими парламентськими даними із використанням MS Excel. Активіст організації Григорій Сорочан поділився власним досвідом роботи з порталом відкритих даних ВРУ opendata.rada.gov.ua
Відео розраховане на початківців у роботі з відкритими даними та дає відповіді на питання:
- Які дані та в якому форматі можна взяти з порталу відкритих даних ВРУ?
- Як імпортувати дані в MS Excel та які несподіванки нас можуть очікувати?
- Як працювати з даними в Excel, використовуючи функції та зведені таблиці?
Програмне забезпечення, яке використовувалося під час запису відео - це програма MS Excel 2010 (українська версія).
Під час уроку було розглянуто такі набори даних з порталу opendata.rada.gov.ua:
Законопроекти (Інформація про законопроекти 8 скликання). Набір даних містить інформацію про зареєстровані законопроекти, авторський колектив та ініціаторів, виконавців (комітети), супровідні документи та етапи проходження законопроектів. Оновлення набору здійснюється щодобово. Формат даних: CSV.
Народні депутати України (Інформація про народних депутатів України 8 скликання). Набір даних містить:
а) довідкову інформацію про народних депутатів, їх посади в фракціях, комітетах та інших об’єднаннях, про помічників депутатів
б) відомості з декларацій про доходи народних депутатів
Оновлення набору здійснюється щодобово. Формат даних: CSV.
Пленарні засідання (Інформація про пленарні засідання 8 скликання). Набір даних містить інформацію про результати реєстрації депутатів на пленарних засіданнях, результати голосувань (в тому числі й поіменних) за питання порядку денного та інформацію про виступи депутатів на засіданнях. Оновлення: щодобово
Оновлення набору здійснюється щодобово. Формат даних: CSV.
Формат СSV є основним форматом даних на порталі відкритих даних ВРУ
CSV (від англ. comma-separated values «значення, розділені комою», іноді character-separated values «значення, розділені символом») – файловий формат, який використовується для представлення табличних даних, у якому поля (стовпці таблиці) відокремлюються символом коми (або іншим роздільником)
Для того, щоб відкрити файл в форматі CSV в програмі MS Excel рекомендовано використовувати Майстер імпорту тексту, знайти його можна на вкладці Дані. Майстер складається з таких кроків:
- обирається файл, з якого здійснюється імпорт;
- вказується формат вихідних даних (з розділювачем чи фіксованої ширини), кодування та номер рядка з якого відбуватиметься імпорт;
- задається роздільник (чи комбінація роздільників) стовпців, наприклад, це може бути символ «кома» - «,»;
- вказуються формати даних стовпців у вихідній таблиці;
- задається місце (лист, стартова комірка), куди буде імпортовано дані з файлу CSV.
Під час цієї операції користувач може зіштовхнутись із «негараздами імпорту». Так, часто виникають такі ситуації:
- Excel не завжди якісно імпортує CSV файли, які представляють великі за розміром таблиці;
- часом трапляються проблеми з «автоматичним» розпізнанням формату даних;
- обмеження за кількістю рядків на листі Excel (1 048 576 рядків для версії 2010), тому, наприклад, набір даних, який надає інформацію про поіменні результати голосування, та який містить 2 906 794 записів, імпортувати повністю на один лист неможливо і в таких ситуаціях доцільно використовувати, наприклад, середовище R (за посиланням Ви знайдете урок щодо роботи в середовищі R).
За цим посиланням можна знайти імпортовані та почищені набори даних в MS Excel, а також детальні описи цих наборів даних: https://app.box.com/s/mg2p2cctygucds5bg7jpoptm5s1bfp33
Для того, щоб закріпити практично прийоми роботи в MS Excel, на основі імпортованих даних було вирішено два досить простих, але стандартних за технічними прийомами, практичних завдання.
Практичне завдання 1. Визначити у кого з офіційних ініціаторів законопроекти найчастіше стають нормативними актами (використовувалася група даних: Законопроекти – Інформація про законопроекти 8 скликання).
Практичне завдання 2. Підрахувати кількість помічників народних депутатів (використовувалася група даних: Народні депутати України – Інформація про народних депутатів України 8 скликання).
В обох завданнях реалізовується прийом об’єднання даних з різних листів Excel за ключовим полем.
Так, поняття «Ключове поле» (стовпчик таблиці) – це поле, яке є унікальним в одній таблиці, і за яким можна задати відповідне значення в іншій таблиці, де відповідне значення повторюється декілька разів. Для об’єднання даних з різних листів (таблиць) по ключовому полю можна використовувати комбінацію функцій Excel:
INDEX (), російський еквівалент ИНДЕКС();
MATCH(), російський еквівалент ПОИСКПОЗ().
Функція INDEX() повертає значення елемента таблиці (масиву), вибраного за індексами (номерами) рядків і стовпців.
Синтаксис: INDEX(масив; номер_рядка; [номер_стовпця])
масив (обов’язковий аргумент) - діапазон клітинок (таблиця), з яких повертатиметься значення;
номер_рядка (обов’язковий аргумент) - вибирає рядок у масиві, з якого повертається значення (ПРИМІТКА. Ми використовуватимемо для визначення номеру рядка функцію MATCH());
номер_стовпця (необов’язковий аргумент) - вибирає стовпець у масиві, з якого повертається значення.
Функція MATCH() шукає вказаний елемент у діапазоні клітинок і повертає відносне розташування цього елемента в діапазоні
Синтаксис: MATCH(шукане_значення; масив_перегляду; [тип_зіставлення])
шукане_значення (обов'язковий аргумент) – значення, яке потрібно знайти в масиві_перегляду;
масив_перегляду (обов'язковий аргумент) - діапазон клітинок, в якому шукають значення;
тип_зіставлення (необов’язковий аргумент) - число -1, 0 або 1 (в нашій ситуації ми використовуватимемо значення цього параметру «0», що відповідає пошуку «точного» значення).
Робочий файл EXCEL з виконаними завданнями, де можна детальніше ознайомитись з тим, як працюють функції та переглянути результуючі зведені таблиці, можна звантажити за посиланням:
Завдання 1 – https://app.box.com/s/nyjjqoi91vb7htprs28p57j8s8is39ml
Завдання 2 - https://app.box.com/s/c9yd0owafu9wa33c2vw667uorm98mv5j
Замість висновків що варто пам’ятати:
- під час імпорту пам'ятайте про те, що Excel не завжди імпортує коректно;
- перед тим, як серйозно працювати з наборами даних, вивчіть структуру усієї групи (на жаль, описів на сайті поки нема);
- не забувайте, що потрібно після кожної дії перевіряти, наскільки коректно вона була виконана, помилки трапляються часто;
- не слід боятися працювати в Excel з наборами з порталу відкритих даних, це реально;
- для чистки даних можна використовувати OpenRefine;
- альтернативою до Excel є Calc з LibreOffice, зокрема, він якісніше імпортує CSV;
- портал відкритих даних Верховної Ради України працює все ще в тестовому режимі, проте, систематично надає якісну інформацію в форматі відкритих даних про народних депутатів, законопроекти та перебіг пленарних засідань.
Посилання на презентацію: https://app.box.com/s/88f88722jwi6l8qwdsacyuohcts6bquo