ויקיפדיה:מיזמי ויקיפדיה/מופ/הרצאות Q4 2014

המחקר האקדמי בנושא ויקיפדיה הולך וגובר בשנים האחרונות. מחקר זה דורש התמודדות עם מספר אתגרים: למידת תרבות העריכה והתנהלות הקהילה, הבנת כללי האתיקה המחקרית של קרן ויקימדיה, פיתוח כלי תוכנה לאיסוף ועיבוד נתונים ושימוש בשיטות מחקר חדישות.

עמותת ויקימדיה ישראל מעוניינת לקדם את השימוש בשפת R לחקר ויקיפדיה (בעברית ובשפות אחרות). ברצוננו ליצור קהילת מפתחים וחוקרים אשר תפגש על בסיס קבוע ותפתח כלים שעל בסיסם יתבצע מחקר. היתרון בסביבת R הן יכולות מתקדמות לניתוח נתונים סטטיסטי, חזותי ואינטגרציה נוחה עם כלים אחרים. שפה זו צוברת פופולריות בקרב סטטיסטיקאים ומהווה חלק מאקולוגית הקוד הפתוח.

מפגש: ניתוח רשתות חברתיות באמצעות R

עריכה

המפגש יתקיים בקמפוס גוגל בתל אביב, 11/12/2014, 18:30-21:30. המפגש מאורגן על ידי ויקימדיה ישראל בשיתוף קהילת משתמשי R בישראל ובחסות איגוד הסטטיסטיקה הישראלי.

מרצים: אורן בוצ'מן ועפרית לסר

ניתן להירשם לכנס בקישור המופיע כאן.

  • 18:30-19:00 התכנסות
  • 19:00-20:00 - עפרית לסר
  • 20:30 - 20:00 הפסקה
  • 21:30 - 20:30- אורן בוצ'מן

תקצירים

עריכה

Social network analysis with R and igraph

עריכה

Social network analysis (SNA) is the use of network theory to analyze social networks. SNA provides both a visual and a mathematical analysis of entities relationships. These entities can be people, organizations, countries etc. SNA is a practical method for visualizing such networks, identify powerful individuals, and perform data-mining in order gain further insight on its nature.

This talk presents some basic concepts in SNA, and demonstrates it using R and igraph. igraph is a collection of network analysis tools with the emphasis on efficiency, portability and ease of use. It is open source and free and can be programmed in GNU R (as well as Python and C/C++).

About me: Ofrit Lesser is a PHD student at the Information Systems Engineering department, Ben Gurion University

Scraping Wikipedia using R and RCurl and httr

עריכה

Wikipedia is the most commonly cited information source in infographics. The organization behind Wikipedia, the WMF, provides a rich API to access many types of structured and semi structured data. As a result most of the edits on Wikipedia today are performed using automated scripts called robots. To get at real-time version of information you will have to resort to "good old" scraping techniques.

This talk presents RCurl and httr are used to solve many challenges of scraping a website. I will discuss some of the technical challenges of using RCurl to build high level API based functionality as well as the other glue needed to scrape pages - (debugging, testing, two step authentication and editing). I’ll also touch on the ethics of scraping and provide some alternatives to large scale scraping of Wikipedia.

About me: Oren Bochman has a B.A. in Mathematics & Information Science from Bar Ilan University. Bochman is an open-source developer and contributor to Wikipedia.

משתתפים

עריכה
  1. אבנר - שיחה 17:34, 31 באוקטובר 2014 (IST)[תגובה]
  2. ערן - שיחה 23:30, 3 בנובמבר 2014 (IST)[תגובה]

תמונות

עריכה