ויקיפדיה:מיזמי ויקיפדיה/מופ/הרצאות Q4 2014
המחקר האקדמי בנושא ויקיפדיה הולך וגובר בשנים האחרונות. מחקר זה דורש התמודדות עם מספר אתגרים: למידת תרבות העריכה והתנהלות הקהילה, הבנת כללי האתיקה המחקרית של קרן ויקימדיה, פיתוח כלי תוכנה לאיסוף ועיבוד נתונים ושימוש בשיטות מחקר חדישות.
עמותת ויקימדיה ישראל מעוניינת לקדם את השימוש בשפת R לחקר ויקיפדיה (בעברית ובשפות אחרות). ברצוננו ליצור קהילת מפתחים וחוקרים אשר תפגש על בסיס קבוע ותפתח כלים שעל בסיסם יתבצע מחקר. היתרון בסביבת R הן יכולות מתקדמות לניתוח נתונים סטטיסטי, חזותי ואינטגרציה נוחה עם כלים אחרים. שפה זו צוברת פופולריות בקרב סטטיסטיקאים ומהווה חלק מאקולוגית הקוד הפתוח.
מפגש: ניתוח רשתות חברתיות באמצעות R
עריכההמפגש יתקיים בקמפוס גוגל בתל אביב, 11/12/2014, 18:30-21:30. המפגש מאורגן על ידי ויקימדיה ישראל בשיתוף קהילת משתמשי R בישראל ובחסות איגוד הסטטיסטיקה הישראלי.
מרצים: אורן בוצ'מן ועפרית לסר
ניתן להירשם לכנס בקישור המופיע כאן.
לו"ז
עריכה- 18:30-19:00 התכנסות
- 19:00-20:00 - עפרית לסר
- 20:30 - 20:00 הפסקה
- 21:30 - 20:30- אורן בוצ'מן
תקצירים
עריכהSocial network analysis with R and igraph
עריכהSocial network analysis (SNA) is the use of network theory to analyze social networks. SNA provides both a visual and a mathematical analysis of entities relationships. These entities can be people, organizations, countries etc. SNA is a practical method for visualizing such networks, identify powerful individuals, and perform data-mining in order gain further insight on its nature.
This talk presents some basic concepts in SNA, and demonstrates it using R and igraph. igraph is a collection of network analysis tools with the emphasis on efficiency, portability and ease of use. It is open source and free and can be programmed in GNU R (as well as Python and C/C++).
About me: Ofrit Lesser is a PHD student at the Information Systems Engineering department, Ben Gurion University
Scraping Wikipedia using R and RCurl and httr
עריכהWikipedia is the most commonly cited information source in infographics. The organization behind Wikipedia, the WMF, provides a rich API to access many types of structured and semi structured data. As a result most of the edits on Wikipedia today are performed using automated scripts called robots. To get at real-time version of information you will have to resort to "good old" scraping techniques.
This talk presents RCurl and httr are used to solve many challenges of scraping a website. I will discuss some of the technical challenges of using RCurl to build high level API based functionality as well as the other glue needed to scrape pages - (debugging, testing, two step authentication and editing). I’ll also touch on the ethics of scraping and provide some alternatives to large scale scraping of Wikipedia.
About me: Oren Bochman has a B.A. in Mathematics & Information Science from Bar Ilan University. Bochman is an open-source developer and contributor to Wikipedia.