��ࡱ�>�� .%����-�������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������� �(���� ��/� 0��L�DTimes New Roman����̵��0����0�  @�n��?" dd@���������  @@``�� ���`, "   c �$�����@������>� �g��44d4d����0��Bx 8�������p�pp�@ <��4BdBd�?��B 2���g��4'd'd����0��Bx ��������p�@ p�p?� �%O� �=�U ���Data Mining and the Web��xSusan Dumais Microsoft Research KDD 97 Panel - Aug 17, 1997���The Web as a Text Database��BIG and doubling every year 70 million observations (urls) 50 million variables (words) very sparse BAD and UGLY uncontrolled quality, widely distributed, rapidly changing, heterogeneous/complex data types, no consistent semantics or structure within or across objects, etc.�LH �H ��5����* Data Mining the Web���Today: Search and meta-search engines Hand-crafted hierarchies Special-purpose information discovery and extraction algorithms (e.g., home pages, authority pages, interesting pages, fun cities)�$����� ��Data Mining the Web��7To Come: Inter-document associations uncovered by: Automatic classification Generating fixed or ad hoc structures (e.g., clustering) Exploring similarity neighborhoods (e.g., visualization) Highly interactive interfaces Analysis of interrelations among objects Interest specification/Query formulation problem �l *�Z *�Z� ��What we Need to Get There��GBetter Text Mining Tools (for the Web) Robust, scalable methods for feature selection - word statistics, learned indexing features, tags Integration w/ databases Web mining services (rich API to Web indices) Model/Pattern specification and summarization Content/topical interests Patterns of interest - new, different, central�Z'�I'QJI� ��What we Need to Get There��Going Beyond Text Metadata Date, size, author, site, time etc. Structure - reflects prior human knowledge Link structure (in-links, out-links) People - individually and collectively Ratings/preferences User models, usage patterns Integration of the above�� $+%'1 $+%'1��/�� ��u� `� ������̙33�������`� ��������������`� ���ff3��3�3�3���f`� ���333������MMM���`� ��������f������`� ���������f���`� ������3�����������>��?" dd@���������,�|��?" dd�@��������� � � �" �@� �`��� �n��?" dd@���������   @@``��P�R    @ ` �`� p�>��> �����c�( ����������������� ��� � � �6���N������ ����P�� N �T�� Click to edit Master title style�!� !� � � �0�$�N����� ������ N ���RClick to edit Master text styles Second level Third level Fourth level Fifth level�!    � S� � � �0���N����� �`�`��� N �=��*��� � � �0���N����� �`�����  N �?��*��� � � �0�D�N����� �` ���� N �?��*���H � � �0�������޽h�� ?� ������̙33����������� 0 ��0�$�.�( ��N��M� �$�� �$ � �0���N����� �P ��  N �Y��*� ���� �$ � �0�$�N����� �� � �� N �[��*� ���d �$ c �$��� ?��� �� N� �$ � �0���N����� �� @���� N ���RClick to edit Master text styles Second level Third level Fourth level Fifth level�!    � S�� �$ � �6�dbN������ �`P���  N �Y��*� ���� �$ � �6�hN������ �`� ���� N �[��*� ���H �$ � �0���޽h������ ?� ������̙33����������� ���@���( � ��l � C ��DgN���`��`�� N � ��l � C ���gN���� ` `�� � � ��H � � �0�������޽h�� ?� ������̙33���������� � ���`� ��( ����� � �l � C �����������P��   � ��l � C ��t����������  � ��H � � �0�������޽h�� ?� ������̙33���������� � �������( ��t@�B@ ��l � C ��� z������P��   � ��l � C ���&z��������  � ��H � � �0�������޽h�� ?� ������̙33���������� � ��� ���( �T�n0 ��l � C ����N������P��  N � ��l � C ���N�������� N � ��H � � �0�������޽h�� ?� ������̙33���������� � ����� �$�( ��t@ � �r � S �����������P��   � ��r � S �������������  � ��H � � �0�������޽h�� ?� ������̙33���������� � �������( ��P� ��l � C ����������P��   � ��l � C �����������  � ��H � � �0�������޽h�� ?� ������̙33���������� 0 ��xP�(��( � �(�R �( 3 ���$��� ��  z�~ �( C ��4����$�� @����   ��� �H �( � �0���޽h������ ?� ������̙33�������r40jJ`* �% "�#��'�� ~) �������Oh��+'��0@ hp��� �� � � ��Data Mining and the Web tatasdumais31mMicrosoft PowerPointeb@@s�[�@P�I"���@ �dd�ǼG&����oM   0&������ &����&#����TNPP��0�z & TNPP� &����&TNPP   �� ����-�-- !���-����-��-&����G��&�����d 5!��w*��w�g�wd 5 - &����G�y�&���� �--y�H-- ����Times New Roman*��w�g�w&  -� .*2 ��Data Mining and the Web*57.--�1��-- ����Times New Roman*��w�g�wd 6 -� .2 �f Susan Dumais ! . ."2 9Microsoft Research&  . .02 ~�KDD�97 Panel - Aug 17, 1997     .--��"SystemwK f�� � -�&TNPP &��������՜.��+,��D��՜.��+,���D������� � �� ���  ��On-screen Show -s�),�  Times New RomanDefault DesignData Mining and the WebThe Web as a Text Database�Data Mining� the WebData Mining the WebWhat we Need to Get ThereWhat we Need to Get There  Fonts UsedDesign Template Slide Titles� 6> _PID_GUID�AN{86EA3892-336E-11D1-9C46-006008166E1E}���������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������_���)���sdumais �������� !"#$����������������������������������������/������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������Root Entry�,��,��,�V�,V�VV��V��V��V���,��V������������������d�O�����)�,�V����@�kȼ&@�,��Current UserV�������������,��V�����������,��V����������������444<<<<�4���X��XuPowerPoint Document9 ��$=�J�򮟈Ȉ�$�I�~(�����'N�!�ȉ'��B�a���抃�'+���GN�8�)L�iDocumentSummaryInformationʨ!�?�P"8������������Չ����������l�4�]�o�d@H(�!��xI�*�� >�����Y@+"kЏ���ܼ���EF���E�ɷ���� P�"�!|��3X��U���K�������������E�_��.BF�v��J8�dAH�,��!e�Я"�?�Og��ԡ�g�K~��-aUe���ʒ�8Ѻ���e��j��mۨNXU$�QeF %[VXו�}������#�:����������������,��%.e[%/��-��B��?����������������Z}O�����cنCeh�G��NO�?�U~��ݪ�+��i��1�f_�